Comment compter le nombre de pages indexées d’un site

Trouvé le 17 septembre 2004 à 12:15 par - 1 716 vues


La question peut sembler simpliste ou naïve puisqu’il existe une commande bien pratique sur Google : site:URL où URL est un nom de domaine par exemple. Mais nous allons voir ensemble que ce n’est pas si simple… Examinons ensemble plusieurs exemples avec le site WebRankInfo :

Pour chercher toutes les pages indexées du site, la requête site:webrankinfo.com renvoie environ 94 000 résultats.
Bien entendu si vous faites le test, vous trouverez peut-être un nombre différent, même si vous le faites peu de temps après la publication de cet article. Ceci est dû au fait que Google utilise plusieurs centres de données et qu’il n’est pas garanti que ce soit le même qui soit utilisé pour répondre à nos requêtes (chaque centre de données a sa propre version de l’index de Google, ces index ayant quelques différences qui peuvent être analysées sur cet outil).

Si nous cherchons les pages de WebRankInfo ne contenant pas le « mot » kjertoiusfjqhgfdgddsg (a priori cela revient à chercher toutes les pages du site) nous obtenons par la requête site:webrankinfo.com -kjertoiusfjqhgfdgddsg environ 95 000 résultats. Cela correspond à peu près aux 94 000 trouvés précédemment, ce qui n’est pas étonnant (mais pour d’autres exemples les résultats peuvent être très différents !).

Si nous cherchons les pages de WebRankInfo ayant le mot webrankinfo dans l’URL (a priori toutes) nous obtenons par la requête inurl:webrankinfo site:webrankinfo.com environ 155 000 résultats. Etonnant, non ?

En prenant un autre exemple (DMOZ), nous voyons que les résultats peuvent être inversés. La requête site:dmoz.org renvoie environ 784 000 résultats tandis que la requête inurl:dmoz site:dmoz.org en renvoie environ 440 000.

Google a donc du mal à fournir des bonnes estimations sur le nombre de résultats dès lors que le site possède plusieurs milliers de pages dans l’index. Notons que parmi les résultats des requêtes site:URL, il existe souvent de nombreux résultats sans titre ni description.

En y regardant de plus près, on s’aperçoit que Google ne connait pas la taille du document et qu’il ne propose pas de lien vers la version en cache. C’est logique puisque cela correspond à des pages dont Google connaît l’existence grâce à des liens issus d’autres pages, mais qu’il n’a pas encore été visiter.

Une astuce révélée sur Zorgloob nous indique que ces pages n’ont pas non plus été « localisées ». C’est-à-dire que Google n’a pas encore déterminé dans quelle langue elles sont écrites (et sans pas non plus dans quel pays elles sont hébergées, mais ceci n’est pas certain). Si bien qu’il est facile de les éliminer de nos recherches de pages indexées en choisissant par exemple l’option « Pages francophones » du formulaire de recherche de Google.

Cela fonctionne bien avec l’exemple de WebRankInfo et en choisissant l’option « Pages francophones » nous ne voyons plus de résultats de ce type. Mais chose encore une fois surprenante la requête site:webrankinfo.com avec l’option « Pages francophones » renvoie environ 159 000 résultats (à comparer aux 94 000 indiqués sans restriction de langue)…

Ce genre de problème ne semble apparaître que pour les sites ayant un grand nombre de pages indexées.
Source: http://www.prweaver.fr/blog/2004/09/17/12-nombre-pages-indexees


<- Actualité précédente: Up2News : un moteur de recherche sur l’audio-visuel (+interview)
->Actualité suivante: CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adse

Publié dans Archives, Zorgloob |

Découvrez les articles sur le même thème

    Aucun article trouvé