Retrouvez motrech sur son nouveau site http://motre.ch/

22 août 2005

Jérôme Yahoo! lave plus blanc que blanc


Dans un précédent billet, je m'interrogeais sur la taille du Web.

Même s'il est clair que tout le monde ne s'accorde pas sur une définition commune, je constatais le manque d'études récentes à ce sujet (sujet pourtant important).
Au mois de Janvier dernier, je suis comblé, une nouvelle étude portant sur l'estimation de la taille du Web fait son apparition.

Bilan: Il y aurait 11,5 milliards de pages Web. Google en indexerait à cette époque 8 milliards, Yahoo! 6,6 milliards, Ask Jeeves, 5,3 milliards et MSN 5,1 milliards.
Or, comme je le mentionnais dans mon billet d'hier, le 8 Août dernier, Yahoo! annonçait indexer maintenant 19,2 milliards de documents.

Je ne me lancerais cependant dans aucune conclusion hâtive pour aujourd'hui. Je n'ai pas assez d'éléments en main.
Mais je m'interroge, l'écart est tout de même significatif!
  • D'un côté, l'étude en question me semblait à l'époque assez sommaire sur la description de sa méthodologie.
  • D'un autre côté, le mystère des Pages Manquantes de Yahoo! sème également le doute.
Je vous laisse donc enquêter sur le sujet afin de déterminer si l'étude en question lave trop blanc, ou bien si c'est Yahoo! qui lave plus blanc que blanc...

2 commentaires:

Luc Comeau-Montasse a dit…

Quelqu'un a-t-il eu la curiosité de faire une étude statistique des chiffres figurant dans les résultats que donnent ces différents moteurs de recherche ?

J'ai commencé récemment ce travail
(pour vérifier si les chiffres donnés ne sortent pas d'une main humaine)
mais je ne dispose pas d'assez de données
...
alors si une telle vérification existe
ou si un relevé de stats journalières était disponible ...

Jean-Luc Morin a dit…

En lisant brièvement l'étude “Different Engines, Different Results”, une étude de Dogpile.com en collaboration avec des chercheurs de l’Université de Pittsburgh et l’Université de l’État de Pennsylvanie (Avril 2005), nous pouvons lire à la page 7 au bas que la quantité de documents gratuits que compte le Web est de l’ordre de 45 milliards de pages Web statiques et plus de 200 milliards de pages dynamiques.

Si une personne peut analyser/expliquer ces chiffres publiés récemment (11,5 milliards, ...), ce serait très intéressant !

Étude disponible à http://72.5.51.140/OverlapAnalysis.pdf

Enregistrer un commentaire