Retrouvez motrech sur son nouveau site http://motre.ch/

11 mars 2005

Jérôme Le Web, un autre Univers en expansion

Je recherchais récemment des références sur la taille du Web. J'ai donc tout naturellement posté un message sur la liste motrech. De très nombreuses réponses m'ont été proposées (encore une fois, merci à tous).
Mais le constat de toutes ces réponses est finalement assez dramatique:
Aucune étude récente ne semble disponible sur le sujet
La caractérisation du Web, par sa taille, mais aussi sa structure, ou son contenu me semble pourtant un sujet important. Tout comme il est primordial de décoder l'ADN, ou d'explorer l'Univers, il me semble capital d'explorer le Web. Pourquoi nos majors de la recherche sur Internet (YaGooSN - Yahoo, Google, MSN) ne font-ils pas d'études sur leur propre domaine (ou pourquoi ne les rendent-ils pas publiques) ?

Quelques ressources d'une autre Ère...

Quoi qu'il en soit, pour ceux d'entre vous qui souhaiteraient se frotter à ce sujet, je regroupe ci-dessous les quelques (anciennes) ressources que nous sommes parvenu à faire ressortir de cette discussion:

La fin de l'Ère YaGooSNiène approche

Lors de l'une de mes blogscussions avec Jean Véronis , ce dernier sous-entendait un parallèle entre le Web et l'Univers. Et je pense que c'est en effet exactement le point de vue que nous devons adopter. Nous nous trouvons aujourd'hui confrontés aux mêmes problématiques que les astronomes. Nous nous trouvons face à un univers très vaste, en perpétuel changement, en expansion qu'il nous faut appréhender à la fois dans sa globalité et dans ses détails.

Nous disponsons à ce jour des mêmes moyens que les astronomes:
  • des télescopes que sont les moteurs de recherche
  • des sondes que sont les spiders de toutes sortes
La différence fondamentale consiste en ce que les plus puissant télescopes dont nous disposons aujourd'hui pour observer le Web (YaGooSN) disposent d'optiques déformantes, subjectives et à la focale hautement commerciale (toutes ces déformations sont très largement mises en relief par les différents billets de Jean Véronis).

Je suis convaincu que nous avons besoin d'un observatoire indépendant, basé sur des optiques transparentes et non déformantes. C'est à dire d'un moteur de recherche totalement ouvert répondant à différents critères:
  • Flexible
  • Impartial
  • Gratuit
  • Coopératif.
En d'autres termes, il est temps que la mutation qui est aujourd'hui en cours dans le domaine des systèmes d'exploitation (Microsoft vs Linux) s'ammorce dans le domaine des moteurs de recherche

Au risque de me répéter (pour les lecteurs attentifs de la liste motrech), la seule réponse actuellement disponible répondant à tous ces critères est Nutch (un moteur de recherche Open Source écrit en Java, basé sur Lucene).
Vous le savez certainement, j'ai lancé récemment une liste de discussion francophone autour de Nutch: Frutch (FRancopho nUTCH). L'idée étant de mettre en place un prototype de moteur de recherche basé sur Nutch et dont l'axe principal dans un premier temps serait de fournir une transparence totale: transparence du contenu des index, transparence de l'implémentation. Mais ce projet ou un autre du même type ne pourra pas décoller si des institutions, des organismes ou des entreprises ne proposent de le financer par des dons (afin de garder toute l'indépendance nécessaire).

Ce billet n'est pas un appel pour récolter des dons pour Frutch (si toutefois vous désirez faire un don, remarquez le bouton PayPal se trouvant à droite de cette page. Il est destiné à cela), mais plutôt un sondage afin de savoir si vous adhérez à cette vision de l'évolution nécessaire des moteurs de recherche, et également un moyen de lancer un débat qui, il me semble est inévitable à plus ou moins long terme.

1 commentaires:

Olivier Ertzscheid a dit…

Ce message m'inspire plusieurs commentaires. OK pour l'analogie web/univers (Ted Nelson, père de l'hypertexte, parlait à l'époque de "docuverse"). La difficulté en cette affaire c'est que les particules (pardon , les données) qui contribuent à cette expansion sont de nature très diverses et viennent elles-mêmes d'univers différents : comme en atteste le petit compte-rendu d'une récente réunion des représentants de nos chers moteurs, l'avenir est aux plateformes intégrées de recherche (intégrant personnalisation et messages électroniques) et à l'intégration de la sphère personnelle (desktop searching) et de la sphère web (voir là dessus : http://urfistinfo.blogs.com/urfist_info/2005/03/des_outils_aux_.html).
Or il me paraît à la fois impossible (et relativement inintéressant) de vouloir tenir une comptabilité de tous les messages personnels circulant sur la planète. Idem pour le volume de données contenues sur tous les ordinateurs individuels connectés sur la planète. Or le web de demain sera cela :
ProchainWeb = WebActuel[WebPublic+Forums+Usenet+WebInvisible] + DonnéesPersonnelles[DisqueDUrs+COntenusMesagesPrivésMails].
Ceci explique peut-être (en partie) que l'on ne trouve effectivement pas d'études postérieure à 2000 sur la "taille du web" (même si effectivement, il serait passionnant et légitime de pouvoir disposer d'infos en provenance directe des moteurs sur la taille de "leur" web).

Sur la deuxième partie du billet et le besoin d'un nouveau moteur "ouvert, flexible, impartiel et collaboratif", et même si en disant les chose de cette manière il est difficile d'être "contre" j'exprime quand même quelques réserves (qui ne sont pas des réserves de principe mais prétendent juste lancer un débat et prolonger une réflexion). La clé numéro 1 est celle de la taille d'index. Les usagers et les moteurs le savent. Si le trio de tête est ainsi constitué (Google, MSN, Yahoo) c'est parce que les chiffres des bases d'index correspondent. Les usagers iront TOUJOURS vers les 2 ou 3 outils disposant de la plus grosse base d'index. Ce qui est légitime. Or, seules de telles firmes ont les moyens d'indexer de crawler et de rafraîchir dans des délais raisonnalbes d'aussi considérables masses d'informations. Je pense donc qu'il y a de la place pour des moteurs alternatifs, innovants, collaboratifs et ouverts (ou utilisant d'autres techniques comme la cartographie ou le clustering automatique) mais je pense que cette place sera toujours à la marge des 3 grands. Sauf si, et cela n'est ni totalement inenvisageable ni totalement utopique, sauf si, disais-je, la recherche d'information sur le web fait le grand saut du P2P et bascuyle entièrement dans ce nouveau modèle.
En attendant ce nouveau "big bang", c'est donc à mon avis du côté des usages qu'il faut faire porter l'effort. Comme je le signalais notamment ici (http://urfistinfo.blogs.com/urfist_info/2005/01/google_dans_le_.html), Google est un formidable télescope informationnel. Le problème c'est que nous nous en servons comme d'une loupe. L'information et la connaissance ne sont pas dans Google. Tapez un mot clé et il affiche des millions de pages. Le problème c'est que l'internaute se contente généralement des trois ou quatre premières en ayant l'impression d'avoir fait le tour de la question. Il y a un vrai travail de pédagogie à faire auprès des usagers si l'on ne veut pas que la formidable lentille de ce télescope informationnel ne devienne le prisme déformant nos connaissances.
Pour conclure, good luck to frutch (seul mon manque de connaissances informatiques m'empêche de m'engager dans cette passionnante aventure)

Enregistrer un commentaire