Retrouvez motrech sur son nouveau site http://motre.ch/
11 mars 2005
J2J2 Le Web, un autre Univers en expansion
Je recherchais récemment des références sur la taille du Web. J'ai donc tout naturellement posté un message sur la liste motrech. De très nombreuses réponses m'ont été proposées (encore une fois, merci à tous).
Mais le constat de toutes ces réponses est finalement assez dramatique:
Nous disponsons à ce jour des mêmes moyens que les astronomes:
Je suis convaincu que nous avons besoin d'un observatoire indépendant, basé sur des optiques transparentes et non déformantes. C'est à dire d'un moteur de recherche totalement ouvert répondant à différents critères:
Au risque de me répéter (pour les lecteurs attentifs de la liste motrech), la seule réponse actuellement disponible répondant à tous ces critères est Nutch (un moteur de recherche Open Source écrit en Java, basé sur Lucene).
Vous le savez certainement, j'ai lancé récemment une liste de discussion francophone autour de Nutch: Frutch (FRancopho nUTCH). L'idée étant de mettre en place un prototype de moteur de recherche basé sur Nutch et dont l'axe principal dans un premier temps serait de fournir une transparence totale: transparence du contenu des index, transparence de l'implémentation. Mais ce projet ou un autre du même type ne pourra pas décoller si des institutions, des organismes ou des entreprises ne proposent de le financer par des dons (afin de garder toute l'indépendance nécessaire).
Ce billet n'est pas un appel pour récolter des dons pour Frutch (si toutefois vous désirez faire un don, remarquez le bouton PayPal se trouvant à droite de cette page. Il est destiné à cela), mais plutôt un sondage afin de savoir si vous adhérez à cette vision de l'évolution nécessaire des moteurs de recherche, et également un moyen de lancer un débat qui, il me semble est inévitable à plus ou moins long terme.
Mais le constat de toutes ces réponses est finalement assez dramatique:
Aucune étude récente ne semble disponible sur le sujetLa caractérisation du Web, par sa taille, mais aussi sa structure, ou son contenu me semble pourtant un sujet important. Tout comme il est primordial de décoder l'ADN, ou d'explorer l'Univers, il me semble capital d'explorer le Web. Pourquoi nos majors de la recherche sur Internet (YaGooSN - Yahoo, Google, MSN) ne font-ils pas d'études sur leur propre domaine (ou pourquoi ne les rendent-ils pas publiques) ?
Quelques ressources d'une autre Ère...
Quoi qu'il en soit, pour ceux d'entre vous qui souhaiteraient se frotter à ce sujet, je regroupe ci-dessous les quelques (anciennes) ressources que nous sommes parvenu à faire ressortir de cette discussion:- "Searching the World Wide Web" - Steve Lawrence et C. Lee Giles - Science, 3 avril 1998
"Measuring the Web" (Krishna Bharat et Andrei Broder) - "Accessibility of information on the web" - Steve Lawrence et C. Lee Giles - Nature, 8 juillet 1999
- "Graph structure in the web" - Andrei Broder et al. - 9th International World Wide Web Conference, mai 2000
- "The Deep Web: Surfacing Hidden Value" - Michael K. Bergman - White Paper BrightPlanet, 2001
- "Sizing the Internet" - Murray - White Paper Cyveillance, 2000
- "How much information" - School of Information Management & Systems, University of California, Berkeley, 2000
La fin de l'Ère YaGooSNiène approche
Lors de l'une de mes blogscussions avec Jean Véronis , ce dernier sous-entendait un parallèle entre le Web et l'Univers. Et je pense que c'est en effet exactement le point de vue que nous devons adopter. Nous nous trouvons aujourd'hui confrontés aux mêmes problématiques que les astronomes. Nous nous trouvons face à un univers très vaste, en perpétuel changement, en expansion qu'il nous faut appréhender à la fois dans sa globalité et dans ses détails.Nous disponsons à ce jour des mêmes moyens que les astronomes:
- des télescopes que sont les moteurs de recherche
- des sondes que sont les spiders de toutes sortes
Je suis convaincu que nous avons besoin d'un observatoire indépendant, basé sur des optiques transparentes et non déformantes. C'est à dire d'un moteur de recherche totalement ouvert répondant à différents critères:
- Flexible
- Impartial
- Gratuit
- Coopératif.
En d'autres termes, il est temps que la mutation qui est aujourd'hui en cours dans le domaine des systèmes d'exploitation (Microsoft vs Linux) s'ammorce dans le domaine des moteurs de recherche
Au risque de me répéter (pour les lecteurs attentifs de la liste motrech), la seule réponse actuellement disponible répondant à tous ces critères est Nutch (un moteur de recherche Open Source écrit en Java, basé sur Lucene).
Vous le savez certainement, j'ai lancé récemment une liste de discussion francophone autour de Nutch: Frutch (FRancopho nUTCH). L'idée étant de mettre en place un prototype de moteur de recherche basé sur Nutch et dont l'axe principal dans un premier temps serait de fournir une transparence totale: transparence du contenu des index, transparence de l'implémentation. Mais ce projet ou un autre du même type ne pourra pas décoller si des institutions, des organismes ou des entreprises ne proposent de le financer par des dons (afin de garder toute l'indépendance nécessaire).
Ce billet n'est pas un appel pour récolter des dons pour Frutch (si toutefois vous désirez faire un don, remarquez le bouton PayPal se trouvant à droite de cette page. Il est destiné à cela), mais plutôt un sondage afin de savoir si vous adhérez à cette vision de l'évolution nécessaire des moteurs de recherche, et également un moyen de lancer un débat qui, il me semble est inévitable à plus ou moins long terme.
Inscription à :
Publier les commentaires (Atom)
Membres
Chercher
Archives
Derniers Billets
Les sites amis
Derniers Visiteurs
Catégories
- 2001
- 2008
- 2018
- 2D
- 3D
- abondance
- addict-o-matic
- adobe
- aixtal
- ajax
- alexa
- altavista
- alternatif
- alternative
- amazon
- anatomie
- annuaires
- aol
- apple
- ask
- astuces
- audio
- auteur
- avis
- baidu
- bart
- bègues
- bêta
- bientôt web
- blinkx
- blogoscopie
- bonne année
- boss
- browserank
- cartographie
- cashback
- clavier
- clir
- collarity
- commoncraft
- couleur
- cours
- critiques
- cuil
- culture
- dapper
- depression
- docjax
- don organe
- doona
- duplication
- dyslexiques
- ebay
- écologie
- éducation
- emilie ogez
- enfants
- enquête
- enterprise search
- entreprises
- errorkey
- évènement
- evri
- exalead
- eye tracking
- facesearch
- faits marquants
- FAQ
- fêtes
- findloo
- firefox
- first click free
- fizy
- flash
- forum
- fracture numérique
- france
- france telecom
- fsb
- gammafiles
- glue
- goopilation
- graphe social
- hadoop
- hadopi
- hakia
- hurisearch
- i-expo
- icones
- iconlook
- idée labs
- image
- images
- inovall
- inquisitor
- intelways
- interlingue
- internet explorer
- interview
- jamesoo
- jean véronis
- jinni
- job
- kallout
- kartoo
- keyboardr
- kindernet
- kosmix
- kumo
- labs
- langage naturel
- leapfish
- live search
- localisation
- lucene
- lucky
- lycos
- marissa mayer
- matt cutts
- médias sociaux
- megaupload
- métamoteur
- microblogging
- microformat
- microsoft
- mindomi
- mobilité
- mokhles
- mondes virtuels
- moodstream
- moteur de recherche
- moteur recherche
- moteurs de recherche
- motrech
- mots-clés
- multimatch
- musées
- musique
- navigation
- newssift
- nielsen
- nostalgie
- nutch
- oamos
- opthink
- orange
- pagerank
- passé
- pdf search engine
- personalisation
- pertinence
- pew internet
- photos
- piithie
- pipl
- plugin
- powerset
- présentation résultats
- profiling
- prospective
- quaero
- rapidshare
- recherche
- recherche avancée
- recherche d'information
- recherche information
- recherche sémantique
- recherche sociale
- reconnaissance de la parole
- reconnaissance des formes
- reconnaissance des images
- référencement
- reherche actualités
- rentrée
- répertoires
- robots balises html exclusion protocole
- rpm2
- search 2009
- searchcube
- searchme
- searchmonkey
- searchwiki
- sémantique
- seo
- similarr
- simpsons
- sinequa
- sites web
- snappyfingers
- social computing
- social search
- socialmention
- soldes
- solr
- spam
- spffy
- suggestion
- sun
- taille web
- taux rebond
- texcoop
- timeline
- tineeye
- tinyeye
- torrent
- tourisme
- traduction
- true-knowledge
- tutoriel
- twingly
- ujiko
- utilisation
- vacances
- velocity
- veosearch
- video
- videosurf
- vie privée
- vista
- vivisimo
- web 3.0
- web invisible
- web search
- web sémantique
- web3
- whatever
- wikia
- wikio
- wikio labs
- wikipedia
- wolfram
- wordle
- yahoo
- yahoo boss
- yandex
- yos
- youtube
A propos de ce blog
Le blog motrech existe depuis le mois de Février 2005. Tout comme la liste du même nom, il est (bien sur!) consacré aux moteurs de recherche.
Propulsé à l'origine par Jérôme Charron, Emilie Ogez a embarquée à bord en Avril 2008.
1 commentaires:
Ce message m'inspire plusieurs commentaires. OK pour l'analogie web/univers (Ted Nelson, père de l'hypertexte, parlait à l'époque de "docuverse"). La difficulté en cette affaire c'est que les particules (pardon , les données) qui contribuent à cette expansion sont de nature très diverses et viennent elles-mêmes d'univers différents : comme en atteste le petit compte-rendu d'une récente réunion des représentants de nos chers moteurs, l'avenir est aux plateformes intégrées de recherche (intégrant personnalisation et messages électroniques) et à l'intégration de la sphère personnelle (desktop searching) et de la sphère web (voir là dessus : http://urfistinfo.blogs.com/urfist_info/2005/03/des_outils_aux_.html).
Or il me paraît à la fois impossible (et relativement inintéressant) de vouloir tenir une comptabilité de tous les messages personnels circulant sur la planète. Idem pour le volume de données contenues sur tous les ordinateurs individuels connectés sur la planète. Or le web de demain sera cela :
ProchainWeb = WebActuel[WebPublic+Forums+Usenet+WebInvisible] + DonnéesPersonnelles[DisqueDUrs+COntenusMesagesPrivésMails].
Ceci explique peut-être (en partie) que l'on ne trouve effectivement pas d'études postérieure à 2000 sur la "taille du web" (même si effectivement, il serait passionnant et légitime de pouvoir disposer d'infos en provenance directe des moteurs sur la taille de "leur" web).
Sur la deuxième partie du billet et le besoin d'un nouveau moteur "ouvert, flexible, impartiel et collaboratif", et même si en disant les chose de cette manière il est difficile d'être "contre" j'exprime quand même quelques réserves (qui ne sont pas des réserves de principe mais prétendent juste lancer un débat et prolonger une réflexion). La clé numéro 1 est celle de la taille d'index. Les usagers et les moteurs le savent. Si le trio de tête est ainsi constitué (Google, MSN, Yahoo) c'est parce que les chiffres des bases d'index correspondent. Les usagers iront TOUJOURS vers les 2 ou 3 outils disposant de la plus grosse base d'index. Ce qui est légitime. Or, seules de telles firmes ont les moyens d'indexer de crawler et de rafraîchir dans des délais raisonnalbes d'aussi considérables masses d'informations. Je pense donc qu'il y a de la place pour des moteurs alternatifs, innovants, collaboratifs et ouverts (ou utilisant d'autres techniques comme la cartographie ou le clustering automatique) mais je pense que cette place sera toujours à la marge des 3 grands. Sauf si, et cela n'est ni totalement inenvisageable ni totalement utopique, sauf si, disais-je, la recherche d'information sur le web fait le grand saut du P2P et bascuyle entièrement dans ce nouveau modèle.
En attendant ce nouveau "big bang", c'est donc à mon avis du côté des usages qu'il faut faire porter l'effort. Comme je le signalais notamment ici (http://urfistinfo.blogs.com/urfist_info/2005/01/google_dans_le_.html), Google est un formidable télescope informationnel. Le problème c'est que nous nous en servons comme d'une loupe. L'information et la connaissance ne sont pas dans Google. Tapez un mot clé et il affiche des millions de pages. Le problème c'est que l'internaute se contente généralement des trois ou quatre premières en ayant l'impression d'avoir fait le tour de la question. Il y a un vrai travail de pédagogie à faire auprès des usagers si l'on ne veut pas que la formidable lentille de ce télescope informationnel ne devienne le prisme déformant nos connaissances.
Pour conclure, good luck to frutch (seul mon manque de connaissances informatiques m'empêche de m'engager dans cette passionnante aventure)
Enregistrer un commentaire