Retrouvez motrech sur son nouveau site http://motre.ch/
15 févr. 2005
J2J2 Test - Yahoo pédale dans le yahoourt...
Après la lecture des deux billets élogieux "Y!Q : un outil contextuel étonnant et innovant !" (Abondance) et "Y!Q Search de Yahoo!" (Kesako ?) concernant le nouvel outil de Yahoo!, Y!Q Search, j'avais hâte de tester ce dernier.
Premier contact
Le premier contact est bien entendu la découverte de l'interface de recherche. Sobre, minimaliste, juste un champs de recherche, un logo et un bouton. Bref, une interface "à la Google". Parfait, on n'en demande pas plus à un moteur de recherche. Ce qui retient particulièrement mon attention, c'est l'habituel champs
INPUT
(zone de saisie de texte simple, ne comportant qu'une ligne) utilisé dans la quasi-totalité des interfaces de recherche, remplacé ici par un TEXTAREA
(zone de saisie de texte composée de plusieurs lignes). Yahoo! essayerait-il de me suggérer que je vais pouvoir effectuer des recherches en utilisant des requêtes complexes, de plus de deux ou trois mots, ou bien même en langage naturel?Les premiers tests
Lors de mes premiers tests, tout comme mes deux accolites cités plus haut, je ne peux que constater, l'impression de pertinence des résultats obtenus.
Note: Je parlerais très certainement dans un prochain billet de la notion de pertinence, afin d'essayer de définir ce terme dans le contexte des moteurs de recherche sur Internet. Il est en effet relativement facile d'évaluer la pertinence d'un moteur de recherche sur un corpus fermé (comme lors des campagnes TREC - Text REtrieval Conference), mais sur un corpus ouvert comme le Web, quelles sont les méthodologies et les métriques à utiliser? Comment évaluer la pertinence d'un moteur de recherche sans pouvoir le mettre dans une boîte de Petri afin d'étudier son comportement dans un environnement clos?
Plusieurs choses m'inquiètent. Tout d'abord, le nombre de résultats est relativement faible. S'agit-il d'un outil disposant de sa propre base (indépendante de celle de Yahoo! et donc peut-être moins bien fournie dans ce cas), ou bien utilise-t-il la base de Yahoo!? Je fais donc quelques mesures rapides du nombre de résultats retournés par Y!Q et Yahoo!:
Question | Nb. Docs. Y!Q | Nb Docs. Yahoo! |
---|---|---|
nombres premiers | 19 400 | 110 000 |
motrech | 463 | 492 |
vernis à ongles | 14 100 | 26 800 |
technologies du langage | 789 | 251 000 |
Le constat est rapide, le nombre de documents réponse est largement plus faible sur Y!Q que sur Yahoo!. Mais à y regarder de plus prêt, il semble que cela ne soit pas vrai pour les interrogations uni-terme. Cela signifierait-il que la différence essentielle entre Y!Q et Yahoo! soit que le premier e recherche que l'expression exacte et non chacun des mots? Une deuxième expérience s'impose:
Question | Nb. Docs. Y!Q | Nb Docs. Yahoo! |
---|---|---|
"nombres premiers" | 19 400 | 19 400 |
"motrech" | 463 | 492 |
"vernis à ongles" | 14 100 | 14 100 |
"technologies du langage" | 780 | 734 |
Bon. Je crois que les choses sont claires sur ce point:
Les concepteurs de Y!Q se sont souvenu de ce que me répétait souvent mon directeur de thèse, Christian Fluhr (on n'écoute jamais assez ses maîtres!), concernant l'importance de la prise en compte des expressions composées et idiomatiques dans la pertinence d'un outil de recherche d'information.
Y!Q ne fait que rechercher l'expression exacte de la recherche
Pré-traitement de la requête
Là où Y!Q se distingue, c'est qu'il effectue un pré-traitement de la requête de recherche. En effet, il filtre la question pour en éliminer les termes inutiles (de manière parfois un peu cavalière comme vous le verrez ci-dessous), puis il découpe la requête en plusieurs sous-expressions (que par la suite, on peut sélectionner ou désélectionner pour changer le filtre de la recherche).
Par exemple, à partir de la requête "nombres premiers et technologies du langage dans les moteurs de recherche", voici ce que Y!Q propose comme thèmes de recherche:
Yahoo! n'est pas très "fair-play" avec Jean Véronis, qui pourtant l'a utilisé comme téléscope linguistique (cf commentaires) il n'y a pas très longtemps dans son très bon billet "Yahoo et les yahoourts", puisque l'air de rien, il élimine totalement la partie "technologies du langage" de la requête (tout comme il a éliminé les mots vides... sic!)
Essayons donc de pousser un peu plus les tests sur ce pré-traitement...
Si maintenant, j'effectue une recherche avec la requête: "les nombres premiers et les technologies du langage dans les moteurs de recherche" (j'ai juste rajouté les deux mots vides "les" en gras). Et bien, Y!Q revient sur son analyse précédente. Non pas que pour lui "technologies du langage" soit devenue une expression pertinente pour la recherche, mais finalement, comme j'ai maintenant trois fois le terme "les" dans ma question, Y!Q estime que ce terme doit certainement être pertinent pour ce que je cherche!
Si le nombre d'occurences des mots de la question a une importance dans le pré-traitement, je vais donc essayer de rajouter plusieurs occurences de l'expression "technologies du langage"...
Il faut que je rajoute deux occurences de cette expression (nous en avons donc maintenant trois) pour que Y!Q rajoute dans ma recherche le terme langage... poursuivons... je ne suis pas têtu (si?), mais je veux absolument qu'il retienne technologies du langage dans ses critères de recherche... il n'y a rien à faire, au bout de la quatrième occurence, le terme "les" disparaît (???) de la liste des expressions retenues pour la recherche, mais "technologies du langage" n'est toujours pas retenu,. Même avec plus d'une dizaine d'occurences dans la question je n'y parviens pas!
Je pense alors que l'expression "moteurs de recherche" est certainement trop "forte" par rapport aux autres expressions de la recherche. Je le supprime donc. Rien n'y fait, les "nombres premiers" écrasent largement les "technologies du langage"...
Même constat avec la question "les technologies du langage dans les moteurs de recherche", seuls les expressions "moteurs de recherche" et "les" sont retenues pour la recherche...
Dernier essai. Je capitule, et je lance une recherche avec uniquement "les technologies du langage", et toujours rien. Uniquement les deux termes "langage" et "les" sont retenus pour la recherche.
Y! regarder à deux fois...
Finalement, mes premières impressions de pertinence ont rapidement changé en impressions de "je comprends rien du tout à ce qu'il fait de mes requêtes ce @#!\%ù§& de Y!Q!!!!"
Au terme de cette première prise de contact, j'ai un peu de mal à être sensible à l'humour de Y!Q...
Inscription à :
Publier les commentaires (Atom)
Membres
Chercher
Archives
Derniers Billets
Les sites amis
Derniers Visiteurs
Catégories
- 2001
- 2008
- 2018
- 2D
- 3D
- abondance
- addict-o-matic
- adobe
- aixtal
- ajax
- alexa
- altavista
- alternatif
- alternative
- amazon
- anatomie
- annuaires
- aol
- apple
- ask
- astuces
- audio
- auteur
- avis
- baidu
- bart
- bègues
- bêta
- bientôt web
- blinkx
- blogoscopie
- bonne année
- boss
- browserank
- cartographie
- cashback
- clavier
- clir
- collarity
- commoncraft
- couleur
- cours
- critiques
- cuil
- culture
- dapper
- depression
- docjax
- don organe
- doona
- duplication
- dyslexiques
- ebay
- écologie
- éducation
- emilie ogez
- enfants
- enquête
- enterprise search
- entreprises
- errorkey
- évènement
- evri
- exalead
- eye tracking
- facesearch
- faits marquants
- FAQ
- fêtes
- findloo
- firefox
- first click free
- fizy
- flash
- forum
- fracture numérique
- france
- france telecom
- fsb
- gammafiles
- glue
- goopilation
- graphe social
- hadoop
- hadopi
- hakia
- hurisearch
- i-expo
- icones
- iconlook
- idée labs
- image
- images
- inovall
- inquisitor
- intelways
- interlingue
- internet explorer
- interview
- jamesoo
- jean véronis
- jinni
- job
- kallout
- kartoo
- keyboardr
- kindernet
- kosmix
- kumo
- labs
- langage naturel
- leapfish
- live search
- localisation
- lucene
- lucky
- lycos
- marissa mayer
- matt cutts
- médias sociaux
- megaupload
- métamoteur
- microblogging
- microformat
- microsoft
- mindomi
- mobilité
- mokhles
- mondes virtuels
- moodstream
- moteur de recherche
- moteur recherche
- moteurs de recherche
- motrech
- mots-clés
- multimatch
- musées
- musique
- navigation
- newssift
- nielsen
- nostalgie
- nutch
- oamos
- opthink
- orange
- pagerank
- passé
- pdf search engine
- personalisation
- pertinence
- pew internet
- photos
- piithie
- pipl
- plugin
- powerset
- présentation résultats
- profiling
- prospective
- quaero
- rapidshare
- recherche
- recherche avancée
- recherche d'information
- recherche information
- recherche sémantique
- recherche sociale
- reconnaissance de la parole
- reconnaissance des formes
- reconnaissance des images
- référencement
- reherche actualités
- rentrée
- répertoires
- robots balises html exclusion protocole
- rpm2
- search 2009
- searchcube
- searchme
- searchmonkey
- searchwiki
- sémantique
- seo
- similarr
- simpsons
- sinequa
- sites web
- snappyfingers
- social computing
- social search
- socialmention
- soldes
- solr
- spam
- spffy
- suggestion
- sun
- taille web
- taux rebond
- texcoop
- timeline
- tineeye
- tinyeye
- torrent
- tourisme
- traduction
- true-knowledge
- tutoriel
- twingly
- ujiko
- utilisation
- vacances
- velocity
- veosearch
- video
- videosurf
- vie privée
- vista
- vivisimo
- web 3.0
- web invisible
- web search
- web sémantique
- web3
- whatever
- wikia
- wikio
- wikio labs
- wikipedia
- wolfram
- wordle
- yahoo
- yahoo boss
- yandex
- yos
- youtube
A propos de ce blog
Le blog motrech existe depuis le mois de Février 2005. Tout comme la liste du même nom, il est (bien sur!) consacré aux moteurs de recherche.
Propulsé à l'origine par Jérôme Charron, Emilie Ogez a embarquée à bord en Avril 2008.
1 commentaires:
Merci Christophe pour ce lien. Il m'a également permit de voir que je n'était pas le seul à m'interroger sur le pré-traitement des requête effectué par Y!Q:
" Another try at Y!Q".
Enregistrer un commentaire