Retrouvez motrech sur son nouveau site http://motre.ch/

15 févr. 2005

Jérôme Test - Yahoo pédale dans le yahoourt...



Après la lecture des deux billets élogieux "Y!Q : un outil contextuel étonnant et innovant !" (Abondance) et "Y!Q Search de Yahoo!" (Kesako ?) concernant le nouvel outil de Yahoo!, Y!Q Search, j'avais hâte de tester ce dernier.

Premier contact

Le premier contact est bien entendu la découverte de l'interface de recherche. Sobre, minimaliste, juste un champs de recherche, un logo et un bouton. Bref, une interface "à la Google". Parfait, on n'en demande pas plus à un moteur de recherche. Ce qui retient particulièrement mon attention, c'est l'habituel champs INPUT (zone de saisie de texte simple, ne comportant qu'une ligne) utilisé dans la quasi-totalité des interfaces de recherche, remplacé ici par un TEXTAREA (zone de saisie de texte composée de plusieurs lignes). Yahoo! essayerait-il de me suggérer que je vais pouvoir effectuer des recherches en utilisant des requêtes complexes, de plus de deux ou trois mots, ou bien même en langage naturel?




Les premiers tests

Lors de mes premiers tests, tout comme mes deux accolites cités plus haut, je ne peux que constater, l'impression de pertinence des résultats obtenus.
Note: Je parlerais très certainement dans un prochain billet de la notion de pertinence, afin d'essayer de définir ce terme dans le contexte des moteurs de recherche sur Internet. Il est en effet relativement facile d'évaluer la pertinence d'un moteur de recherche sur un corpus fermé (comme lors des campagnes TREC - Text REtrieval Conference), mais sur un corpus ouvert comme le Web, quelles sont les méthodologies et les métriques à utiliser? Comment évaluer la pertinence d'un moteur de recherche sans pouvoir le mettre dans une boîte de Petri afin d'étudier son comportement dans un environnement clos?

Plusieurs choses m'inquiètent. Tout d'abord, le nombre de résultats est relativement faible. S'agit-il d'un outil disposant de sa propre base (indépendante de celle de Yahoo! et donc peut-être moins bien fournie dans ce cas), ou bien utilise-t-il la base de Yahoo!? Je fais donc quelques mesures rapides du nombre de résultats retournés par Y!Q et Yahoo!:

QuestionNb. Docs. Y!QNb Docs. Yahoo!
nombres premiers19 400110 000
motrech463492
vernis à ongles14 10026 800
technologies du langage789251 000


Le constat est rapide, le nombre de documents réponse est largement plus faible sur Y!Q que sur Yahoo!. Mais à y regarder de plus prêt, il semble que cela ne soit pas vrai pour les interrogations uni-terme. Cela signifierait-il que la différence essentielle entre Y!Q et Yahoo! soit que le premier e recherche que l'expression exacte et non chacun des mots? Une deuxième expérience s'impose:

QuestionNb. Docs. Y!QNb Docs. Yahoo!
"nombres premiers"19 40019 400
"motrech"463492
"vernis à ongles"14 10014 100
"technologies du langage"780734


Bon. Je crois que les choses sont claires sur ce point:
Les concepteurs de Y!Q se sont souvenu de ce que me répétait souvent mon directeur de thèse, Christian Fluhr (on n'écoute jamais assez ses maîtres!), concernant l'importance de la prise en compte des expressions composées et idiomatiques dans la pertinence d'un outil de recherche d'information.
Y!Q ne fait que rechercher l'expression exacte de la recherche


Pré-traitement de la requête

Là où Y!Q se distingue, c'est qu'il effectue un pré-traitement de la requête de recherche. En effet, il filtre la question pour en éliminer les termes inutiles (de manière parfois un peu cavalière comme vous le verrez ci-dessous), puis il découpe la requête en plusieurs sous-expressions (que par la suite, on peut sélectionner ou désélectionner pour changer le filtre de la recherche).

Par exemple, à partir de la requête "nombres premiers et technologies du langage dans les moteurs de recherche", voici ce que Y!Q propose comme thèmes de recherche:



Yahoo! n'est pas très "fair-play" avec Jean Véronis, qui pourtant l'a utilisé comme téléscope linguistique (cf commentaires) il n'y a pas très longtemps dans son très bon billet "Yahoo et les yahoourts", puisque l'air de rien, il élimine totalement la partie "technologies du langage" de la requête (tout comme il a éliminé les mots vides... sic!)

Essayons donc de pousser un peu plus les tests sur ce pré-traitement...
Si maintenant, j'effectue une recherche avec la requête: "les nombres premiers et les technologies du langage dans les moteurs de recherche" (j'ai juste rajouté les deux mots vides "les" en gras). Et bien, Y!Q revient sur son analyse précédente. Non pas que pour lui "technologies du langage" soit devenue une expression pertinente pour la recherche, mais finalement, comme j'ai maintenant trois fois le terme "les" dans ma question, Y!Q estime que ce terme doit certainement être pertinent pour ce que je cherche!

Si le nombre d'occurences des mots de la question a une importance dans le pré-traitement, je vais donc essayer de rajouter plusieurs occurences de l'expression "technologies du langage"...
Il faut que je rajoute deux occurences de cette expression (nous en avons donc maintenant trois) pour que Y!Q rajoute dans ma recherche le terme langage... poursuivons... je ne suis pas têtu (si?), mais je veux absolument qu'il retienne technologies du langage dans ses critères de recherche... il n'y a rien à faire, au bout de la quatrième occurence, le terme "les" disparaît (???) de la liste des expressions retenues pour la recherche, mais "technologies du langage" n'est toujours pas retenu,. Même avec plus d'une dizaine d'occurences dans la question je n'y parviens pas!

Je pense alors que l'expression "moteurs de recherche" est certainement trop "forte" par rapport aux autres expressions de la recherche. Je le supprime donc. Rien n'y fait, les "nombres premiers" écrasent largement les "technologies du langage"...
Même constat avec la question "les technologies du langage dans les moteurs de recherche", seuls les expressions "moteurs de recherche" et "les" sont retenues pour la recherche...
Dernier essai. Je capitule, et je lance une recherche avec uniquement "les technologies du langage", et toujours rien. Uniquement les deux termes "langage" et "les" sont retenus pour la recherche.

Y! regarder à deux fois...

Finalement, mes premières impressions de pertinence ont rapidement changé en impressions de "je comprends rien du tout à ce qu'il fait de mes requêtes ce @#!\%ù§& de Y!Q!!!!"

Au terme de cette première prise de contact, j'ai un peu de mal à être sensible à l'humour de Y!Q...



... car en effet, Y!Q est magique, c'est même de la grande illusion!!!!

2 commentaires:

christophe asselin a dit…

Pour aller un peu plus loin, une interview du développeur (prolifique : une centaine de brevets déposés) de Y!Q ici :
http://www.ysearchblog.com/archives/000079.html

Christophe
http://www.intelligence-center.com

Jérôme Charron a dit…

Merci Christophe pour ce lien. Il m'a également permit de voir que je n'était pas le seul à m'interroger sur le pré-traitement des requête effectué par Y!Q:
" Another try at Y!Q".

Enregistrer un commentaire