Retrouvez motrech sur son nouveau site http://motre.ch/

23 févr. 2006

Jérôme Search Engine for Dummies

Prof-Aixtal avait eu la gentillesse de me mettre dans la confidence de sa dernière étude "Moteurs: Et le gagnant est...", et je l'en remercie. Les résultats, qui remettent quelques pendules à l'heure me semblent très instructifs. Sans nul doute, cette étude va faire du bruit dans la blogosphère, et j'espère même qu'elle sera reprise abondamment par d'autres vecteurs d'information.


Quels enseignements pouvons nous en tirer? Quelle analyse faire de ces résultats? Voici ce qui me frappe:

La médiocrité globale des résultats me réconforte pour deux raisons. Tout d'abord, elle reflète l'idée que je me faisais de la pertinence actuelle des moteurs de recherche. Ensuite, cela suggère qu'il y a incontestablement de la place pour de nouveaux challengers. Alors messieurs les investisseurs arrêtez s'il vous plait de considérer le marché de la recherche comme bouché et sans avenir. Car comme c'est le cas de Firefox, plus il y aura de challengers sérieux aux géants actuels, plus l'utilisateur aura le choix et plus les géants devront se réveiller.

Les piètres résultats d'Exalead confirment les quelques doutes que j'avais sur ce moteur. Alors de deux choses l'une, soit les enseignements de mon maître (Christian Fluhr) en matière de traitements linguistiques ne sont pas fondés et finalement ils n'apportent pas une réelle pertinence, soit François Bourdoncle utilise à tord les termes "linguistique statistique" et "sémantique statistique" pour qualifier les algorithmes utillisés par Exalead. Pour avoir longuement utilisé et trituré le système Spirit dont les algorithmes linguistiques apportent une réelle valeur ajoutée à la recherche d'information, je pencherais plus pour la solution "algos de comm et recherches de subvention" (pour citer quelqu'un que je ne nommerais pas) en lieu et place de "linguistique statistique". (Petite parenthèse à ce sujet: appliquer des algorithmes dits linguistiques nécessite tout d'abord d'identifier la langue des documents à traiter, puis ensuite d'utiliser un analyseur spécifique pour chaque langue. J'ai commencé à implémenter toute cette mécanique dans Nutch. Linguistes, développeurs et autres passionnés, récupérez donc le code de Nutch et apportez votre pierre à la communauté en nous fournissant de puissant analyseurs linguistiques).

Du côté de Dir.com, les résultats ne sont pas brillants non plus. Mais comme le mentionne Jean, Dir.com est plus une plateforme expérimentale qu'un moteur grand public. A ce sujet, j'en profite pour relancer Dir.com que j'avais contacté il y a quelques temps sans aucune réponse. Messieurs, seriez-vous intéressés pour monter une plateforme expérimentale sur Nutch?

Google et Yahoo! sont donc en tête. Rien de réellement surprenant. Mais quel en sont les raisons?
  • La taille de la base de données des deux géants joue certainement un rôle non négligeable: Disposant d'un plus grand nombre de documents, ils sont à même de disposer potentiellement de plus de réponses pertinentes (encore faut il les filtrer correctement).
  • Le plus grand nombre d'utilisateurs des deux géants représente également un feed-back important pour accroitre leur pertinence (les liens souvent cliqués par les utilisateurs auront un meilleur score).
  • Bien entendu, la puissance de calcul déployée par chaque moteur joue également un rôle très important: Google et Yahoo! peuvent mettre en place des algorithmes plus fins, mieux filtrer le spam, appliquer des algorithmes de type PageRank, très gourmand en ressources de calcul...)

Bref, avec dans le meilleur des cas, une pertinence légèrement au dessus de la moyenne, les moteurs de recherche n'en sont finalement encore que dans leurs tous premiers stades de développement, et beaucoup reste à faire. Certains parleront de moteurs sémantiques, de moteurs sociaux, et autres moteurs 2.0. Même si tous ces concepts sont très intéressants, même s'ils apportent un plus, ils n'apportent pas une réponse à la recherche d'information sur Internet qui est avant tout un problème de traitement automatique de la langue.

7 commentaires:

Emmanuel Barthe a dit…

Je fais chaque jour des recherches en droit français sur Google et parfois je compare avec Yahoo. Et dans ma pratique -- limitée à ce domaine juridique certes --, même très récente, je constate que Google.fr reste légèrement plus pertinent -- disons de 5 à 10% selon moi si on se base sur les 10 premiers résultats -- que Yahoo.fr.

Mais si vous utilisez une ferme de serveurs Google qui est déjà passée sur BigDaddy (http://66.249.93.104/ par exemple), la différence est beaucoup plus nette : j'estime, toujours selon mes tests dans le domaine du droit français qu'on passe à 40% plus pertinent pour Google ...

Un exemple avec la requête
télévision abus de position dominante, une quetion sur laquelle Yahoo sort 0 zéro résultat pertinent (ici, un résultat pertinent est une page web où on parle d'un litige mettant en cause des chaînes ou des programmes de télévision pour des questions de concurrence), Google standard 1 résultat pertinent (l'arrêt du Conseil de la concurrence) et BigDaddy 4 résultats pertinents (les 4 premiers) :
- Google.fr standard
- Google BigDaddy
- Yahoo.
(NB : Parfois, Google.fr standard sort les mêmes résultats que BigDaddy. Des webmestres ont déjà signalé ce phénomène. A terme (mars 2006 d'après Matt Cuts), ils seront identiques ou très proches.)

C'est un avis personnel de praticien de la recherche, cependant. Mes questions sont souvent plus complexes et mes requêtes sont souvent -- mais pas toujours -- plus travaillées que celles que l'étude du Pr. Véronis cite.

Loran Bernardi a dit…

Bonjour,
Merci pour ce retour rapide, clair et sans concession.

J'aurais une remarque et une question.
La remarque d'abord, le traitement automatique des langues est tres important, mais je remarque dans mon utilisation quotidienne des moteurs, que j'uutilise de plus en plus del.icio.us, qui m'apporte rapidement des resultats tres riches, pour les sujets que je ne connais pas ou mal.

La question est concernant ce point:
"Le plus grand nombre d'utilisateurs des deux géants représente également un feed-back important pour accroitre leur pertinence (les liens souvent cliqués par les utilisateurs auront un meilleur score)."
Techniquement, comment cela fonctionne t'il?
J'ai cherché sur des pages de resultats de Google de redirections eventuelles que je n'ai pas trouvées.

Merci
bonne journée

Anonyme a dit…

Pas d'étude via redirection chez Google (ou alors, de mémoire, c'est rare, mais ça arrive parfois => me semble avoir croisé un post à ce sujet sur WRI).

Anonyme a dit…

Bien formulée, la requête donne de bons résultats aussi sur Yahoo!
Exemple : abus de position dominante chaîne télévision
"télévision abus de position dominante", ça reste très vague, une émission télé sur les abus de position dominante ne peut par exemple pas être considéré comme un mauvais résultat.

Jérôme Charron a dit…

Emmanuel, je vous rejoinds totalement concernant BigDaddy. Les quelques tests rapides que j'ai effectué donnent une impression de pertinence très fortement améliorée. Il faudrait que je creuse un peu la question.

Loran, il y a des redirections dans Google. Même avec le search history de désactivé, à partir du moment où tu es identifié avec ton compte GMail, tous les clics sur les résultats passent pas Google. Fais simplement un copier/coller du lien et tu verras un URL de la forme:
http://www.google.com/url?sa=t&ct=res&cd=1&url=http%3A//motrech.blogspot.com/&ei=...&sig2=...

Anonyme a dit…

Jerome, vous avez dit :
"Certains parleront de moteurs sémantiques, de moteurs sociaux, et autres moteurs 2.0. Même si tous ces concepts sont très intéressants, même s'ils apportent un plus, ils n'apportent pas une réponse à la recherche d'information sur Internet qui est avant tout un problème de traitement automatique de la langue."

Je suis entièrement d'accord avec votre phrase car certains termes sont utilisés actuellement dans un sens détourné (pour faire fun ?).
En revanche, si l'on utilise les mots dans leur vrai sens, j'exclurai de cette phrase "moteurs sémantiques" car pour moi, un moteur sémantique (un vrai) sera un moteur qui tiendra compte du sens des mots et donc obligatoirement de la langue.

Jérôme Charron a dit…

Anonymous : J'entendais par moteur sémantique, un moteur de recherche utilisant le web sémantique, c'est à dire "grosso-modo" un moteur de recherche d'ontologies. Dans l'état actuel des choses:
1. le terme sémantique est à mon sens très souvent galvaudé
2. Qu'apporte aujourd'hui un moteur de recherche sur le web sémantique? Si l'on carricature: des relations entre des concepts. Mais peut-on dire qu'il s'agisse d'un accès au sens?

Enregistrer un commentaire