Retrouvez motrech sur son nouveau site http://motre.ch/

7 oct. 2005

Jérôme Yahoo! Search Multi-Charabia

Comme nous l'apprend , le 6 Octobre est le jour où pour la première fois, un français ( en ) est couronné champion du monde de , mais également le jour de la naissance de Sophie Duez ou .
Un grand jour, auquel il faudra ajouter un évennement de taille: Yahoo! Search France se lance dans la recherche multilingue [via Le Bloguer]. Une initiative notable pour deux raisons essentielles:
  • les réelles innovations se font rare ces derniers temps du côté de nos majors de la recherche (dans leur coeur de métier).
  • le Grand Marabou ne me contredira pas je pense, c'est un sujet très complexe. Sujet sur lequel de nombreux thésards et chercheurs ont déjà laissé quelques neurones (même moi il y a quelques années [en/ps], et encore aujourd'hui (ici [en] et ici [en]) avec Frutch!).



Multi? Cross? Inter? En tout cas Lingual!

Première constation, contrairement à ce qui est indiqué sur l'emballage, il ne s'agit pas d'une recherche multilingue mais interlingue (crosslingual in english).


Quelle est la différence? La recherche multilingue consiste à appliquer des traitements d'indexation/recherche spécifiques à chaque langue (ce que ne fait malheuresement pas Y!S), C'est à dire disposer de traitements de tokenization, lemmatisation, ... propres à chaque langue.
En revanche, la recherche interlingue consiste elle, à partir d'une question formulée en une langue X de reformuler cette requête en plusieurs langues et d'effectuer la recherche à partir de ces différentes questions: Vous posez une question en Français, Y!S la traduit en anglais, allemand, espagnol et italien et retourne les résultats de ces 5 requêtes combinées.


Alors, qu'en est-il de cette recherche interlingue?

D'un point de vue utilisation, Y!S considère que votre requête est nécessairement en français (sinon, vous n'utiliseriez pas Yahoo! France). C'est à dire qu'il ne parviendra pas à traduire un requête formulée en anglais ou en allemand. Ainsi, vous ne bénéficierez de la "recherche mulilingue" que si vous formulez vos recherche dans la langue de Molière (heu ... ou en français contemporain plutôt)!

Au niveau de l'interface, c'est plutôt pas mal.
Ainsi, il est assez intéressant (et perturbant) de voir les extraits et les titres des résultats systématiquements traduits en français. En revanche, il est dommage que la langue originale du document soit écrite en toutes lettres et non pas indiquée visuellement par un drapeau par exemple. A l'usage, ce n'est vraiment pas pratique. Le plus intéressant est de pouvoir basculer rapidement de la version originale à la version traduite du document. Je n'ai pas assez de recul, mais je suis presque certain qu'à l'usage cette fonctionnalité peut se révéler très pratique.



Du côté de la traduction des sites, comme nous pouvions nous y attendre, les résultats sont bien plus souvent marrant que réellement utilisables. Ainsi, la traduction française de

Nutch is a nascent effort to implement an open-source web search engine.
Web search is a basic requirement for internet navigation, yet the number of web search engines is decreasing.

donne
Nutch est un effort naissant de mettre en application un Search Engine d'enchaînement d'ouvrir-source.
La recherche de Web est une condition de base pour la navigation d'Internet, pourtant le nombre de moteurs de recherche d'enchaînement diminue.


Il est également à noter plusieurs problèmes techniques récurrents:
  • pour de mystérieuses raisons (c'est certainement à cause de l'informatique), de nombreuses pages ne peuvent être traduites.
  • de plus, la page de résultat n'indique pas toujours correctement la langue du document original (Hé! les gars, utlisez le plugin d'identification automatique de la langue de Nutch)

Enfin, côté reformulation de la requête, elle est bien entendu au même niveau que la traduction des documents, c'est à dire, assez moyenne. La conséquence est en revanche bien plus problématique: on ne comprend plus très bien ce que le moteur a recherché. Ainsi, pour se convaincre de certains problèmes de reformulation, il suffit d'interroger Y!Search concernant "la recherche d'information sur Internet" pour constater que nous n'obtenons que des résultats en français: les traductions dans les autres langues doivent être bien étranges pour que Y!Search ne retrouve que des documents français!!

Ainsi, l'utilisabilité de ce nouveau service de Y!Search n'est vraiment pas convaincante. C'est une version Bêta qui aurait mérité d'être une Alpha, mais une chose est certaine, Yahoo! innove et propose une nouvelle fois de nouveaux services de recherche. Yahoo! a ces derniers temps le mérite d'explorer, de se lancer vers de nouvelles voies, et rien que pour ça, un grand Bravo et un grand Merci à Yahoo! (Au fait, messieurs de Yahoo!, pourquoi avez-vous arrêtés vos tests de Nutch?)


3 commentaires:

Jean Véronis a dit…

Le Grand Marabout ne contredit pas, bien au contraire. Je me demande d'ailleurs si cette annonce n'est pas un peu prématurée, si une bonne qualité était possible, on le saurait... Pour l'instant mes tests sont plutôts peu concluants.

Avant d'en parler sur mon blog, je me laisse le temps d'analyser la chose en détail, mais j'ai bien peur que ce soit un service décevant, susceptible plutôt de nuire à l'image du traitement automatique des langues. On a eu déjà des réactions de rejet nombreuses avec divers outils prématurés (traduction automatique, dictée vocale, etc.).

A suivre...

Apokrif a dit…

Le problème est moins la « recherche multilingue »en tant que telle que le logiciel de traduction qui est derrière; et si la traduction automatique était en général une application performante, ça se saurait...

Jérôme Charron a dit…

Je ne suis pas tout à fait d'accord avec vous Apokrif.
Faire de la recherche multilingue ne se résume pas, loin de là, à faire de la traduction automatique de la question et des réponses. C'est une méthode possible. Mais comme le démontre ce service, ce n'est pas la bonne méthode.
En revanche, je suis tout à fait d'accord avec vous sur le fait qu'évaluer la recherche multilingue de Yahoo! revient finalement (et malheureusement) à évaluer leur système de traduction automatique.

Enregistrer un commentaire