Retrouvez motrech sur son nouveau site http://motre.ch/

9 oct. 2008

J2J2 La recherche interlingue va s'imposer

Je me rappelle avoir effleuré ce thème de recherche au contact d'une amie également thésarde dont je partageais le bureau et dont Jean était le co-directeur de thèse (Jean connait donc bien le sujet et pourra commenter/compléter ce billet à loisir).



Qu'est-ce que la recherche interlingue (cross lingual information retrieval, CLIR pour les intimes) ? La recherche interlingue est la possibilité de s'affranchir des barrières linguistiques. Elle consiste, à partir d'une requête dans une langue donnée à proposer des résultats pertinents dans la même langue mais aussi dans d'autres langues. Ainsi, si vous effectuez une recherche en français, le moteur est capable de retrouver aussi bien des documents français, anglais, ou espagnols répondant à la recherche.

Mais comment ça marche ? « Tout simplement » en reformulant la question vers les différentes langues cibles et en interrogeant le moteur avec ces différentes versions de la même question (par reformulation de la question, aujourd'hui les moteurs font une « simple » traduction).

Si les chercheurs planchent depuis maintenant pas mal de temps sur le sujet, les résultats proposés par Google et Yahoo! ne sont actuellement absolument pas convaincants. Alors espérons que les choses évolueront dans les prochaines années et que parallèlement, à la recherche interlingue, la traduction automatique continuera d'évoluer.
Emilie : je vois très peu de choses à ajouter en fait. Tout est dit. Je laisse la parole à Jean. Juste une question, peut-être : pour que ça marche (mieux) : il faudrait faire plus qu'une traduction ?

4 commentaires:

Jean-Marie Le Ray a dit…

Jérôme,

De premiers essais au niveau de Wikio seraient déjà une étape dans cette direction, notamment en couplant un sujet avec le même sujet sur les différentes plateformes linguistiques.
Mais pour arriver à mettre en relation les tags d'une langue à l'autre il faut procéder à une analyse plus fine du contenu des sources qui alimentent Wikio.
On a déjà effleuré le sujet avec Jean, et, pourquoi pas, les Wikio Labs pourraient servir de cadre au développement d'un banc d'essai...

Jean-Marie

Jean Véronis a dit…

Ah Jérôme, tu parles de temps bien anciens : ça nous ramène 10 ans en arrière, ça... Mais la situation a assez peu évolué, paradoxalement, quand on pense aux enjeux que représentent la recherche d'information et l'internationalisation des échanges et de la société d'une façon générale. Les résultats de Google et Yahoo sont effectivement très mauvais. Il faut dire que ces moteurs ne font pas grand chose d'autre que se servir d'un système de traduction automatique pour envoyer la requête dans l'autre langue. On sait depuis longtemps que c'est une approche trop simpliste, et vouée à l'échec. Il faut absolument, comme le dit Emilie, faire bien plus qu'une traduction des requêtes.

A mon sens la solution du problème viendra de la "clusturisation" (ou agrégation) des résultats dans la langue source. On aurait d'ailleurs besoin de cette fonctionnalité sans même penser à une recherche interlingue. Il suffit d'essayer de cherche "golf" ou "orange" pour voir le méli-mélo de résultats qu'on obtient. Il existe des méthodes pour regrouper les résultats par thématiques (ex: golf/auto golf/sport ou orange/ville orange/compagnie). Une analyse de ces groupes permet alors de retrouver les groupes apparentés dans la langue cible, car on a suffisamment de matériau pour appliquer des méthodes statistiques efficaces... Bon, j'arrête là : il y aurait bien plus qu'un commentaire ou même qu'un post à faire sur ça : carrément une thèse... et même plusieurs !

Jean Véronis a dit…

Jean-Marie> Oui, Wikio contient un "corpus" de données fabuleux pour expérimenter sur cette question, puisqu'on a une quantité importante de news qu'il est possible de "matcher" quotidiennement en 5 langues, et desquelles on peut extraire un réservoir de traductions de mots, d'expressions et de relations sémantiques extraordinaire... Ca fait partie de mes plans, mais les journées n'ont que 35 heures, et Rome ne s'est pas faite en un jour ;-)

J2J2 a dit…

Jean> Effectivement, je ne sais pas pourquoi la clusterisation ne s'impose pas plus. Altavista s'y était essayé il y a déjà bien longtemps avec les travaux de F. Bourdoncle. Depuis, plusieurs moteurs s'y sont essayés avec peu de succès. Il existe pourtant des solutions open-source comme carrot2 (intégré dans nutch) et qui propose une démo et est utilisé dans divers autres moteurs.
Bref, des solutions de clustering existent, et elles sont relativement pertinentes, reste à trouver comment les intégrer dans un moteur de recherche : Nous touchons à mon sens au vrai problème : paradigme de recherche navigationel vs recherche par mot clé : comment intégrer le meilleur des deux mondes dans une interface?

Enregistrer un commentaire