Retrouvez motrech sur son nouveau site http://motre.ch/

20 mars 2009

Emilie Google est-il est le meilleur moteur de recherche en langue naturelle ?

a fait une sélection de 10 questions qu'il est possible de poser à un moteur de recherche en langage naturel, et les a testées sur plusieurs moteurs : Google donc, mais aussi Powerset, Live Search, Hakia, Yahoo, Ask et TrueKnowledge.

Les questions :
  • Show me a map of France
  • List some large cities in France
  • When was einstein born?
  • What movies has Alain Delon been in?
  • Give me the GDP of China
  • How many languages are spoken in Pakistan?
  • Who was the eighth president of the United States?
  • How many ethnic groups exist in cameroon?
  • What is TCP/IP?
  • How hot will it be in Paris tomorrow?
  • Résultat des courses : Google et Ask obtiennent la note de 10/10 et Powerset arrive en dernier avec juste la moyenne (5/10). Les autres moteurs se débrouillent plutôt bien : 8/10 ou 9/10.

    Pour une description des moteurs de recherche et l'analyse, c'est ici.

    Quelques questions :
    • Est-ce que la méthodologie est pertinente ?
    • Est-ce que le choix des moteurs l'est aussi ?
    Jérôme : Le billet est intéressant : étudier et comparer les réponses de différents moteurs à un ensemble de recherches exprimées en langage naturel (tout de même assez factuelles), pourquoi pas. La méthodologie un peu légère à mon goût : ne prendre que le premier résultat, reformuler les requêtes selon les moteurs, ne décider de la pertinence (facteur très subjectif) des réponses sans prendre ne serait-ce qu'un mini panel ne donne pas des résultats significatifs et exploitables. Il ne faut donc pas comme nous serions tenté de la faire prendre ce billet comme une étude détaillée, mais comme une expérimentation.

    Il y a déjà un petit moment, suite à ce billet de ReadWriteWeb que je voulais aborder le sujet des "recherches sémantiques" de Google. Ce sera donc aujourd'hui l'occasion d'en parler.
    ça semble magique. Vous recherchez "Quelle est la devise de la France" et Google vous retourne "France - Monnaie : Euro (EUR)". Pas mal, non ? Amusez-vous donc avec des recherches du style "qui est le président de la france" ou encore "quelle est la superficie de la france". Pour ceux qui ne connaissaient pas, vous êtes bluffés, non ?
    De là à parler de recherche en langage naturel, il ne faut tout de même pas aller trop vite. Essayez par exemple "quelle est la taille de la france", "qui est le chef d'état de la france" ou "j'aimerais connaitre la superficie de la france" et vous verrez que Google ne sait plus nous répondre (directement).

    D'autres vous dirons que Google devient un moteur de recherche sémantique. Soit, mais qu'est-ce que la sémantique et plus particulièrement l'analyse sémantique ? D'après la définition de Wikipedia, c'est une analyse qui établit la signification d'un message en utilisant le sens des éléments du texte. Pensez-vous sérieusement que Google face une telle analyse ? Non du tout.
    Voici comment se déroule très probablement ce processus à l'heure actuelle. Le moteur utilise une base de données structurée (comme dbpedia) ou pseudo-structurée (comme Wikipedia). Prenons l'exemple de Wikipedia. Allez sur la page France. Que remarquez-vous sur la droite ? Un tableau structuré de données factuelles sur la France (superficie, devise, etc). Google récupère donc ces données en conservant le triplet France/devise/euro. Ensuite lors d'une recherche, si Google retrouve le terme France associé au terme devise (ou superficie, etc) et que le reste des termes sont des termes vides ou peu discriminant alors il propose une réponse exacte issue de la base de données structurée.

    Nous pouvons au premier abord nous laisser tromper, mais non, Google n'est pas un moteur de recherche en langage naturel et ce n'est pas non plus un moteur de recherche sémantique. En revanche, ce genre de fonctionnalité est très intéressante et préfigure ce que seront les moteurs de demain : un accès encore plus précis et plus rapide à l'information recherchée.

    5 commentaires:

    Jean Véronis a dit…

    Ces histoires de questions en langage naturel me font toujours un peu rigoler... Ca bluffe mais en fait, les moteurs n'interprètent rien du tout. On a la même réponse avec "devise France" qu'avec "quelle est la devise de la France?", mais c'est moins sexy. De plus, les utilisateurs renâclent à taper la version longue : ces systèmes de question/réponse n'ont jamais séduit au-delà du bluff initial.

    Et il suffit de poser des questions un poli plus compliquées pour voir que plus rien ne marche comme prévu, comme Jérôme le fait remarquer :

    Quels sont les pays de la zone euro?
    quelles sont les devises de la france et de l'italie?
    Quels sont les fleuves de France?

    Dans le meilleur des cas on se paie Yahoo Q/R.

    Bref, on est toujours aussi loin du questionnement en LN que quand j'étais étudiant (ça remonte au siècle dernier ;-) En revanche, il est vrai que Google analyse de plus en plus les sources de données (au moins partiellement) structurées comme wikipedia, et cela amènera un vrai progrès à mon avis.

    Jean-Noël Anderruthy a dit…

    Etant l'auteur du machin, je préfère signaler que la méthode n'avait, en effet, rien de scientifique ! Et qu'elle ne se revendique pas comme telle. Dans ce panel, TrueKnowledge offre des aspects qui sont intéressants. Les autres se contentent de piocher dans des données structurées et les réponses semblent sortir comme des lapins d'un chapeau de magicien.
    Je pense tout de même que les moteurs de recherche classique vont faire des progrès importants tant du point de vue des recherches en langage naturel que des recherches dites "sémantiques".
    Un grand merci pour le lien ;-)

    Jean-Noël a dit…

    Bonjour ! Etant l'auteur du "machin" et n'étant pas titulaire d'une chaire en sciences cognitives du langage, l'article n'avait aucune prétention scientifique. Cela dit, il ne faut pas oublier que ce type de fonctionnalité est mieux implémenté dans les versions anglophones des moteurs de recherche. De fait, ce type de requête est possible : What is the size of France (ou size of France) who is the president of state of France What are the rivers of France? Bien entendu, cela ressemble à un tour de passe-passe et les réponses sortent comme des lapins d'un chapeau de magicien. J'ai trouvé la démarche de TrueKnowledge intéressante quand on lui pose les deux autres questions "couperet" : What are the countries of the euro area? what are the currencies of France and Italy? Mais il y a certes beaucoup de progrès à réaliser... Merci pour le lien :-)

    thomas renaudin a dit…

    Il est intéressant de voir que ces derniers temps, le langage naturel se développe de plus en plus, mais pas uniquement sur moteur.Par exemple, le langage naturel se développe aussi sur les serveurs téléphoniques.
    Si vous avez besoin d'infos sur le langage naturel, je vous conseille ce site: http://www.langage-naturel.fr

    all kind of recipes a dit…

    google reste le meilleure puissque il est le plus populaire est qui contient le plus de page web et c est que l essensiel .
    www.allkindofrecipes.blogspot.com

    Enregistrer un commentaire