Retrouvez motrech sur son nouveau site http://motre.ch/

18 nov. 2005

J2J2 Partitions pour Web 2.0 en la majeur

De nos tentatives de prospective lors de la journée "Peut-on vivre sans Google?", le clustering [en] est ressortit grand vainqueur.

Mais d'abord, c'est quoi le clustering?

Tout simplement (!?), une technique d'analyse statistique permettant de partitionner un ensemble de données en sous ensembles (les clusters). L'idée étant de regrouper les éléments partageant des traits communs ensembles. Selon la nature des données à traiter, ainsi que le résultat recherché, les critères de partitionnement seront bien entendu différents. Dans le domaine qui nous intéresse, celui du traitement du langage, il s'agira la plupart du temps de partitionner les documents en thèmes.

Pourquoi le clustering va t'il se développer?

Les deux arguments essentiels laissant penser que l'utilisation du clustering devrait se répandre de plus en plus dans les outils de recherche sont:
  • Le clustering permet de présenter de manière synthétique les thèmes essentiels d'un large corpus de documents. Cette représentation permettant alors de naviguer dans le corpus de thèmes en sous-thèmes.
  • Le clustering est aujourd'hui une technique éprouvée, qui a fait le tour d'un grand nombre de laboratoires de recherche et sur laquelle de très nombreux articles ont été publiés. La théorie est donc là, la technique aussi. Les nouveaux challenges du clustering, ceux qui lui permettront de séduire Madame Michu, sont essentiellement de trois ordres:
    • Représentation graphique : Comment représenter au mieux les clusters d'un ensemble de documents?
    • Navigation : Comment naviguer dans les clusters et sous-clusters?
    • Intgration : Comment intégrer de manière intuitive et efficace la recherche par navigation dans les clusters et la recherche par mots clés?

meX-search

meX-Search logoDe très nombreux moteurs de recherche proposent aujourd'hui le clustering. Mais comme souligné ci-dessus, les principaux problèmes restent leur représentation et leur intégration. Les nuages de mots sont aujourd'hui très à la mode pour représenter les occurences de mots dans un corpus. Alors pourquoi ne pas les utiliser pour représenter les thèmes issus du clustering? C'est ce que j'ai fait dans une maquette de Frutch que je suis en train de préparer (je ne vous la propose pas ici, car il y a encore pas mal de travail à effectuer, même s'il y a déjà les favicon depuis quelques temps dessus... "pirates!!!"). C'est une solution simple à mettre en oeuvre et les résultats sont plutôt intéressant (je les présente ci-dessous).

Mais d'autres solutions sont envisageables. Dans un mail intitulé "A search interface for the next generation?" [en], David Weiss nous en présentait hier matin une nouvelle sur la liste nutch-dev: meX-search. Basé sur les mêmes techniques de clustering que celles de nutch (carrot2), la représentation proposée par ce moteur est très intéressante: Simple, sobre, efficace et les clusters se sont montrés relativement pertinents lors de mes tests. Seuls petits points noirs : les animations qui à la longue deviennent pénibles (heureusement, elles sont désactivable), et le blondinet qui se ballade sur l'écran... peut-être que les filles aimeront... (Miss-TICS? Armelle?)

Vous trouverez donc ci-dessous quelques copies d'écran de meX-search que j'ai réalisé à partir de quelques recherches anodines. Chaque copie d'écran est accompagnée d'une représentation en nuage de mots afin que vous me donniez votre avis sur la pertinence de l'utilisation des nuages de mots pour représenter des clusters dans les résultats d'un moteur de recherche (j'ai arbitrairement choisi de faire pointer les liens des nuages de mots vers MozDex)...

"jerome charron" (aurais-je un problème avec mon égo?)


Résultat de meX-search pour 'jerome charron' (cliquez pour agrandir)



"motrech" (vous y êtes)


Résultat de meX-search pour 'motrech' (cliquez pour agrandir)



"nutch" (on ne se refait pas)


Résultat de meX-search pour 'nutch' (cliquez pour agrandir)



"les réacteurs à neutrons rapides" (une thèse au CEA, ça laisse des traces)


Résultat de meX-search pour 'les réacteurs à neutrons rapides' (cliquez pour agrandir)



"jean véronis" (notre gourou à tous)


Résultat de meX-search pour 'jean véronis' (cliquez pour agrandir)






TAGS : , , , , ,


9 nov. 2005

J2J2 Pensée du Jour

"La valeur que vous créez sur le web, ce sont les engins de recherche qui la récoltent..."
Matin Lessard (ZERO SECONDE)

8 nov. 2005

J2J2 Motrech Actu - #6

Le monde des moteurs est décidément en pleine effervescence...


  • Après Google, et Yahoo!, c'est sans surprise que MSN annonce son futur (courant 2006) service de bibliothèque numérique: MSN Book Search. Tout comme Yahoo!, MSN s'associe à l'Open Content Alliance afin de se mettre en travers de la route de Google Print. Espérons que cette concurrence acharnée sera un gage de qualité pour l'internaute.

  • De l'avenir de Quaero en particulier et plus généralement de l'édition logiciel en France. Vous doutez encore que nous sommes sur la mauvaise voie pour un moteur de recherche européen?

  • François Bourdoncle (Exalead) ouvre son blog, et commence par un intéressant billet sur le Web 2.0 et ses implications au niveau des moteurs de recherche et des portails [via moteurs].

  • Franck Poisson rejoint Exalead. Plus de détails sur son blog.

  • Avec le rachat de Verity par Autonomy, le marché de la recherche en entreprise et plus généralement des ECM se consolide un peu plus. Un nouveau challenge à relever pour Exalead...

  • Google ajoute une option de recherche avancée (uniquement sur l'interface anglophone) permettant de filtrer les contenus selon leur license Creative Commons. Notons que Nutch dispose d'une telle fonction (démo) depuis fort longtemps et que Yahoo! également [via affordance].

  • Dans la valse des nouveaux moteurs et méta moteurs, signalons l'arrivée de PolyMeta, un méta moteur qui n'a rien de révolutionnaire, mais est agréable à utiliser [via abondance].

  • Sous l'impulsion du Web 2.0, la course au portail et à la page d'accueil personnalisée (page alpha?) reprend un rythme soutenu. Yahoo! leader sur ce domaine et qui n'a jamais cessé d'aller dans cette direction, se voit poursuivit (de loin) par Google et le tout nouveau Windows Live. Rien de révolutionnaire pour le moment (NetVibes restant l'approche de loin la plus intéressante [en] ), juste des tentatives d'intimidation [via Référencement, Design et Cie].

  • Un article [en] sur XML.com pour aller un peu plus loin avec Google Sitemaps.

  • Lexxe, un moteur de recherche en langage naturel (en anglais uniquement). Il reste encore beaucoup d'améliorations à apporter à ce moteur pour qu'il puisse séduire un large publique, mais les quelques tests que j'ai effectué montrent tout de même un traitement intéressant de la requête [via Kesako].

  • BlogDimension, moteur d'exploration de la blogosphère (en version alpha) a fait beaucoup parler de lui lors de son lancement. Tout ce bruit n'a pas été provoqué par les fonctionnalités révolutionnaires de ce moteur, puisqu'il est au final assez pauvre et inintéressant. Non, tout ce bruit a été simplement déclenché par un billet de Joël Ronez qui dévoilait (enfin pas tout à fait, puisqu'en utilisant whois et google vous parviendrait au même résultat) l'identité des créateurs de ce moteur qui pour des raisons professionnelles souhaitaient rester anonymes (indice: ils travaillent pour un moteur que j'aime bien).

  • PubSub, est un moteur de recherche de blog autrement plus intéressant que BlogDimension. Un peu déroutant au début, il se révèle proposer des fonctionnalités utiles, bien pensées et bien intégrées (il faudrait un billet complet pour le décrire). J'ai particulièrement aimé l'outil de statistiques sur les blogs: très clair, très détaillé. On y constate par exemple très facilement que certains blogs comme affordance.info ont une tendance à très fortement lier leur contenu, alors que d'autres beaucoup moins... (c'est bien beau de balancer sur vos étudiants Jean, mais il va tout de même falloir faire un petit effort aussi...) [via affordance.info].

  • Christophe Noël, Fructhy de la première heure, nous parle de son expérience de la création d'IllicoPresto, un moteur belge sous Nutch (merci Christophe pour cette nouvelle preuve que Nutch, ça marche!)

  • Enfin, Robert Viseur nous signalait récemment sur la liste motrech le méta-moteur Metadone.net qu'il a lui même créé à titre expérimental (ils sont en forme ces belges...). Peut-être sera-t'il à vendre sur eBay dans quelques temps...