Contexte

Contexte et motivation 

Aujourd’hui, les campagnes d’évaluation de systèmes de recherche d’information mises en place comme TREC , TRT, MUC ou CLEF respectent tous les protocoles d’évaluation mis en place par le NIST.

Ces protocoles sont orientés évaluation quantitative de la technologie mais les conditions sont assez éloignées d'un usage réel des systèmes. C'est la raison pour laquelle un certain nombre de critiques ont été apportées sur les conditions d'évaluation. Ces critiques portent sur le caractère artificiel des conditions de test (plusieurs mois pour étudier la base de données, au moins un mois pour traiter les requêtes) cela amène une distorsion dans la comparaison des technologies par le fait que la main d’œuvre utilisée joue un rôle essentiel dans la qualité des résultats.

Cela favorise aussi certaines approches basées sur des apprentissages statistiques qui s'avèrent quelquefois impraticables d'un point de vue économique dans le cas général pour une exploitation réelle. L'autre ensemble de critiques que l'on peut faire porte sur l'absence de l'utilisateur dans le processus de recherche. La qualité de l'interface utilisateur peut amener de grandes différences dans le temps d'accès à une information pertinente.

Il est donc nécessaire de mettre en place des évaluations qui tiennent compte du fait que les systèmes dans leur usage réel sont en général pilotés par des utilisateurs motivés par leur recherche.

Nouvelle méthodologie

Cette réflexion nous amène à proposer à la communauté de la recherche et des industriels producteurs d'outils de nouveaux modes d'évaluation qui tiennent compte des conditions réelles d'usage des systèmes. Bien entendu ces campagnes ne peuvent se faire sans le consensus des auteurs de systèmes à évaluer. C'est la raison pour laquelle la première partie de ce projet consiste à établir en accord avec la communauté de nouvelles règles d'évaluation.

On portera une attention particulière à la fonctionnalité de filtrage d'information qui est très mal prise en compte par les évaluations TREC. Cette fonctionnalité est particulièrement importante pour l’application veille. La procédure de TREC consiste à faire entraîner les systèmes sur une base avec des profils dont on connaît les réponses.

L'épreuve consiste à utiliser les mêmes profils sur une autre base homogène avec la première.

Dans notre cas, les profils sont appliqués sans qu’il n’y ait eu un entrainement préalable. En revanche, le feed back utilisateur simulé permettra au système de s’améliorer. Il s’agit donc bien d’évaluer des systèmes de filtrage adaptatifs (Adaptative filtering systems).

Dans un contexte de veille mondialisé, l’aspect multilingue est important. La campagne permettra de tester des systèmes aussi bien monolingues qu’interlingues.



 

 

Dernière mise à jour : 06 Octobre 2007

Contacts | ©2007 INFILE