Objectifs
Objectifs du projet
Le projet INFILE a pour but d’organiser une campagne d’évaluation de système de filtrage d’information monolingue et multilingue basée sur des conditions proches d’un usage réel pour des applications de veille. La méthodologie et les métriques seront discutées au sein d’un groupe de réflexion qui sera mis en place dès le début du projet.
Il s’agit de mettre en place un filtrage sur profils. Pour se rapprocher de la réalité de l’usage, les profils seront envoyés aux participants en leur demandant de mettre leur système en ligne. Le site évaluateur enverra, un à un, les ensembles de documents à filtrer et validera chaque réponse en temps réel simulant ainsi le feed back d’un utilisateur réel. Ce feed back devrait permettre au système d’améliorer ses performances et ainsi, permettre au participant de mesurer l’évolution des performances de son système au cours du temps.
Du fait que l’interactivité ne permette pas une intervention manuelle sur le système, la taille du corpus n’a plus besoin d’être très importante pour rendre difficile une intervention manuelle sur les résultats ou le système. Cette taille doit tout de même permettre une validation statistique des résultats. La taille limitée du corpus permettra d’avoir une vérité terrain entièrement vérifiée, éliminant ainsi le biais de considérer comme non pertinents les documents non vérifiés comme dans le cas de TREC.
La campagne mise en place s’adresse à tous les laboratoires Publics et Editeurs de logiciels qui souhaitent évaluer, dans un contexte d’usage réel, leur technologie en fonction du besoin de routage de l’information pour la veille. Cet campagne n’est pas limité aux acteurs français.
L'objectif principal du projet est de susciter une réflexion et de mener des expérimentations concernant l'apport des critères d'usabilité à l'évaluation des systèmes de Recherche et Filtrage d'Information (RFI). Cette réflexion conduira à la définition de critères et de protocoles qui seront validés dans le cadre de travaux expérimentaux au cours de la campagne d'évaluation.
Concrètement, le projet permettra de :
- Créer un groupe de réflexion regroupant des offreurs de technologies, des utilisateurs, des chercheurs académiques et des organisateurs de campagnes d'évaluation (TREC, CLEF, Amaryllis...) afin d'améliorer les protocoles d'évaluation actuels en plaçant l'usager au coeur du problème et proposer un guide méthodologique à l'intention des utilisateurs. Plusieurs industriels ont déjà confirmé leur participation (Lingway, Sinequa, Ever Team...) à ce groupe de réflexion.
- Évaluer l'apport de nouvelles fonctionnalités linguistiques dans la recherche et le filtrage d'information, en particulier sur des fonctionnalités telles que :
- l'interaction (la reformulation linguistique vs sans reformulation),
- la catégorisation linguistique,
- le filtrage,
- le multilinguisme, en particulier l'interrogation interlingue,
- l'aide à la navigation (cartographie, résumé automatique, etc.),
- l'adaptation dynamique à l'utilisateur.
- Nature exacte du résultat attendu
Il s’agit de mettre en place un filtrage sur profils. Pour se rapprocher de la réalité de l’usage, les profils seront envoyés aux participants en leur demandant de mettre leur système en ligne. Le site évaluateur enverra, un à un, les ensembles de documents à filtrer et validera chaque réponse en temps réel simulant ainsi le feed back d’un utilisateur réel. Ce feed back devrait permettre au système d’améliorer ses performances et ainsi, permettre au participant de mesurer l’évolution des performances de son système au cours du temps.
Du fait que l’interactivité ne permette pas une intervention manuelle sur le système, la taille du corpus n’a plus besoin d’être très importante pour rendre difficile une intervention manuelle sur les résultats ou le système. Cette taille doit tout de même permettre une validation statistique des résultats. La taille limitée du corpus permettra d’avoir une vérité terrain entièrement vérifiée, éliminant ainsi le biais de considérer comme non pertinents les documents non vérifiés comme dans le cas de TREC.
La campagne mise en place s’adresse à tous les laboratoires Publics et Editeurs de logiciels qui souhaitent évaluer, dans un contexte d’usage réel, leur technologie en fonction du besoin de routage de l’information pour la veille. Cet campagne n’est pas limité aux acteurs français.
L'objectif principal du projet est de susciter une réflexion et de mener des expérimentations concernant l'apport des critères d'usabilité à l'évaluation des systèmes de Recherche et Filtrage d'Information (RFI). Cette réflexion conduira à la définition de critères et de protocoles qui seront validés dans le cadre de travaux expérimentaux au cours de la campagne d'évaluation.
Concrètement, le projet permettra de :
- Créer un groupe de réflexion regroupant des offreurs de technologies, des utilisateurs, des chercheurs académiques et des organisateurs de campagnes d'évaluation (TREC, CLEF, Amaryllis...) afin d'améliorer les protocoles d'évaluation actuels en plaçant l'usager au coeur du problème et proposer un guide méthodologique à l'intention des utilisateurs. Plusieurs industriels ont déjà confirmé leur participation (Lingway, Sinequa, Ever Team...) à ce groupe de réflexion.
- Évaluer l'apport de nouvelles fonctionnalités linguistiques dans la recherche et le filtrage d'information, en particulier sur des fonctionnalités telles que :
- l'interaction (la reformulation linguistique vs sans reformulation),
- la catégorisation linguistique,
- le filtrage,
- le multilinguisme, en particulier l'interrogation interlingue,
- l'aide à la navigation (cartographie, résumé automatique, etc.),
- l'adaptation dynamique à l'utilisateur.
- Nature exacte du résultat attendu
Retombées scientifiques et techniques attendues
Ce projet va permettre de développer de nouveaux modes d'évaluation des systèmes de filtrage et de recherche d'information orientés usage.
Une campagne d’évaluation sera mise en place en fonction des résultats des discussions entre les organisateurs et la communauté des chercheurs et éditeurs de logiciels. Au préalable, il sera nécessaire d’organiser une campagne à blanc pour s’assurer du bon fonctionnement global de l’évaluation des systèmes.
Un corpus sera réalisé avec les requêtes et les vérités terrain permettant le bon déroulement de la campagne. Les résultats seront calculés et communiqués aux participants pour discussion.
Les résultats de la campagne et les nouvelles méthodes d'évaluation seront présentés dans le cadre d’un atelier à la fin du projet et feront l’objet d’une publication.
A la fin du projet, un kit d'évaluation sera disponible et diffusé par ELDA. Ce kit d’évaluation permettra à de nouvelles équipes de faire tourner leur système dans des conditions identiques à celles de la campagne. Ces équipes pourront ainsi comparer leurs résultats avec les propres résultats de la campagne.
De telles campagnes ne doivent pas être uniques. Un lobbying sera mis en place pour que les campagnes d'évaluation de type Techno-langue et celle-ci soient poursuivies de manière continue comme c'est le cas aux États-Unis.
Une campagne d’évaluation sera mise en place en fonction des résultats des discussions entre les organisateurs et la communauté des chercheurs et éditeurs de logiciels. Au préalable, il sera nécessaire d’organiser une campagne à blanc pour s’assurer du bon fonctionnement global de l’évaluation des systèmes.
Un corpus sera réalisé avec les requêtes et les vérités terrain permettant le bon déroulement de la campagne. Les résultats seront calculés et communiqués aux participants pour discussion.
Les résultats de la campagne et les nouvelles méthodes d'évaluation seront présentés dans le cadre d’un atelier à la fin du projet et feront l’objet d’une publication.
A la fin du projet, un kit d'évaluation sera disponible et diffusé par ELDA. Ce kit d’évaluation permettra à de nouvelles équipes de faire tourner leur système dans des conditions identiques à celles de la campagne. Ces équipes pourront ainsi comparer leurs résultats avec les propres résultats de la campagne.
De telles campagnes ne doivent pas être uniques. Un lobbying sera mis en place pour que les campagnes d'évaluation de type Techno-langue et celle-ci soient poursuivies de manière continue comme c'est le cas aux États-Unis.