Amaryllis Corpus - Evaluation Package

View resource name in all available languages

Corpus Amaryllis - Package d'évaluation

ID:

ELRA-W0029

Launched at the end of 1995, the AMARYLLIS project aimed at evaluating information retrieval software for French text corpora in order to provide a methodology for the evaluation of other similar tools. AMARYLLIS was organised by the Institut de l'Information Scientifique et Technique (INIST) with the support of the Agence francophone pour l'enseignement supérieur et la recherche (AUPELF-UREF) and the French Ministère de l'Education Nationale, de la Recherche et de la Technologie (MERT).
More specifically, the objective was to create document corpora, questions and answers, in the framework of the Action de Recherche Concertée (ARC A1, renamed as Amaryllis- Access to text information in French), in order to get similar works to the United States project TREC.
All corpora are structured as SGML files with isolatin character-encoding.
The available corpora were provided by:
- INIST (Institut de l'Information Scientifique et Technique)
- OFIL (Observatoire Français et International des Industries de la Langue)
- ELRA (European Language Resources Association)
Each provider provided three types of corpora : text documents, seach topics and answers to these topics in the corresponding text corpora (with frames of reference for the answers).
1- Text documents in French
The text documents in French comprise:
- Articles (titles and texts) extracted from trhe newspaper "Le Monde"; each batch contains three months of documents, provided by OFIL (01-01-93/31-03-93, 01-04-93/30-06-93),
- Titles and summaries of scientific articles covering every domain from the Pascal bibliographical databases (from 1984 to 1995) and Francis (from 1992 to 1995), provided by INIST.
The tagging of the documents conforms to a simplified version of a DTD from the TEI, which includes the possibility to manage the logical structure.
2- Multilingual text documents
The multilingual text documents have been provided by ELRA, and comprise documents in 6 languages (French, English, Italian, Spanish, German and Portuguese), extracted from the parallel corpus MLCC which contains documents translated in official European languages (from 1992 to 1994). The corpus was divided in two sub-corpora: written questions (10 million words) and debates of the European Parliament (5 to 8 million de words per language).
3- Search topics
The topics derive from questions asked by end users, and should contain every information which is necessary to understand the issue they deal with and to estimate the relevance. They comprise the following items:
- A domain, to determine the field of knowledge they belong to,
- A topic: which equals to a title defining the subject,
- A question: which matches the question the user may ask,
- Complementary information: which gives details on further documents that should be selected from the corpus,
- Concepts: which are a set of descriptors used to set the limits of the search.
The topics have been built by OFIL, by some documentalists working for Le Monde who used requests from journalists, and by engineers responsible for documentation at INIST (experts in their domain) who used requests from end users. These topics were to cover numerous application fields, and to get a large number of relevant results in each corpus. The topics have been tested on the corpora to control their relevance. The query may have had to be modified, or some further details may have been needed.
4- Frames of reference for the answers
Answers' files contain for each numbered topic the numbers of all relevant documents. Some frames of reference for the answers were established before the participants proceeded to the tests. The answers had been selected by the providers (OFIL and INIST) with the appropriate methodology and adequate tools (initial frames of reference): they proceeded to a pre-selection of documents as extended as possible, based not only on their titles and summaries but also on the key words and classification codes used in the Pascal and Francis databases. These key words and classification codes can not be accessed by the participants. The results (a set of documents) are sorted manually, so that the results match the best the query.
The initial frames of reference were checked manually by the providers (INIST and OFIL), using the answers given by the participants. These answers were collected when the tests were finished. This allowed us to review and correct the frames of reference for the answers in order to give some even more detailed information for their content. The illustration below shows how the review was performed.
The 4 CDs contain each a corpus for the two phases of the two campaigns which took place.
TrecEval is also provided

View resource description in all available languages

Lancé fin 1995, le projet AMARYLLIS a eu pour objet principal d'évaluer des logiciels de recherche d'information dans des corpus de texte en français et dégager une méthodologie reconnue pour l'évaluation de pareils outils de recherche. AMARYLLIS a été organisé par l'Institut de l'Information Scientifique et Technique (INIST) avec le soutien de l'Agence francophone pour l'enseignement supérieur et la recherche (AUPELF-UREF) et le Ministère de l'Education Nationale, de la Recherche et de la Technologie. (MERT).
Dans le cadre de cette Action de Recherche Concertée (ARC A1, baptisée Amaryllis-Accès à l'information textuelle en français), il s'agissait plus précisément de créer des corpus de documents, des questions et des réponses en vue d'opérations proches de celles menées aux États-Unis dans le cadre de TREC.
Tous les corpus sont structurés en SGML avec codage des caractères en isolatin.
Les corpus disponibles ont été fournis par :
- l'INIST (Institut de l'Information Scientifique et Technique)
- l'OFIL (Observatoire Français et International des Industries de la Langue)
- ELRA (Association Européenne pour les Ressources Linguistiques)
Chaque fournisseur a constitué trois types de corpus : documents textuels, thèmes de recherche et réponses à ces thèmes dans les corpus de documents (référentiels de réponses).
1- Les documents textuels en français
Les documents textuels en français comprennent:
- des articles (titres et textes) du journal "Le Monde", trois mois par lot de documents fournis par l'OFIL (01-01-93/31-03-93, 01-04-93/30-06-93),
- des titres et résumés d'articles scientifiques couvrant tous les domaines de connaissance extraits des bases de données bibliographiques Pascal (années 1984 à 1995) et Francis (années 1992 à 1995) fournis par l'INIST.
Les documents sont structurés selon une DTD issue de TEI , simplifiée par rapport à celle-ci, tout en intégrant la gestion de la structure logique d'un ouvrage.
2- Les documents textuels multilingues
Les documents textuels multilingues ont été fournis par ELRA et comprennent 6 langues (français, anglais, italien, espagnol, allemand et portugais) extraites du corpus parallèle MLCC de documents traduits dans 9 langues européennes officielles (1992-1994) divisé en 2 sous-corpus : questions écrites (10 millions de mots) et débats parlementaires (5 à 8 millions de mots par langue).
3- Thèmes de recherche
Ils sont issus de questions réelles d'utilisateurs finaux et intègrent en principe tous les éléments d'informations nécessaires à la compréhension de la problématique qu'ils recouvrent et au jugement de la pertinence. Ils comprennent les éléments d'informations suivants :
- leur domaine : permet de situer le champ de connaissances auquel se rattache le thème
- leur sujet : est un titre définissant le thème
- la question : correspond à la demande de l'utilisateur
- un complément : donne des précisions sur les documents à retenir dans le corpus
- des concepts : contient un ensemble de descripteurs permettant de délimiter le champ de la recherche
Les thèmes ont été construits par l'OFIL, avec l'aide des documentalistes du journal Le Monde à partir de demandes de journalistes, ainsi que par des ingénieurs documentalistes de l'INIST (spécialistes des domaines concernés) à partir des demandes d'utilisateurs finaux dont ils disposaient. Ces thèmes devaient couvrir des domaines variés et devaient permettre d'obtenir un nombre conséquent de réponses pertinentes dans chaque corpus de documents. Ils ont été testés sur les corpus de documents pour vérifier qu'ils comportaient des réponses, ce qui a amené dans certains cas à modifier la demande ou à donner des précisions complémentaires
4- Référentiels de réponses
Les fichiers de réponses comprennent pour chaque thème identifié par un numéro, l'ensemble des numéros des documents pertinents. Des référentiels de réponses ont été établis préalablement aux tests des participants. Les réponses ont été recherchées par les fournisseurs (OFIL et INIST) avec une méthode et des outils propres (référentiels initiaux) : une présélection volontairement la plus large possible de documents en exploitant les titres et les résumés, mais aussi les mots-clés et les codes de classement figurant dans les bases de données Pascal et Francis. Ces mots-clés et les codes de classement ne sont pas fournis aux participants. L'ensemble des documents obtenus est alors trié manuellement de façon à répondre au plus juste à la question posée.
Les référentiels initiaux ont été révisés manuellement par les fournisseurs (INIST et OFIL) au vu des réponses des participants puisqu'à l'issue des phases de test, nous disposions des réponses de ceux-ci. Cela nous a permis de revoir les référentiels de réponses afin d'en affiner encore le contenu. Cette révision s'est faite selon le principe illustré ci-dessous.
Chacun des 4 CD comporte un corpus propre à chaque phase des deux campagnes réalisées. Le logiciel TrecEval est également fourni avec les données

You don’t have the permission to edit this resource.