CLEF Domain Specific Test Suites (2004-2008) – Evaluation Package – META-SHARE

Last view: 2026-06-25

87 Last view: 2026-06-25

CLEF Domain Specific Test Suites (2004-2008) – Evaluation Package

View resource name in all available languages

Séquences de test CLEF Domain Specific (2004-2008) – Package d’évaluation

http://catalog.elra.info/product_info.php?products_id=1128

ID:

ELRA-E0037

The Cross-Language Evaluation Forum (CLEF) promotes R&D in multilingual information access (MLIA) by (i) developing an infrastructure for the testing, tuning and evaluation of information retrieval systems operating on European languages in both monolingual and cross-language contexts, and (ii) creating test-suites of reusable data which can be employed by system developers for benchmarking purposes.

The CLEF Domain SpecificTest Suites (2004-2008) contain the data used for the Domain Specific track of the CLEF campaigns carried out from 2004 to 2008. This track tested the performance of monolingual, bilingual and multilingual Information Retrieval (IR) systems on multilingual collections of scientific articles.

The CLEF Test Suite is composed of:
• Data Collections
• Topics
• Guidelines
• Relevance assessments
• Official campaign results
• Working notes papers

The Data Collections consist of the following datasets:
• German Indexing and Retrieval Test database (302,638 documents, 524 Mb):
Data collection (social sciences) including a German corpus (151,319 documents) and a pseudo-English corpus which is in fact a translation of the German corpus into English (does not contain as much textual information as the German version).
• Cambridge Scientific Abstracts - Sociological Abstracts (20,000 documents, 38.5 Mb):
Database of Sociological Abstracts from Cambridge Scientific Abstracts.
• Russian Social Science Corpus (94,581 documents, 65 Mb):
Russian sociology database data from the Russian Social Science Corpus.
• Institute of Scientific Information for Social Sciences (Russian Academy of Science) (145,802 documents, 12 Mb):
The INION-ISISS corpus consists of bibliographical data from the ISISS database (03.02.2006) covering economics (~99,000 documents) and social sciences (46,000 documents).

The full package consists of 617 Mb and is stored on 1 CD.

View resource description in all available languages

Le forum CLEF (Cross-Language Evaluation Forum) a pour but de promouvoir les travaux de R&D pour l’accès à l’information multilingue (i) en développant une infrastructure pour le test, le réglage et l’évaluation des systèmes de recherche d’information fonctionnant sur des langues européennes dans des contextes à la fois monolingues et cross-lingues, et (ii) en créant des séquences de test de données réutilisables qui peuvent être utilisées par des développeurs de systèmes dans des objectifs de benchmarking.

Les séquences de test CLEF Domain Specific (2004-2008) contiennent les données utilisées pendant la tâche Domain Specific des campagnes CLEF réalisées de 2004 à 2008. Cette tâche a testé la performance de systèmes de recherche d’information monolingue, bilingue et multilingue sur des collections d’articles scientifiques.

Le package CLEF est composé de:
• Collections de textes
• Topics
• Manuels
• Jugements de pertinence
• Résultats de la campagne officielle
• Notes de travail

Les collections de textes comprennent les ensembles de données suivants:
• Base de données de test d’indexation et de recherche en allemand (302 638 documents, 524 Mo):
Collection de textes (sciences sociales) comprenant un corpus allemand (151 319 documents) et un “pseudo” corpus anglais qui est en fait une traduction du corpus allemand (ne contient pas autant d’information textuelle que la version allemande).
• Extraits scientifiques de Cambridge – Extraits sociologiques (20 000 documents, 38,5 Mo):
Base de données d’extraits sociologiques issues des extraits scientifiques de Cambridge.
• Corpus des sciences sociales russe (94 581 documents, 65 Mo):
Base de données sociologiques russes extraite du corpus des sciences sociales russes.
• Institut d’information scientifique pour les sciences sociales (ISISS - Académie des sciences russe) (145 802 documents, 12 Mo):
Le corpus INION-ISISS consiste en des données bibliographiques de la base de données ISISS (03.02.2006) qui couvre les domaines de l’économie (~99 000 documents) et des sciences sociales (46 000 documents).

Le package complet consiste en 617 Mo et est stocké sur 1 CD.

You don’t have the permission to edit this resource.

DistributionAvailability

Available - Restricted Use

Start date: 03/11/2010

Licence

ELRA EVALUATION

Restrictions: Evaluation Use

For Members of ELRA

User Nature: Academic

ELRA EVALUATION

Restrictions: Evaluation Use

For Members of ELRA

User Nature: Commercial

ELRA EVALUATION

Restrictions: Evaluation Use

For Non Members of ELRA

User Nature: Commercial

ELRA EVALUATION

Restrictions: Evaluation Use

For Non Members of ELRA

User Nature: Academic

Contact Person

Mapelli Valérie

text

Multilingual text corpusLanguages

German English Russian

Linguality

Linguality type: Multilingual

Size

617 Mb

Resource Creation

Creation ended: 01/01/2008

Funding Project

CLEF (Cross Language Evaluation Forum)

Funding Type: Eu Funds

Metadata

Created: 12/05/2005

Version

Version: 1.0

Last Updated: 03/11/2010

Usage

Actual Use - Nlp Applications

Use NLP Specific: Text Mining

People who looked at this resource also viewed the following:

Resources from the same project