CLEF AdHoc-News Test Suites (2004-2008) – Evaluation Package

View resource name in all available languages

Séquences de test CLEF AdHoc-News (2004-2008) – Package d’évaluation

ID:

ELRA-E0036

The Cross-Language Evaluation Forum (CLEF) promotes R&D in multilingual information access (MLIA) by (i) developing an infrastructure for the testing, tuning and evaluation of information retrieval systems operating on European languages in both monolingual and cross-language contexts, and (ii) creating test-suites of reusable data which can be employed by system developers for benchmarking purposes.

The CLEF AdHoc-News Test Suites (2004-2008) contain the data used for the main AdHoc track of the CLEF campaigns carried out from 2004 to 2008. This track tested the performance of monolingual, bilingual and multilingual Information Retrieval (IR) systems on multilingual news collections.

The CLEF Test Suite is composed of:
• News Data Collections
• Topics
• Guidelines
• Relevance assessments
• Official campaign results
• Working notes papers

The News Data Collections consist of the following datasets:
• Bulgarian
o Sega 2002 (33,356 documents, 120 Mb)
o Standart 2002 (35,839 documents, 93 Mb)
• Czech
o Mladna frontaDnes (68,842 documents, 143 Mb)
o Lidove Noviny (12,893 documents, 35 Mb)
• Dutch
o NRC Handelsblad 1994/95 (84,121 documents, 299 Mb)
o Algemeen Dagblad 1994/95 (106,483 documents, 241 Mb)
• English
o Glasgow Herald 1995 (56,472 documents, 154 Mb)
o Los Angeles Times 1994 (113,005 documents, 425 Mb)
o Los Angeles Times 2002 (135,153 documents, 434 Mb)
• Finnish
o Aamulehti late-1994/95 (55,344 documents, 137 Mb)
• French
o Le Monde 1994 (44,013 documents, 157 Mb)
o Le Monde 1995 (47,646 documents, 156 Mb)
o SDA French 1994 (43,178 documents, 86 Mb)
o SDA French 1995 (42,615 documents, 88 Mb)
• German
o Frankfurter Rundschau 1994 (139,715 documents, 320 Mb)
o Der Spiegel 1994/95 (13,979 documents, 63 Mb)
o SDA German 1994 (71,677 documents, 144 Mb)
o SDA German 1995 (69,438 documents, 141 Mb)
• Hungarian
o Magyar Hirlap 2002 (49,530 documents, 105 Mb)
• Italian
o La Stampa 1994 (58,051 documents, 193 Mb)
o SDA Italian 1994 (50,527 documents, 85 Mb)
o SDA Italian 1995 (48,980 documents, 85 Mb)
• Persian
o Hamshahri 1996-2002 (166,774 documents, 611 Mb)
• Portuguese
o Público 1994 (51,751 documents, 164 Mb)
o Público 1995 (55,070 documents, 176 Mb)
o Folha de São Paulo 1994 (51,875 documents, 108 Mb)
o Folha de São Paulo 1995 (52,038 documents, 116 Mb)
• Russian
o Izvestia 1995 (16,716 documents, 68 Mb)
• Spanish
o EFE 1994 (215,738 documents, 509 Mb)
o EFE 1995 (238,307 documents, 577 Mb)
• Swedish
o Tidningarnas Telegrambyrå 1994/95 (142,819 documents, 352 Mb)

The full package consists of 2.43 Gb and is stored on 1 DVD.

View resource description in all available languages

Le forum CLEF (Cross-Language Evaluation Forum) a pour but de promouvoir les travaux de R&D pour l’accès à l’information multilingue (i) en développant une infrastructure pour le test, le réglage et l’évaluation des systèmes de recherche d’information fonctionnant sur des langues européennes dans des contextes à la fois monolingues et cross-lingues, et (ii) en créant des séquences de test de données réutilisables qui peuvent être utilisées par des développeurs de systèmes dans des objectifs de benchmarking.

Les séquences de test CLEF AdHoc-News (2004-2008) contiennent les données utilisées pendant la tâche principale AdHoc des campagnes CLEF réalisées de 2004 à 2008. Cette tâche a testé la performance de systèmes de recherche d’information monolingue, bilingue et multilingue sur des collections de textes d’actualités multilingues.

Le package CLEF est composé de:
• Collections de textes d’actualités
• Topics
• Manuels
• Jugements de pertinence
• Résultats de la campagne officielle
• Notes de travail

Les collections de textes d’actualité comprennent les ensembles de données suivants:
• Allemand
o Frankfurter Rundschau 1994 (139 715 documents, 320 Mo)
o Der Spiegel 1994/95 (13 979 documents, 63 Mo)
o SDA allemand 1994 (71 677 documents, 144 Mo)
o SDA allemand 1995 (69 438 documents, 141 Mo)
• Anglais
o Glasgow Herald 1995 (56 472 documents, 154 Mo)
o Los Angeles Times 1994 (113 005 documents, 425 Mo)
o Los Angeles Times 2002 (135 153 documents, 434 Mo)
• Bulgare
o Sega 2002 (33 356 documents, 120 Mo)
o Standart 2002 (35 839 documents, 93 Mo)
• Espagnol
o EFE 1994 (215 738 documents, 509 Mo)
o EFE 1995 (238 307 documents, 577 Mo)
• Finnois
o Aamulehti late-1994/95 (55 344 documents, 137 Mo)
• Français
o Le Monde 1994 (44 013 documents, 157 Mo)
o Le Monde 1995 (47 646 documents, 156 Mo)
o SDA français 1994 (43 178 documents, 86 Mo)
o SDA français 1995 (42 615 documents, 88 Mo)
• Hongrois
o Magyar Hirlap 2002 (49 530 documents, 105 Mo)
• Italien
o La Stampa 1994 (58 051 documents, 193 Mo)
o SDA italien 1994 (50 527 documents, 85 Mo)
o SDA italien 1995 (48 980 documents, 85 Mo)
• Néerlandais
o NRC Handelsblad 1994/95 (84 121 documents, 299 Mo)
o Algemeen Dagblad 1994/95 (106 483 documents, 241 Mo)
• Persan
o Hamshahri 1996-2002 (166 774 documents, 611 Mo)
• Portugais
o Público 1994 (51 751 documents, 164 Mo)
o Público 1995 (55 070 documents, 176 Mo)
o Folha de São Paulo 1994 (51 875 documents, 108 Mo)
o Folha de São Paulo 1995 (52 038 documents, 116 Mo)
• Russe
o Izvestia 1995 (16 716 documents, 68 Mo)
• Suédois
o Tidningarnas Telegrambyrå 1994/95 (142 819 documents, 352 Mo)
• Tchèque
o Mladna frontaDnes (68 842 documents, 143 Mo)
o Lidove Noviny (12 893 documents, 35 Mo)

Le package complet consiste en 2,43 Go et est stocké sur 1 DVD.

You don’t have the permission to edit this resource.