ARCADE II Evaluation Package

View resource name in all available languages

Package d’évaluation ARCADE II



The ARCADE II Evaluation Package was produced within the French national project ARCADE II (Evaluation of parallel text alignment systems), as part of the Technolangue programme funded by the French Ministry of Research and New Technologies (MRNT). The ARCADE II project enabled to carry out a campaign for the evaluation in the field of multilingual alignment, with even more ambitious objectives than in the ARCADE I project (within the AUPELF campaigns (Actions de recherche Concertées, 1996-1999), by including a finer alignment and by coping with many other languages (extension to French-distant languages). Thus, ARCADE II is not only an extension of ARCADE I, but also presents innovative and exploratory aspects, for instance by integrating French-distant languages, such as Arabic, Russian, Chinese, etc.

This package includes the material that was used for the ARCADE II evaluation campaign. It includes resources, protocols, scoring tools, results of the campaign, etc., that were used or produced during the campaign. The aim of these evaluation packages is to enable external players to evaluate their own system.

The campaign is distributed over two actions:
1) Sentence alignment: it consists in evaluating the alignment of French language with Latin-script languages on one side, and with non Latin-script languages on the other side.
2) Translation of named entities: it consists in identifying in the parallel Arabic corpus the translation corresponding to the named entities phrases annotated in the French corpus.

The ARCADE II evaluation package contains the following data and tools:
1) The JOC Corpus (Official Journal of the European Community) with Latin-script languages (English, French, German, Italian, Spanish) contains 1 million words per language (5 million words in all). The texts are aligned at the sentence level and produced in XML and UTF-8 format.
2) The MD Corpus (Le Monde Diplomatique) with non-Latin-script languages (Arabic, Chinese, Greek, Japanese, Persian, Russian,) contains manually-aligned texts at the sentence level, encoded in XML and UTF-8. The size of the different parts varies according to the language pair. A subset for the Arabic-French part was manually annotated with named entities. The size in words was calculated in the French part. The calculation is different depending on the language (such as for Arabic where many clitics are agglutinated, which reduces the number of words), and sometimes impossible (such as for Chinese, where there is no graphical separation between words):
<table border="0" width="100%" cellspacing="0" cellpadding="2" class="infoBoxContents">
<tr align=center><td></td><td>Arabic-French</td><td>Chinese-Fr</td><td>Greek-Fr</td><td>Japanese-Fr</td><td>Persian-Fr</td><td>Russian-Fr</td></tr>
<tr align=center><td align=left><strong>Number of articles</strong></td><td>150 x 2</td><td>59 x 2</td><td>50 x 2</td><td>52 x 2</td><td>53 x 2</td><td>50 x 2</td></tr>
<tr align=center><td align=left><strong>Number of words in French</strong></td><td>316,000</td><td>100,000</td><td>90,000</td><td>100,000 </td><td>108,000</td><td>91,000</td></tr>
A description of the project is available at the following address: (in French language)

View resource description in all available languages

Le package d’évaluation ARCADE II a été produit dans le cadre du projet national français ARCADE II (« Action de Recherche Concertée sur l’Alignement de Documents et son Evaluation »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT). Le projet ARCADE II a permis de réaliser une campagne d'évaluation dans le domaine de l'alignement multilingue, avec des objectifs plus ambitieux que le projet ARCADE I (dans le cadre des Actions de recherche Concertées de l'AUPELF (1996-1999)), incluant un alignement plus fin et portant sur plusieurs autres langues (élargissement à des langues distantes du français). Ainsi, ARCADE II, tout en étant dans la continuité d’ARCADE I, présente des aspects innovants et exploratoires, par exemple en intégrant des langues distantes du français, telles que l’arabe, le russe, le chinois, etc.

Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation ARCADE II. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à des acteurs externes d’évaluer leur propre système.

La campagne se décompose en deux actions :
1) Alignement phrastique : consiste à évaluer l’alignement du français avec des langues à écriture latine d’une part et avec des langues à écriture non latine d’autre part.
2) Traduction d’entités nommées : consiste à repérer la traduction, à partir du corpus français annoté en entités nommées, dans le corpus parallèle arabe.

Le package d’évaluation ARCADE II contient les données et outils suivants :
1) Corpus JOC (Journal Officiel de la Communauté européenne) des langues à écriture latine (français, anglais, allemand, italien, espagnol) contient 1 million de mots par langue (5 millions de mots au total). Les textes sont alignés au niveau de la phrase et mis au format XML et UTF-8.
2) Corpus MD (Le Monde Diplomatique) des langues à écriture non latine (arabe, chinois, russe, persan, grec, japonais) contient des textes alignés manuellement au niveau de la phrase, codés en XML et UTF-8. La taille des différentes parties varie en fonction de la paire de langues concernée. Un sous-ensemble de la partie français-arabe a été annoté manuellement en entités nommées. Les tailles en mots ont été comptées dans la partie française. Le comptage est différent dans certaines langues (comme l’arabe où de nombreux clitiques sont agglutinés, ce qui réduit le nombre de mots), voire impossible (comme en chinois, où il n’y a pas de séparation graphique des mots) :
<table border="0" width="100%" cellspacing="0" cellpadding="2" class="infoBoxContents">
<tr align=center><td></td><td>arabe-français</td><td>chinois-fr</td><td>grec-fr</td><td>japonais-fr</td><td>persan-fr</td><td>russe-fr</td></tr>
<tr align=center><td align=left><strong>Nombre d'articles</strong></td><td>150 x 2</td><td>59 x 2</td><td>50 x 2</td><td>52 x 2</td><td>53 x 2</td><td>50 x 2</td></tr>
<tr align=center><td align=left><strong>Nombre de mots en français</strong></td><td>316 000</td><td>100 000</td><td>90 000</td><td>100 000</td><td>108 000</td><td>91 000</td></tr>
Une description du projet est disponible à l'adresse suivante :

You don’t have the permission to edit this resource.