ETAPE Evaluation Package
View resource name in all available languages
Package d’évaluation ETAPE
ID:
ELRA-E0046
The ETAPE project (Evaluation en Traitement Automatique de la Parole) consists in an evaluation campaign for automatic speech processing systems. The project was funded by the French National Research Agency (ANR) under grant agreement ANR-09-CORD-009.
The ETAPE 2011 campaign follows the series of ESTER campaigns organized in 2003, 2005 and 2009 (see also ELRA-E0021, ELRA-S0241, ELRA-S0305 and ELRA-S0338 for resources from ESTER campaigns), targeting a wider variety of speech quality and the more difficult challenge of spontaneous speech. While the initial ESTER campaigns targeted radio broadcast news, the 2009 edition introduced accented speech and non news shows with spontaneous speech. The ETAPE 2011 evaluation focuses on TV material with various levels of spontaneous speech and multiple speaker speech. Apart from spontaneous speech, one of the originality of the ETAPE 2011 campaign is that it does not target any particular type of shows such as news, thus fostering the development of general purpose transcription systems for professional quality multimedia material.
As in the past, several tasks were evaluated independently on the same dataset. Four tasks were considered in the ETAPE 2011 benchmark. For historical reasons, tasks belong to one of the following three categories: segmentation, transcription and information extraction. The multiple-speaker detection task was implemented as an exploratory task given the lack of background.
The ETAPE 2011 data consists of ca. 30 hours of French radio and TV data, selected to include mostly non planned speech and a reasonable proportion of multiple speaker data. All data were carefully transcribed, including named entity annotation.
In the scope of the ETAPE ANR project, phonetic alignments and syntactic trees enrich part of the ETAPE data set.
This package includes the material that was used for the ETAPE evaluation campaign. It includes resources, scoring tools, results of the campaign, etc., that were used or produced during the campaign. The aim of this evaluation package is to enable external players to evaluate their own system and compare their results with those obtained during the campaign itself.
View resource description in all available languages
Le projet ETAPE (Evaluation en Traitement Automatique de la Parole) consiste en une campagne d’évaluation pour les systèmes de traitement automatique de la parole. Le projet a été finance par l’Agence Nationale de la Recherche (ANR) sous le contrat de subvention ANR-09-CORD-009.
La campagne ETAPE 2011 vient à la suite des series de campagnes ESTER organisées en 2003, 2005 et 2009 (voir aussi ELRA-E0021, ELRA-S0241, ELRA-S0305 et ELRA-S0338 pour les ressources des campagnes ESTER), avec comme objectifs la qualité d’une plus large variété de données de parole et le défi encore plus difficile qu’est la parole spontanée. Alors que les campagnes ESTER initiales visaient les émissions d’actualités radio-diffusées, l’édition 2009 a introduit de la parole accentuée et de la parole spontanée provenant d’autres types d’émissions (hors actualités). L’évaluation ETAPE 2011 se concentre sur du materiel télé-diffusé contenant différents niveaux de parole spontanée et de la parole avec des locuteurs multiples. En-dehors de la parole spontanée, l’originalité de la campagne ETAPE 2011 est qu’elle ne vise pas un type particulier d’émissions telles que les actualités, afin de favoriser le développement de systèmes de transcription à visée plus générale pour le matériel multimédia de qualité professionnelle.
Comme par le passé, plusieurs tâches ont été évaluées de façon indépendante sur le même jeu de données. Dans l’évaluation ETAPE 2011, quatre tâches ont été prises en compte. Pour des raisons historiques, les taches appartiennent aux 3 catégories suivantes: segmentation, transcription et extraction d’information. Une tâche de detection multi-locuteurs a été mise en oeuvre comme tâche exploratoire au vu du manque de contexte précédent.
Les données ETAPE 2011 comprennent environ 30 heures de données radio et TV françaises, choisies dans le but d’inclure principalement de la parole non planifiée et une proportion raisonnable de données multi-locuteurs. Toutes les données ont été transcrites avec soin, en incluant l’annotation des entités nommées.
Dans le but du projet ETAPE ANR, les alignements phonétiques et les arbres syntaxiques enrichissent une partie de l’ensemble de données ETAPE.
Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation ETAPE. Il regroupe des ressources, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce "package" d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système et ainsi, de pouvoir comparer ses résultats à ceux obtenus pendant la campagne.
People who looked at this resource also viewed the following: