ESTER Corpus

View resource name in all available languages

Corpus ESTER



The ESTER Corpus is a subset of the ESTER Evaluation Package (catalogue ref. ELRA-E0021), which was produced within the French national project ESTER (Evaluation of Broadcast News enriched transcription systems), as part of the Technolangue programme funded by the French Ministry of Research and New Technologies (MRNT). The ESTER project enabled to carry out a campaign for the evaluation of Broadcast News enriched transcription systems using French data.

This corpus includes the material that was used for the ESTER evaluation campaign, excluding the textual data (available in this catalogue and referenced ELRA-W0015 and ELRA-W0023):

1) About 100 hours of orthographically transcribed news broadcast, including annotations of named entities.
2) The evaluation tools allow to evaluation each task defined above.
3) Two guides and manuals were produced and are provided in the package distributed by ELDA :
o Guide for the annotation of named entities
o Specifications and evaluation protocol

An extra corpus of 1,700 hours of non-transcribed radio broadcast news recordings can also be provided upon request, on hard disk, as an adding to this package at a cost of 100 Euro (plus shipment fee).

A description of the project is available at the following address: (in French language)

View resource description in all available languages

Le corpus ESTER est un sous-ensemble du package d’évaluation ESTER (réf. catalogue ELRA-E0021), qui a été produit dans le cadre du projet national français ESTER (« Evaluation des systèmes de transcription enrichie d’émissions radiophoniques »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT). Le projet ESTER a permis de réaliser une campagne d'évaluation des systèmes de transcription enrichie d’émissions radiophoniques pour le français.

Ce corpus comprend l’ensemble des données utilisées lors de la campagne d’évaluation ESTER, à l'exclusion des données textuelles (disponibles dans ce catalogue sous les références ELRA-W0015 et ELRA-W0023) :
1) Environ 100 heures d’émissions transcrites orthographiquement et annotées en entités nommées.
2) Les outils d'évaluation permettant d'évaluer chacune des tâches définies ci-dessus.
3) Des guides et manuels ont été produits et sont fournis dans le package distribué par ELDA :
o Guide d’annotation en entités nommées
o Spécifications et protocole d’évaluations

Une description du projet est disponible à l'adresse suivante :

Un corpus supplémentaire de 1700 heures d’enregistrements d’émissions radiophoniques non transcrites peut être fourni sur disque dur en complément de ce package pour un coût de 100 Euros (plus frais de port).

You don’t have the permission to edit this resource.