BREF-120 - A large corpus of French read speech – META-SHARE

Last view: 2026-04-03

92 Last view: 2026-04-03

BREF-120 - A large corpus of French read speech

View resource name in all available languages

BREF-120 - Un large corpus oral de textes lus

http://catalog.elra.info/product_info.php?products_id=537

ID:

ELRA-S0067

BREF-120 resulted from the efforts of LIMSI-CNRS researchers under sponsorship from the GDR-PRC CHM, the ACCT (OFIL), the EEC (ESPRIT Polyglot project), and the Aupelf-Uref.
A sub-set of BREF-120 is BREF-80 (ELRA-S0006), which consists of about 50-60 sentences per speaker and recordings conducted only with a Shure microphone. In BREF-80, the sentences were chosen to cover as many prompts as possible.
The BREF-120 corpus was designed to provide read speech data for the development and evaluation of continuous speech recognition systems (both speaker-dependent and speaker-independent), and to provide a large corpus of continuous speech for the acquisition of acoustic-phonetic knowledge of spoken French.
BREF-120 is a large read-speech corpus containing over 100 hours of speech material, from 120 speakers (55 males and 65 females). The text materials were selected verbatim from extracts of the French newspaper "Le Monde". Each of 80 speakers read approximately 10,000 words (about 650 sentences) of text, and another 40 speakers each read about half that amount. Simultaneous recordings were made in a sound-proof room using a Shure SM10 microphone and a Crown PCC160 microphone and were monitored to assure their contents. The speech signal was sampled at 16 kHz and digitised with 16 bits. The BREF-120 corpus contains 28 CDs; numbers 1-13 contain the Shure recorded data and numbers 14-28 contain the Crown recorded data

View resource description in all available languages

BREF-120 est le résultat d'efforts de chercheurs du LIMSI, laboratoire propre du CNRS, et a bénéficié d'un soutien financier du GDR-PRC CHM, de l'ACCT (OFIL), de la CEE (projet ESPRIT Polyglot) et de l'Aupelf-Uref.

On trouve comme sous-corpus de BREF-120 la base de données BREF-80 (ELRA-S0006), qui comprend environ 50 à 60 phrases par locuteur et des enregistrements réalisés uniquement avec un microphone Shure. Pour BREF-80, les phrases ont été choisies afin de couvrir le plus d'énoncés possibles.

Le corpus BREF-120 a été conçu pour disposer de suffisamment de parole pour développer et évaluer des systèmes de reconnaissance de parole continue (dépendants et indépendants du locuteur), mais aussi pour fournir un large corpus de parole continue pour l'acquisition de connaissances acoustico-phonétiques sur le français.

BREF-120 est un large corpus oral de textes lus, contenant plus de 100 heures de parole produites par 120 locuteurs (65 femmes et 55 hommes). Tous les textes enregistrés ont été extraits du journal "Le Monde". 80 locuteurs ont lu chacun environ 10 000 mots (soit environ 650 phrases), et 40 autres locuteurs ont lu environ la moitié. Les enregistrements, effectués simultanément avec un microphone Shure SM10 et un microphone Crown PCC160, ont été réalisés dans une pièce insonorisée et vérifiés en temps réel et sur place pour s'assurer du contenu et éviter des erreurs de prononciations. Les deux canaux ont été échantillonnés à 16 kHz et numérisés sur 16 bits. Le corpus BREF-120 est composé de 28 CD ; les numéros 1 à 13 contiennent les données Shure et les numéros 14 à 28 contiennent les données Crown.

CARACTERISTIQUES :

Type de ressource : Enregistrements de parole (acoustique)
Mode de parole : Lu
Conditions d'enregistrement : Salle insonorisée
Type de microphone/téléphone : 2 microphones : Shure SM10 et Crown PCC160
Langue : Français
Domaine/Source : Phrases extraites du quotidien français " Le Monde "
Taille (en heure, vocabulaire) : 100 heures (environ 650 000 phrases)
Sexe et nombre de locuteurs : 120 locuteurs (65 femmes et 55 hommes)
Annotation linguistique : Orthographique
Format de fichier : 16 bits
Standard utilisé : NIST
Fréquence d'échantillonnage (kHz) : 16 kHz
Mode de distribution : 28 CD-ROM ; les numéros 1 à 13 contiennent les données Shure et les numéros 14 à 28 contiennent les données Crown
Ressources connexes : BDLEX (ELRA-S0003 et S0004), BREF-80 (ELRA-S0006), BREF-Polyglot (ELRA-S0007).

You don’t have the permission to edit this resource.

DistributionAvailability

Available - Restricted Use

Start date: 05/03/1999

Licence

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Academic

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Academic

Contact Person

Mapelli Valérie

audio

Monolingual audio corpusLanguages

French

Linguality

Linguality type: Monolingual

Size

100 Hours

Metadata

Created: 12/05/2005

Version

Version: 1.0

Last Updated: 22/02/2007

Usage

Actual Use - Nlp Applications

Use NLP Specific: Speech Recognition

People who looked at this resource also viewed the following: