NEMLAR Broadcast News Speech Corpus
View resource name in all available languages
Corpus oral d’actualités radiophoniques NEMLAR
ID:
ELRA-S0219
This corpus was produced within the NEMLAR project (http://www.nemlar.org). Two other resources, produced within the same project, are also available: NEMLAR Written Corpus (ELRA-W0042) and the NEMLAR Speech Synthesis Corpus (ELRA-S0220).
The Nemlar Broadcast News Speech Corpus consists of about 40 hours of Standard Arabic news broadcasts. The broadcasts were recorded from four different radio stations: Medi1, Radio Orient, RMC – Radio Monte Carlo, RTM – Radio Television Maroc.
Each broadcast contains between 25 and 30 minutes of news and interviews. The recordings were carried out at three different periods between 30 June 2002 and 18 July 2005. All files were recorded in linear PCM format, 16 kHz, 16 bit.
The software used for the transcription is Transcriber with the additional patch for Arabic. Thus the transcriptions were done in Arabic characters and the software automatically generated the transliterations. The following annotation levels are included:
• Orthographic transcription of speech (in news, not in music, commercials, etc.), including Named Entities
• Speakers and speaker turns
• Segment markers (portions of maximum 10 seconds)
• Topic/story boundaries
• Background noises (stationary and instantaneous noise events)
• Change of background
• Music/Noise
• Word boundaries
A lexicon of 62,000 words with transliterations, frequency and SAMPA for Arabic is also included.
The database is distributed in 1 ISO 9660 DVD-ROM volume. It has been validated by an external partner and a validation report is provided.
View resource description in all available languages
Ce corpus a été produit dans le cadre du projet NEMLAR (http://www.nemlar.org). Deux autres ressources, produites dans le cadre du même projet, sont également disponibles : le corpus écrit NEMLAR (ELRA-W0042) et le corpus de synthèse de parole NEMLAR (ELRA-S0220).
Le corpus oral d’actualités radiophoniques NEMLAR est composé d’environ 40 heures d’émissions radiophoniques en arabe standard. Les émissions ont été enregistrées depuis quatre stations de radio différentes : Medi1, Radio Orient, RMC – Radio Monte Carlo, RTM – Radio Télévision Maroc.
Chaque transmission contient entre 25 et 30 minutes d’actualités et d’interviews. Les enregistrements ont été effectués à trois périodes différentes entre le 30 juin 2002 et le 18 juillet 2005. Tous les fichiers ont été enregistrés au format linéaire PCM, 16 kHz, 16 bit.
Le logiciel utilisé pour la transcription est Transcriber avec un patch complémentaire pour l’arabe. Ainsi, les transcriptions ont été réalisées en caractères arabes et le logiciel a généré automatiquement les translittérations. Les niveaux d’annotation suivants sont inclus :
• Transcription orthographique de la parole (pour les actualités, mais pas pour la musique, les publicités, etc.), en incluant les entités nommées
• Locuteurs et tours de locuteurs
• Les marqueurs de segment (en portions de 10 secondes au maximum)
• Limites des thèmes/histoires
• Bruits de fond (événements de petites fournitures et bruits instantanés)
• Changements de fond
• Musique/bruit
• Limites des mots
Un lexique de 62 000 mots avec translittérations, fréquence et SAMPA arabe est également inclus.
La base de données est distribuée sur 1 DVD-ROM ISO 9660. Elle a été validée par un partenaire externe et un rapport de validation est fourni.
People who looked at this resource also viewed the following: