NetDC Arabic BNSC (Broadcast News Speech Corpus)

View resource name in all available languages

Corpus NetDC d'actualités radio-diffusées arabes

ID:

ELRA-S0157

The NetDC Arabic BNSC (Broadcast News Speech Corpus) is a corpus developed by ELDA in the framework of the European-funded project Network of Data Centres (NetDC). The project was done in collaboration with the LDC (Linguistic Data Consortium), which has produced a similar corpus from the news broadcasted by Voice of America Arabic in the United States. The database contains ca. 22.5 hours of broadcast news speech recorded from Radio Orient (France) during a 3-month period between November 2001 and January 2002 (37 broadcast news, including 32 from the 5.55 pm news and 5 from the 10.55 pm news). The language is Standard Arabic from the Middle East region. The database is stored on 1 DVD-ROM. The database was validated by SPEX, the Netherlands, to assess its compliance with NetDC specifications.

Recordings were made through a Sangean ATS 909 radio receiver connected to a desktop PC. Encoding is 16 kHz, 16 bits, single channel. Format is raw PCM (.wav) with header information.

The corpus was segmented, labelled and transcribed manually using the “Transcriber” software, developed by DGA (Délégation Générale pour l'Armement, France) and LDC (Linguistic Data Consortium, USA) (with an additional patch for Arabic). The transcriptions were done in Arabic characters and the software automatically generated the transliterations. Transcriptions include speaker turns, topics, channel information.

Each speech file (extension .wav) has an accompanying ASCII SAM label file with recording information (extension .sam), and an accompanying file with the transcription in xml format (extension .trs) and channel information. A phonetic lexicon in Arabic SAMPA has also been included.

View resource description in all available languages

Le corpus NetDC d'actualités radio-diffusées arabes a été développé par ELDA dans le cadre du projet européen NetDC (Network of Data Centres – Réseau de centres de données). Le projet a été réalisé en collaboration avec le LDC (Linguistic Data Consortium), qui a produit un corpus similaire à partir d’actualités diffusées par Voice of America en arabe aux Etats-Unis. La base de données comprend environ 22,5 heures d’actualités enregistrées sur Radio Orient (France) sur une période de 3 mois entre novembre 2001 et janvier 2002 (37 enregistrements d’actualités, dont 32 diffusées à 17h55 et 5 diffusées à 22h55). La langue de diffusion est de l’arabe standard tel que parlé au Moyen Orient. La base de données est distribuée sur 1 DVD-ROM. Elle a été validée par SPEX, Pays-Bas, afin de vérifier sa conformité avec le format NetDC et les spécifications du contenu.

Les enregistrements ont été réalisés depuis une réception radio Sangean ATS 909 connectée à un PC. Ils ont été codés à 16 kHz, 16 bits, un seul canal. Les données sont fournies au format PCM brut (.wav) avec en-tête.

Le corpus a été segmenté, étiqueté et transcrit manuellement grâce au logiciel “Transcriber”, développé par la DGA (Délégation Générale pour l'Armement, France) et le LDC (Linguistic Data Consortium, Etats-Unis) (avec un patch complémentaire pour la langue arabe). Les transcriptions ont été réalisées en caractère arabe et le logiciel a généré les transcriptions de manière automatique. Les transcriptions comprennent les tours de parole, les thèmes et le canal d’information.

Chaque fichier de parole (extension .wav) est fourni avec un fichier ASCII SAM comprenant les informations sur l’enregistrement (extension .sam), ainsi q’un fichier d’accompagnement comprenant la transcription au format xml (extension .trs) et l’information sur le canal. Un lexique phonétique en SAMPA arabe est également fourni.

You don’t have the permission to edit this resource.