NEMLAR Speech Synthesis Corpus
View resource name in all available languages
Corpus de synthèse de parole NEMLAR
ID:
ELRA-S0220
This corpus was produced within the NEMLAR project (http://www.nemlar.org). Two other resources, produced within the same project, are also available: NEMLAR Written Corpus (ELRA-W0042) and the NEMLAR Broadcast News Speech Corpus (ELRA-S0219).
The NEMLAR Speech Synthesis Corpus contains the recordings of 2 native Egyptian Arabic speakers (male and female, 35 and 27 years old respectively) recorded in a studio over 2 channels (voice + laryngograph). The recordings comprise more than 10 hours of data with transcriptions.
Speech samples are stored in 96 kHz, 24 bit with the least significant byte first (“lohi” or Intel format) as (signed) integers.
The speaker read 2,032 prompted sentences covering approx. 42,000 words in three categories: transcribed speech (6,600 words - 20%), written text (16,500 words - 50%), and constructed phrases (10,300 - 30%).
The transcribed speech consists of text from different domains, being produced in the Broadcast news task. The written text consists of news excerpts, novels and short stories with short sentences. Each paragraph is presented on a separate prompt sheet.
Constructed phrases consist of frequent phrases and diphone coverage sentences. The frequent used phrases are designed as derived from written text (article, news paper, etc.) and have been divided into six sub-domains:
• Frequently used colloquial expressions
• Sports/Games
• News
• Finance
• Culture/Entertainment
• Consumer Information
The diphone coverage sentences cover the missing and rare diphones in all the data. To cover these diphones a large corpus about 150,000 words was used and from which the sentences were extracted.
The database is provided with orthographic, prosodic and phonetic transcriptions in SAMPA. All transcriptions are segmented at the utterance (sentence/command word) level, annotated at the word level and checked manually. A pronunciation lexicon including 3,589 headwords with phonetics in SAMPA is also available.
The database is distributed on 3 ISO 9660 DVD-ROM volumes. It has been validated by an external partner and a validation report is provided.
View resource description in all available languages
Ce corpus a été produit dans le cadre du projet NEMLAR (http://www.nemlar.org). Deux autres ressources, produites dans le cadre du même projet, sont également disponibles : le corpus écrit NEMLAR (ELRA-W0042) et le corpus oral d’actualités radiophoniques NEMLAR (ELRA-S0219).
Le corpus de synthèse de parole NEMLAR comprend les enregistrements de 2 locuteurs de langue maternelle arabe égyptien (homme et femme, respectivement de 35 et 27 ans), réalisés dans un studio depuis 2 canaux (voix et laryngographe). Les enregistrements sont constitués de plus de 10 heures de données avec leurs transcriptions.
Les échantillons de parole sont stockés en 96 kHz, 24 bit avec l’octet le moins significatif en premier (“lohi” ou format Intel) en entiers (signés).
Le locuteur a lu 2 032 phrases énoncées couvrant environ 42 000 mots en trois catégories : parole transcrite (6,600 words - 20%), texte écrit (16,500 words - 50%), et phrases construites (10,300 - 30%).
La parole transcrite consiste en du texte de différents domaines, produit dans la tâche d’actualités radiophoniques. Le texte écrit est composé d’extraits de phrases courtes d’actualités, de romans et d’histoires courtes. Chaque paragraphe est présenté sur une feuille d’énoncé (prompt).
Les phrases construites sont constituées de phrases fréquentes et de phrases pour la couverture de diphones. Les phrases fréquentes sont formées telles qu’obtenues à partir de textes écrits (articles, actualités, etc.) et sont subdivisées en six sous-domaines :
• Expressions familières fréquemment usitées
• Sports/Jeux
• Actualités
• Finances
• Culture/Divertissement
• Information au consommateur
Les phrases pour la couverture des diphones couvrent les diphones manquants ou rares dans toutes les données. Pour couvrir ces diphones, un grand corpus d’environ 150 000 mots a été utilisé, à partir duquel les phrases ont été extraites.
La base de données est fournie avec la transcription orthographique, prosodique et phonétique en SAMPA. Toutes les transcriptions sont segmentées au niveau de l’occurrence (phrase/mot de commande), annotées au niveau du mot et vérifiées manuellement. Un lexique de prononciation comprenant 3 589 mots avec leur représentation phonétique en SAMPA est également disponible.
La base de données est distribuée sur 3 DVD-ROM ISO 9660. Elle a été validée par un partenaire externe et un rapport de validation est fourni.
People who looked at this resource also viewed the following: