GlobalPhone Vietnamese
View resource name in all available languages
GlobalPhone vietnamien
ID:
ELRA-S0322
The GlobalPhone corpus developed in collaboration with the Karlsruhe Institute of Technology (KIT) was designed to provide read speech data for the development and evaluation of large continuous speech recognition systems in the most widespread languages of the world, and to provide a uniform, multilingual speech and text database for language independent and language adaptive speech recognition as well as for language identification tasks.
The entire GlobalPhone corpus enables the acquisition of acoustic-phonetic knowledge of the following 20 spoken languages: Arabic (ELRA-S0192), Bulgarian (ELRA-S0319), Chinese-Mandarin (ELRA-S0193), Chinese-Shanghai (ELRA-S0194), Croatian (ELRA-S0195), Czech (ELRA-S0196), French (ELRA-S0197), German (ELRA-S0198), Hausa (ELRA-S0347), Japanese (ELRA-S0199), Korean (ELRA-S0200), Polish (ELRA-S0320), Portuguese (Brazilian) (ELRA-S0201), Russian (ELRA-S0202), Spanish (Latin America) (ELRA-S0203), Swedish (ELRA-S0204), Tamil (ELRA-S0205), Thai (ELRA-S0321), Turkish (ELRA-S0206), Vietnamese (ELRA-S0322).
In each language about 100 sentences were read from each of the 100 speakers. The read texts were selected from national newspapers available via Internet to provide a large vocabulary (up to 65,000 words). The read articles cover national and international political news as well as economic news. The speech is available in 16bit, 16kHz mono quality, recorded with a close-speaking microphone (Sennheiser 440-6) and same recording equipment for all languages. The transcriptions are internally validated and supplemented by special markers for spontaneous effects like stuttering, false starts, and non-verbal effects like laughing and hesitations. Speaker information like age, gender, occupation, etc. as well as information about the recording setup complement the database. The entire GlobalPhone corpus contains over 450 hours of speech spoken by more than 1900 native adult speakers.
Data is shortened by means of the shorten program written by Tony Robinson, available from Softsound's web page: http://www.softsound.com/ linux distributions, or simulated versions such as cygwin. Alternatively, the data could be delivered unshorten.
The Vietnamese part of GlobalPhone was collected in summer 2009. In total 160 speakers were recorded, 140 of them in the cities of Hanoi and Ho Chi Minh City in Vietnam, and an additional set of 20 speakers were recorded in Karlsruhe, Germany. All speakers are Vietnamese native speakers, covering the main dialectal variants from South and North Vietnam. Of these 160 speakers, 70 were female and 90 were male. The majority of speakers are well educated, being graduated students and engineers. The age distribution of the speakers ranges from 18 to 65 years. Each speaker read between 50 and 200 utterances from newspaper articles, corresponding to roughly 9.5 minutes of speech or 138 utterances per person, in total we recorded 22.112 utterances. The speech was recorded using a close-talking microphone Sennheiser HM420 in a push-to-talk scenario using an inhouse developed modern laptop-based data collection toolkit. All data were recorded at 16kHz and 16bit resolution in PCM format. The data collection took place in small-sized rooms with very low background noise. Information on recording place and environmental noise conditions are provided in a separate speaker session file for each speaker. The speech data was recorded in two phases. In a first phase data was collected from 140 speakers in the cities of Hanoi and Ho Chi Minh. In the second phase we selected utterances from the text corpus in order to cover rare Vietnamese phonemes. This second recording phase was carried out with 20 Vietnamese graduate students who live in Karlsruhe. In sum, 22.112 utterances were spoken, corresponding to 25.25 hours of speech. The text data used for recording mainly came from the news posted in online editions of 15 Vietnamese newspaper websites as listed below, where the first 12 were used for the training set, while the last three were used for the development and evaluation set. The text data collected from the first 12 websites cover almost 4 Million word tokens with a vocabulary of 30.000 words resulting in an Out-of-Vocabulary rate of 0% on the development set and 0.067% on the evaluation set. For the text selection we followed the standard GlobalPhone protocols and focused on national and international politics and economics news (see [SCHULTZ 2002]). The transcriptions are provided in Vietnamese-style Roman script, i.e. using several diacritics encoded in UTF-8. The Vietnamese data are organized in a training set of 140 speakers with 22.15 hours of speech, a development set of 10 speakers, 6 from North and 4 from South Vietnam with 1:40 hours of speech and an evaluation set of 10 speakers with same gender and dialect distribution as the development set with 1:30 hours of speech. More details on corpus statistics, collection scenario, and system building based on the Vietnamese part of GlobalPhone can be found under [Vu and Schultz, 2009, 2010].
Vietnamese Newspaper sources:
http://www.tintuconline.vn
http://www.nhandan.org.vn
http://www.tuoitre.org.vn
http://www.tinmoi.com.vn
http://www.laodong.com.vn
http://www.tet.tintuconline.com.vn
http://www.anninhthudo.vn
http://www.thanhnien.com.vn
http://www.baomoi.com
http://www.ca.cand.com.vn
http://www.vnn.vn
http://www.tinthethao.com.vn
http://www.thethaovanhoa.vn
http://www.vnexpress.net
http://www.dantri.com
[Schultz 2002] Tanja Schultz (2002): GlobalPhone: A Multilingual Speech and Text Database developed at Karlsruhe University, Proceedings of the International Conference of Spoken Language Processing, ICSLP 2002, Denver, CO, September 2002.
[Vu and Schultz, 2010] Ngoc Thang Vu, Tanja Schultz (2010): Optimization On Vietnamese Large Vocabulary Speech Recognition, 2nd Workshop on Spoken Languages Technologies for Under-resourced Languages, SLTU 2010, Penang, Malaysia, May 2010.
[Vu and Schultz, 2009] Ngoc Thang Vu, Tanja Schultz (2009): Vietnamese Large Vocabulary Continuous Speech Recognition, Automatic Speech Recognition and Understanding, ASRU 2009, Merano.
View resource description in all available languages
Le corpus GlobalPhone, développé avec la collaboration du Karlsruhe Institute of Technology (KIT), a été conçu afin de fournir des données de parole lue pour le développement et l’évaluation de systèmes de reconnaissance de la parole continue à large vocabulaire dans les langues les plus répandues dans le monde, l’objectif étant de fournir une base de données audio et textuelles uniforme et multilingue pour la reconnaissance de la parole indépendante de la langue et adaptable à la langue, ainsi que pour des tâches d’identification de la langue.
Le corpus GlobalPhone complet permet l’acquisition d’une connaissance acoustico-phonétique pour les 20 langues parlées suivantes: allemand (ELRA-S0198), arabe (arabe standard moderne) (ELRA-S0192), bulgare (ELRA-S0319), chinois-mandarin (ELRA-S0193), chinois de Shanghai (ELRA-S0194), coréen (ELRA-S0200), croate (ELRA-S0195), espagnol (d’Amérique latine) (ELRA-S0203), français (ELRA-S0197), haoussa (ELRA-S0347), japonais (ELRA-S0199), polonais (ELRA-S0320), portugais (brésilien) (ELRA-S0201), russe (ELRA-S0202), suédois (ELRA-S0204), tamoul (ELRA-S0205), thaï (ELRA-S0321), tchèque (ELRA-S0196), turc (ELRA-S0206) et vietnamien (ELRA-S0322).
Dans chaque langue, environ 100 phrases ont été lues par chacun des 100 locuteurs. Les textes lus sont extraits d’articles de journaux nationaux disponibles sur internet afin de fournir un large vocabulaire (jusqu’à 65000 mots). Les articles lus couvrent des actualités politiques nationales et internationales, ainsi que des nouvelles économiques. Les données de parole ont été enregistrées en 16 bit, 16 kHz (qualité mono) avec un micro-casque (Sennheiser 440-6) et le même équipement d’enregistrement pour l’ensemble des langues. Les transcriptions ont été validées en interne et annotées au moyen de balises spéciales pour marquer les effets spontanés, tels que le bégaiement, les faux démarrages, et les effets non verbaux comme le rire et les hésitations. La base contient également des informations sur les locuteurs, telles que l’âge, le genre, la profession, etc. ainsi que des informations sur la mise en place de l’enregistrement. Le corpus GlobalPhone dans son entier comprend plus de 450 heures de parole enregistrées par plus de 1900 locuteurs adultes natifs.
Les données sont compressées au moyen du programme Shorten écrit par Tony Robinson, disponible depuis la page web de Softsound: http://www.softsound.com/ (distributions linux ou versions simulées telles que cygwin). Au besoin, les données peuvent être fournies non compressées.
La partie vietnamienne de GlobalPhone a été collectée en été 2009. 160 locuteurs (70 femmes et 90 hommes) ont été enregistrés au total, dont 140 dans les villes de Hanoi et Ho Chi Minh au Vietnam, et un ensemble additionnel de 20 locuteurs enregistrés à Karlsruhe en Allemagne. Tous les locuteurs sont de la langue maternelle vietnamienne et couvrent les variantes dialectales principales du Sud et Nord Vietnam. La majorité des locuteurs proviennent d’un bon niveau d’éducation, étant étudiants diplômés et ingénieurs. L’âge des locuteurs est compris entre 18 et 65 ans. Chaque locuteur a lu entre 50 et 200 occurrences d’articles de journaux, correspondant à environ 8,5 minutes de parole, soit 138 occurrences par personne, pour un total 22112 occurrences. La parole a été enregistrée au moyen d’un micro-casque Sennheiser HM420 en suivant un scénario “push-to-talk” à partir d’une plateforme de collecte de données moderne, développée en interne et basée sur un ordinateur portable. Toutes les données ont été enregistrées sous une résolution de 16 kHz 16 bit au format PCM. La collecte de données a eu lieu dans des salles de petite taille avec un bruit de fond très faible. Les informations sur le lieu d’enregistrement et les conditions environnementales de bruit sont fournies dans un fichier de session séparé pour chaque locuteur. Les données de parole ont été enregistrées en deux phases. Pour la première phase, les données ont été collectées auprès de 140 locuteurs dans les villes de Hanoi et Ho Chi Minh. Dans la seconde phase, des occurrences ont été extraites du corpus de texte afin de couvrir des phonèmes rares du vietnamien. Cette seconde phase d’enregistrement a été réalisée auprès de 20 étudiants diplômés vietnamiens vivant à Karlsruhe. Au total, 22112 occurrences ont été prononcées, soit 25,25 heures de parole. Les données textuelles utilisées pour l’enregistrement proviennent principalement d’actualités publiées dans les éditions en ligne de 15 sites web de journaux vietnamiens listés plus bas. Les 12 premiers ont été utilisés pour l’ensemble d’entraînement, alors que les trois derniers ont été utilises pour les ensemble de développement et d’évaluation. Les données textuelles collectées à partir des 12 premiers sites couvrent près de 4 millions de mots avec un vocabulaire de 30000 mots résultant en un Hors-Vocabulaire de 0% sur l’ensemble de développement et un taux de 0,067% sur l’ensemble d’évaluation. Les protocoles GlobalPhone standards ont été suivis et traitent des actualités politiques et économiques nationales et internationales (voir [SCHULTZ 2002]). Les transcriptions sont fournies en script Roman de style vietnamien, c’est-à-dire en utilisant plusieurs diacritiques codées en UTF-8. Les données vietnamiennes sont organisées sous la forme d’un ensemble d’entraînement de 140 locuteurs pour 22,15 heures de parole, un ensemble de développement de 10 locuteurs (6 du Nord et 4 du Sud Vietnam) pour 1:40 heures de parole et un ensemble d’évaluation de 10 locuteurs avec la même distribution en genre et dialecte que l’ensemble de développement pour 1:30 heures de parole. Plus de détails sur les statistiques de corpus, le scénario de collecte et la contruction du système basée sur la partie vietnamienne de GlobalPhone peuvent être trouvés dans [Vu and Schultz, 2009, 2010].
Sources des journaux vietnamiens:
http://www.tintuconline.vn
http://www.nhandan.org.vn
http://www.tuoitre.org.vn
http://www.tinmoi.com.vn
http://www.laodong.com.vn
http://www.tet.tintuconline.com.vn
http://www.anninhthudo.vn
http://www.thanhnien.com.vn
http://www.baomoi.com
http://www.ca.cand.com.vn
http://www.vnn.vn
http://www.tinthethao.com.vn
http://www.thethaovanhoa.vn
http://www.vnexpress.net
http://www.dantri.com
[Schultz 2002] Tanja Schultz (2002): GlobalPhone: A Multilingual Speech and Text Database developed at Karlsruhe University, Proceedings of the International Conference of Spoken Language Processing, ICSLP 2002, Denver, CO, September 2002.
[Vu and Schultz, 2010] Ngoc Thang Vu, Tanja Schultz (2010): Optimization On Vietnamese Large Vocabulary Speech Recognition, 2nd Workshop on Spoken Languages Technologies for Under-resourced Languages, SLTU 2010, Penang, Malaysia, May 2010.
[Vu and Schultz, 2009] Ngoc Thang Vu, Tanja Schultz (2009): Vietnamese Large Vocabulary Continuous Speech Recognition, Automatic Speech Recognition and Understanding, ASRU 2009, Merano.
People who looked at this resource also viewed the following: