GlobalPhone Thai
View resource name in all available languages
GlobalPhone thaï
ID:
ELRA-S0321
The GlobalPhone corpus developed in collaboration with the Karlsruhe Institute of Technology (KIT) was designed to provide read speech data for the development and evaluation of large continuous speech recognition systems in the most widespread languages of the world, and to provide a uniform, multilingual speech and text database for language independent and language adaptive speech recognition as well as for language identification tasks.
The entire GlobalPhone corpus enables the acquisition of acoustic-phonetic knowledge of the following 20 spoken languages: Arabic (ELRA-S0192), Bulgarian (ELRA-S0319), Chinese-Mandarin (ELRA-S0193), Chinese-Shanghai (ELRA-S0194), Croatian (ELRA-S0195), Czech (ELRA-S0196), French (ELRA-S0197), German (ELRA-S0198), Hausa (ELRA-S0347), Japanese (ELRA-S0199), Korean (ELRA-S0200), Polish (ELRA-S0320), Portuguese (Brazilian) (ELRA-S0201), Russian (ELRA-S0202), Spanish (Latin America) (ELRA-S0203), Swedish (ELRA-S0204), Tamil (ELRA-S0205), Thai (ELRA-S0321), Turkish (ELRA-S0206), Vietnamese (ELRA-S0322).
In each language about 100 sentences were read from each of the 100 speakers. The read texts were selected from national newspapers available via Internet to provide a large vocabulary (up to 65,000 words). The read articles cover national and international political news as well as economic news. The speech is available in 16bit, 16kHz mono quality, recorded with a close-speaking microphone (Sennheiser 440-6) and same recording equipment for all languages. The transcriptions are internally validated and supplemented by special markers for spontaneous effects like stuttering, false starts, and non-verbal effects like laughing and hesitations. Speaker information like age, gender, occupation, etc. as well as information about the recording setup complement the database. The entire GlobalPhone corpus contains over 450 hours of speech spoken by more than 1900 native adult speakers.
Data is shortened by means of the shorten program written by Tony Robinson, available from Softsound's web page: http://www.softsound.com/ linux distributions, or simulated versions such as cygwin. Alternatively, the data could be delivered unshorten.
The Thai part of GlobalPhone was collected between July and August 2003 in Bangkok, Thailand. Data was collected from 98 speakers in total, of which 65 were female, 27 were male. For six speakers the gender is not documented. The speakers were undergraduate and graduated students at the age of 18 to 25 years. Each speaker read about 160 utterances from newspaper articles, corresponding to roughly 20 minutes of speech per person, in total we recorded 14039 utterances. The speech was recorded using a close-talking microphone Sennheiser HM420 in a push-to-talk scenario. All data were recorded at 16kHz and 16bit resolution in PCM format. The data collection took place in two small and one medium-size room with very low background noise. The text data used for recording mainly came from the news posted in newspaper websites as listed below. We followed the standard GlobalPhone protocols and focused on national and international politics and economics news (see [SCHULTZ 2002]). In sum, 14039 utterances were spoken, corresponding to 260,000 words, covering a vocabulary of 7,400 words. The latter numbers depend on the segmentation of Thai script into words, which by definition is rather arbitrary since Thai script does not provide any segmentation. For speech recognition purposes a segmentation into word segments could be provided. The Thai data are organized in a training set of 82 speakers, a development set of 8 speakers (spk IDs 023, 025, 028, 037, 045, 061, 073, 085), and an evaluation set of 8 speakers (spk IDs 101-108). More details on corpus statistics, collection scenario, and system building based on the Thai part of GlobalPhone can be found under [Suebvisai et al., 2005].
Thai Newspaper sources:
http://www.bangkokbiznews.com
http://www.dailynews.co.th
http://www.manager.co.th
http://www.matichon.co.th
http://www.naewna.com
http://www.thairath.co.th
[Schultz 2002] Tanja Schultz (2002): GlobalPhone: A Multilingual Speech and Text Database developed at Karlsruhe University, Proceedings of the International Conference of Spoken Language Processing, ICSLP 2002, Denver, CO, September 2002.
[Suebvisai et al., 2005] Sinaporn Suebvisai, Paisarn Charoenpornsawat, Alan W Black, Monika Woszczyna, Tanja Schultz (2005): Thai Automatic Speech Recognition. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, Philadelphia, Pennsylvania, March 2005.
View resource description in all available languages
Le corpus GlobalPhone, développé avec la collaboration du Karlsruhe Institute of Technology (KIT), a été conçu afin de fournir des données de parole lue pour le développement et l’évaluation de systèmes de reconnaissance de la parole continue à large vocabulaire dans les langues les plus répandues dans le monde, l’objectif étant de fournir une base de données audio et textuelles uniforme et multilingue pour la reconnaissance de la parole indépendante de la langue et adaptable à la langue, ainsi que pour des tâches d’identification de la langue.
Le corpus GlobalPhone complet permet l’acquisition d’une connaissance acoustico-phonétique pour les 20 langues parlées suivantes: allemand (ELRA-S0198), arabe (arabe standard moderne) (ELRA-S0192), bulgare (ELRA-S0319), chinois-mandarin (ELRA-S0193), chinois de Shanghai (ELRA-S0194), coréen (ELRA-S0200), croate (ELRA-S0195), espagnol (d’Amérique latine) (ELRA-S0203), français (ELRA-S0197), haoussa (ELRA-S0347), japonais (ELRA-S0199), polonais (ELRA-S0320), portugais (brésilien) (ELRA-S0201), russe (ELRA-S0202), suédois (ELRA-S0204), tamoul (ELRA-S0205), thaï (ELRA-S0321), tchèque (ELRA-S0196), turc (ELRA-S0206) et vietnamien (ELRA-S0322).
Dans chaque langue, environ 100 phrases ont été lues par chacun des 100 locuteurs. Les textes lus sont extraits d’articles de journaux nationaux disponibles sur internet afin de fournir un large vocabulaire (jusqu’à 65000 mots). Les articles lus couvrent des actualités politiques nationales et internationales, ainsi que des nouvelles économiques. Les données de parole ont été enregistrées en 16 bit, 16 kHz (qualité mono) avec un micro-casque (Sennheiser 440-6) et le même équipement d’enregistrement pour l’ensemble des langues. Les transcriptions ont été validées en interne et annotées au moyen de balises spéciales pour marquer les effets spontanés, tels que le bégaiement, les faux démarrages, et les effets non verbaux comme le rire et les hésitations. La base contient également des informations sur les locuteurs, telles que l’âge, le genre, la profession, etc. ainsi que des informations sur la mise en place de l’enregistrement. Le corpus GlobalPhone dans son entier comprend plus de 450 heures de parole enregistrées par plus de 1900 locuteurs adultes natifs.
Les données sont compressées au moyen du programme Shorten écrit par Tony Robinson, disponible depuis la page web de Softsound: http://www.softsound.com/ (distributions linux ou versions simulées telles que cygwin). Au besoin, les données peuvent être fournies non compressées.
La partie thaï de GlobalPhone a été collectée entre juillet et août 2003 à Bangkok, Thaïlande. Les données ont été collectées auprès de 98 locuteurs au total, dont 65 femmes et 27 hommes, sachant que pour six locuteurs, l’information sur le genre n’est pas documentée. Les locuteurs étaient des étudiants diplômés ou non, d’un âge compris entre 18 et 25 ans. Chaque locuteur a lu environ 160 occurrences d’articles de journaux, correspondant à environ 20 minutes de parole par personne, soit un total de 14039 occurrences. La parole a été enregistrée au moyen d’un micro-casque Sennheiser HM420 en suivant un scénario “push-to-talk”. Toutes les données ont été enregistrées sous une résolution de 16 kHz 16 bit au format PCM. La collecte de données a eu lieu dans deux salles de petite taille et une salle de taille moyenne avec un bruit de fond très faible. Les données textuelles utilisées pour l’enregistrement proviennent principalement d’actualités publiées sur des sites web de journaux listés plus bas. Les protocoles GlobalPhone standards ont été suivis et traitent des actualités politiques et économiques nationales et internationales (voir [SCHULTZ 2002]). Au total 14039 occurrences ont été prononcées, soit 260000 mots, couvrant un vocabulaire de 7400 mots. Les derniers chiffres dépendent de la segmentation de scripts thaï en mots, qui par définition est plutôt arbitraire puisque les scripts thaï ne fournissent pas de segmentation. Pour des buts de reconnaissance de la parole, une segmentation en segments de mots a pu être fournie. Les données thaï sont organisées sous la forme d’un ensemble d’entraînement de 82 locuteurs, un ensemble de développement de 8 locuteurs (ID locuteurs 023, 025, 028, 037, 045, 061, 073, 085), et un ensemble d’évaluation de 8 locuteurs (ID locuteurs 101-108). Plus de détails sur les statistiques de corpus, le scénario de collecte, et la construction du système basée sur la partie thaï de GlobalPhone peuvent être trouvés dans [Suebvisai et al., 2005].
Sources des journaux thaï:
http://www.bangkokbiznews.com
http://www.dailynews.co.th
http://www.manager.co.th
http://www.matichon.co.th
http://www.naewna.com
http://www.thairath.co.th
[Schultz 2002] Tanja Schultz (2002): GlobalPhone: A Multilingual Speech and Text Database developed at Karlsruhe University, Proceedings of the International Conference of Spoken Language Processing, ICSLP 2002, Denver, CO, September 2002.
[Suebvisai et al., 2005] Sinaporn Suebvisai, Paisarn Charoenpornsawat, Alan W Black, Monika Woszczyna, Tanja Schultz (2005): Thai Automatic Speech Recognition. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, Philadelphia, Pennsylvania, March 2005.
People who looked at this resource also viewed the following: