GlobalPhone Bulgarian

View resource name in all available languages

GlobalPhone bulgare

ID:

ELRA-S0319

The GlobalPhone corpus developed in collaboration with the Karlsruhe Institute of Technology (KIT) was designed to provide read speech data for the development and evaluation of large continuous speech recognition systems in the most widespread languages of the world, and to provide a uniform, multilingual speech and text database for language independent and language adaptive speech recognition as well as for language identification tasks.

The entire GlobalPhone corpus enables the acquisition of acoustic-phonetic knowledge of the following 20 spoken languages: Arabic (ELRA-S0192), Bulgarian (ELRA-S0319), Chinese-Mandarin (ELRA-S0193), Chinese-Shanghai (ELRA-S0194), Croatian (ELRA-S0195), Czech (ELRA-S0196), French (ELRA-S0197), German (ELRA-S0198), Hausa (ELRA-S0347), Japanese (ELRA-S0199), Korean (ELRA-S0200), Polish (ELRA-S0320), Portuguese (Brazilian) (ELRA-S0201), Russian (ELRA-S0202), Spanish (Latin America) (ELRA-S0203), Swedish (ELRA-S0204), Tamil (ELRA-S0205), Thai (ELRA-S0321), Turkish (ELRA-S0206), Vietnamese (ELRA-S0322).

In each language about 100 sentences were read from each of the 100 speakers. The read texts were selected from national newspapers available via Internet to provide a large vocabulary (up to 65,000 words). The read articles cover national and international political news as well as economic news. The speech is available in 16bit, 16kHz mono quality, recorded with a close-speaking microphone (Sennheiser 440-6) and same recording equipment for all languages. The transcriptions are internally validated and supplemented by special markers for spontaneous effects like stuttering, false starts, and non-verbal effects like laughing and hesitations. Speaker information like age, gender, occupation, etc. as well as information about the recording setup complement the database. The entire GlobalPhone corpus contains over 450 hours of speech spoken by more than 1900 native adult speakers.

Data is shortened by means of the shorten program written by Tony Robinson, available from Softsound's web page: http://www.softsound.com/ linux distributions, or simulated versions such as cygwin. Alternatively, the data could be delivered unshorten.

The Bulgarian part of GlobalPhone was collected in 2005 in the cities of Sofia and Pazardzhik, Bulgaria. All speakers are Bulgarian native speakers from the west and central part of Bulgaria. Data was collected from 77 speakers in total, of which 45 were female and 32 were male. The majority of speakers are well educated, being graduated students, construction engineers, and teachers. The age distribution of the speakers ranges from 18 to 65 years. Of all speakers, 62 reported to be non-smokers, 15 are smokers, no further information about health status is provided. Each speaker read on average about 112 utterances from newspaper articles, corresponding to roughly 16.6 minutes of speech or 1940 words per person, in total we recorded 8674 utterances. The speech was recorded using a close-talking microphone Sennheiser HM420 in a push-to-talk scenario using an inhouse developed modern laptop-based data collection toolkit. All data were recorded at 16kHz and 16bit resolution in PCM format. The data collection took place in small-sized rooms with low background noise, while one speaker was recorded in a public place. Information on recording place and environmental noise conditions are provided in a separate speaker session file for each speaker. The text data used for recording mainly came from the news posted in online editions of three national Bulgarian newspaper websites as listed below. About 350 articles with more than 10,000 sentences were downloaded and processed (manually edited to normalize and clean the text, resolve abbreviations and numbers). We followed the standard GlobalPhone protocols and focused on national and international politics and economics news (see [SCHULTZ 2002]). In sum, 8674 utterances were spoken, corresponding to 21.4 hours of speech or 150,000 spoken words in total, covering a vocabulary of 23,000 words. The transcriptions are provided in Bulgarian script (Cyrillic) in UTF-8 encoding. The Bulgarian data are organized in a training set of 63 speakers, a development set of 7 speakers (spk IDs 051, 055, 058, 084, 090, 100, 106), and an evaluation set of 7 speakers (spk IDs 040, 059, 063, 068, 095, 109, 110).

Bulgarian Newspaper sources:
Banker: http://www.banker.bg
Kesh: http://www.cash.bg
Sega: http://www.segabg.com

[Mircheva 2006] Aneliya Mircheva (2006): Bulgarian Speech Recognition and Multilingual Language Modeling, Project Term (Studienarbeit), Institute for Theoretical Informatics, University Karlsruhe.
[Schultz 2002] Tanja Schultz (2002): GlobalPhone: A Multilingual Speech and Text Database developed at Karlsruhe University, Proceedings of the International Conference of Spoken Language Processing, ICSLP 2002, Denver, CO, September 2002.

View resource description in all available languages

Le corpus GlobalPhone, développé avec la collaboration du Karlsruhe Institute of Technology (KIT), a été conçu afin de fournir des données de parole lue pour le développement et l’évaluation de systèmes de reconnaissance de la parole continue à large vocabulaire dans les langues les plus répandues dans le monde, l’objectif étant de fournir une base de données audio et textuelles uniforme et multilingue pour la reconnaissance de la parole indépendante de la langue et adaptable à la langue, ainsi que pour des tâches d’identification de la langue.

Le corpus GlobalPhone complet permet l’acquisition d’une connaissance acoustico-phonétique pour les 20 langues parlées suivantes: allemand (ELRA-S0198), arabe (arabe standard moderne) (ELRA-S0192), bulgare (ELRA-S0319), chinois-mandarin (ELRA-S0193), chinois de Shanghai (ELRA-S0194), coréen (ELRA-S0200), croate (ELRA-S0195), espagnol (d’Amérique latine) (ELRA-S0203), français (ELRA-S0197), haoussa (ELRA-S0347), japonais (ELRA-S0199), polonais (ELRA-S0320), portugais (brésilien) (ELRA-S0201), russe (ELRA-S0202), suédois (ELRA-S0204), tamoul (ELRA-S0205), thaï (ELRA-S0321), tchèque (ELRA-S0196), turc (ELRA-S0206) et vietnamien (ELRA-S0322).

Dans chaque langue, environ 100 phrases ont été lues par chacun des 100 locuteurs. Les textes lus sont extraits d’articles de journaux nationaux disponibles sur internet afin de fournir un large vocabulaire (jusqu’à 65000 mots). Les articles lus couvrent des actualités politiques nationales et internationales, ainsi que des nouvelles économiques. Les données de parole ont été enregistrées en 16 bit, 16 kHz (qualité mono) avec un micro-casque (Sennheiser 440-6) et le même équipement d’enregistrement pour l’ensemble des langues. Les transcriptions ont été validées en interne et annotées au moyen de balises spéciales pour marquer les effets spontanés, tels que le bégaiement, les faux démarrages, et les effets non verbaux comme le rire et les hésitations. La base contient également des informations sur les locuteurs, telles que l’âge, le genre, la profession, etc. ainsi que des informations sur la mise en place de l’enregistrement. Le corpus GlobalPhone dans son entier comprend plus de 450 heures de parole enregistrées par plus de 1900 locuteurs adultes natifs.

Les données sont compressées au moyen du programme Shorten écrit par Tony Robinson, disponible depuis la page web de Softsound: http://www.softsound.com/ (distributions linux ou versions simulées telles que cygwin). Au besoin, les données peuvent être fournies non compressées.

La partie bulgare de GlobalPhone a été collectée en 2005 dans les villes de Sofia et Pazardzhik, en Bulgarie. Tous les locuteurs sont de langue maternelle bulgare des régions ouest et centre de la Bulgarie. Les données ont été collectées auprès de 77 locuteurs (45 femmes et 32 hommes). La majorité des locuteurs proviennent d’un bon niveau de formation, étant des étudiants diplômés, des ingénieurs en construction et des enseignants. L’âge des locuteurs est compris entre 18 et 65 ans. Sur l’ensemble des locuteurs, 62 ont rapporté être non fumeurs, les 15 autres étant fumeurs, aucune autre information sur l’état de santé n’étant fournie. Chaque locuteur a lu 112 occurrences en moyenne provenant d’articles de journaux, correspondant à environ 16,6 minutes de parole ou 1940 mots par personne, pour un total de 8674 occurrences. La parole a été enregistrée au moyen d’un micro-casque Sennheiser HM420 en suivant un scénario “push-to-talk” à partir d’une plateforme de collecte de données moderne, développée en interne et basée sur un ordinateur portable. Toutes les données ont été enregistrées sous une résolution de 16 kHz 16 bit au format PCM. La collecte de données a eu lieu dans des salles de petite taille dans un environnement de bruit de fond faible, excepté un locuteurs qui été enregistré dans un lieu publique. Les informations sur le lieu d’enregistrement et les conditions environnementales de bruit sont fournies dans un fichier de session séparé pour chaque locuteur. Les données textuelles utilisées pour l’enregistrement proviennent principalement d’actualités publiées dans les éditions en ligne de trois sites web de journaux bulgares listés plus bas. Environ 350 articles comprenant plus de 10000 phrases ont été téléchargés et traités (édités manuellement afin de normaliser et nettoyer le texte, résoudre les abréviations et les nombres). Les protocoles GlobalPhone standards ont été suivis et traitent des actualités politiques et économiques nationales et internationales (voir [SCHULTZ 2002]). Au total, 8674 occurrences ont été prononcées, correspondant à 21,4 heures de parole, soit un total de 150000 mots, couvrant un vocabulaire de 23000 mots. Les transcriptions sont fournies en script bulgare (Cyrillique) au codage UTF-8. Les données bulgares sont organisées sous la forme d’un ensemble d’entraînement de 63 locuteurs, un ensemble de développement de 7 locuteurs (ID locuteurs 051, 055, 058, 084, 090, 100, 106), et un ensemble d’évaluation de 7 locuteurs (ID locuteurs 040, 059, 063, 068, 095, 109, 110).

Sources des journaux bulgares:
Banker: http://www.banker.bg
Kesh: http://www.cash.bg
Sega: http://www.segabg.com

[Mircheva 2006] Aneliya Mircheva (2006): Bulgarian Speech Recognition and Multilingual Language Modeling, Project Term (Studienarbeit), Institute for Theoretical Informatics, University Karlsruhe.
[Schultz 2002] Tanja Schultz (2002): GlobalPhone: A Multilingual Speech and Text Database developed at Karlsruhe University, Proceedings of the International Conference of Spoken Language Processing, ICSLP 2002, Denver, CO, September 2002.

You don’t have the permission to edit this resource.