GlobalPhone Ukrainian

View resource name in all available languages

GlobalPhone ukrainien

ID:

ELRA-S0377

The GlobalPhone corpus developed in collaboration with the Karlsruhe Institute of Technology (KIT) was designed to provide read speech data for the development and evaluation of large continuous speech recognition systems in the most widespread languages of the world, and to provide a uniform, multilingual speech and text database for language independent and language adaptive speech recognition as well as for language identification tasks.

The entire GlobalPhone corpus enables the acquisition of acoustic-phonetic knowledge of the following 22 spoken languages: Arabic (ELRA-S0192), Bulgarian (ELRA-S0319), Chinese-Mandarin (ELRA-S0193), Chinese-Shanghai (ELRA-S0194), Croatian (ELRA-S0195), Czech (ELRA-S0196), French (ELRA-S0197), German (ELRA-S0198), Hausa (ELRA-S0347), Japanese (ELRA-S0199), Korean (ELRA-S0200), Polish (ELRA-S0320), Portuguese (Brazilian) (ELRA-S0201), Russian (ELRA-S0202), Spanish (Latin America) (ELRA-S0203), Swahili (ELRA-S0375), Swedish (ELRA-S0204), Tamil (ELRA-S0205), Thai (ELRA-S0321), Turkish (ELRA-S0206), Ukrainian (ELRA-S0377), and Vietnamese (ELRA-S0322).

In each language about 100 sentences were read from each of the 100 speakers. The read texts were selected from national newspapers available via Internet to provide a large vocabulary. The read articles cover national and international political news as well as economic news. The speech is available in 16bit, 16kHz mono quality, recorded with a close-speaking microphone (Sennheiser 440-6). The transcriptions are internally validated and supplemented by special markers for spontaneous effects like stuttering, false starts, and non-verbal effects like laughing and hesitations. Speaker information like age, gender, occupation, etc. as well as information about the recording setup complement the database. The entire GlobalPhone corpus contains over 450 hours of speech spoken by more than 2100 native adult speakers.

Data is shortened by means of the shorten program written by Tony Robinson, available from Softsound's web page: http://www.softsound.com/ linux distributions, or simulated versions such as cygwin. Alternatively, the data could be delivered unshorten.

The GlobalPhone Ukrainian corpus contains 12,814 utterances spoken by 119 speakers. Native speakers of Ukrainian were asked to read prompted sentences of newspaper articles. The entire collection took place in Donezk, Ukraine.

Ukrainian Newspaper sources:
http://umoloda.kiev.ua,
http://day.kiev.ua,
http://ukurier.com.ua,
http://pravda.com.ua,
http://chornomorka.com,
http://tsn.ua,
http://champion.com.ua,
http://ukrslovo.org.ua,
http://epravda.com.ua.

View resource description in all available languages

Le corpus GlobalPhone, développé avec la collaboration du Karlsruhe Institute of Technology (KIT), a été conçu afin de fournir des données de parole lue pour le développement et l’évaluation de systèmes de reconnaissance de la parole continue à large vocabulaire dans les langues les plus répandues dans le monde, l’objectif étant de fournir une base de données audio et textuelles uniforme et multilingue pour la reconnaissance de la parole indépendante de la langue et adaptable à la langue, ainsi que pour des tâches d’identification de la langue.

Le corpus GlobalPhone complet permet l’acquisition d’une connaissance acoustico-phonétique pour les 22 langues parlées suivantes: allemand (ELRA-S0198), arabe (arabe standard moderne) (ELRA-S0192), bulgare (ELRA-S0319), chinois-mandarin (ELRA-S0193), chinois de Shanghai (ELRA-S0194), coréen (ELRA-S0200), croate (ELRA-S0195), espagnol (d’Amérique latine) (ELRA-S0203), français (ELRA-S0197), haoussa (ELRA-S0347), japonais (ELRA-S0199), polonais (ELRA-S0320), portugais (brésilien) (ELRA-S0201), russe (ELRA-S0202), suédois (ELRA-S0204), swahili (ELRA-S0375), tamoul (ELRA-S0205), thaï (ELRA-S0321), tchèque (ELRA-S0196), turc (ELRA-S0206), ukrainien (ELRA-S0377) et vietnamien (ELRA-S0322).

Dans chaque langue, environ 100 phrases ont été lues par chacun des 100 locuteurs. Les textes lus sont extraits d’articles de journaux nationaux disponibles sur internet afin de fournir un large vocabulaire. Les articles lus couvrent des actualités politiques nationales et internationales, ainsi que des nouvelles économiques. Les données de parole ont été enregistrées en 16 bit, 16 kHz (qualité mono) avec un micro-casque (Sennheiser 440-6). Les transcriptions ont été validées en interne et annotées au moyen de balises spéciales pour marquer les effets spontanés, tels que le bégaiement, les faux démarrages, et les effets non verbaux comme le rire et les hésitations. La base contient également des informations sur les locuteurs, telles que l’âge, le genre, la profession, etc. ainsi que des informations sur la mise en place de l’enregistrement. Le corpus GlobalPhone dans son entier comprend plus de 450 heures de parole enregistrées par plus de 2100 locuteurs adultes natifs.

Le corpus GlobalPhone ukrainien contient 12814 occurrences enregistrées par 119 locuteurs. On a demandé à des locuteurs de langue maternelle ukrainienne de lire des phrases d’articles de journaux (prompts). La totalité de la collecte a été réalisée à Donetsk, Ukraine.

Sources des journaux ukrainiens:
http://umoloda.kiev.ua,
http://day.kiev.ua,
http://ukurier.com.ua,
http://pravda.com.ua,
http://chornomorka.com,
http://tsn.ua,
http://champion.com.ua,
http://ukrslovo.org.ua,
http://epravda.com.ua.

You don’t have the permission to edit this resource.