Austrian SpeechDat(AT) MDB-1000 database

View resource name in all available languages

Base de donnéesSpeechDat(AT) MDB-1000 de l'autrichien

ID:

ELRA-S0143

The Austrian SpeechDat(AT) MDB-1000 database contains the recordings of 1,000 Austrian speakers (543 males, 457 females) recorded over the Austrian mobile telephone network. The database is partitioned into 5 CD-ROMs, in ISO 9660 format.

Speech samples are stored as sequences of 8-bit 8 kHz A-law, uncompressed. Each prompted utterance is stored in a separate file, and each signal file is accompanied by an ASCII SAM label file which contains the relevant descriptive information.

This speech database, was validated by SPEX (the Netherlands) to assess its compliance with the SpeechDat format and content specifications.

Each speaker uttered the following items:

* 3 isolated digits
* 4 connected digits (prompt sheet number -5 digits, telephone number –9/11 digits, credit card number –15/16 digits, PIN code –6 digits)
* 1 natural number
* 2 money amounts (currency amount, mixed size and units)
* 2 yes/no questions (predominantly "yes", predominantly "no")
* 3 dates (spontaneous date e.g. birthday, prompted date, relative and general date expression)
* 2 times (spontaneous time of day, prompted mixed/analogue digital)
* 6 application words
* 1 word spotting phrase using embedded application words
* 7 directory assistance names (spontaneous names e.g. forenames, city of birth, a name out of a set of 150 SDB full names, most frequent cities, most frequent companies)
* 3 spellings (spontaneous e.g. forename, directory city name, real/artificial city name)
* 4 isolated words
* 12 phonetically rich sentences
* 7 speaker specific material (speaker gender question, call from fixed or mobile network, speaker region question, today’s date, environment of call, native language, educational level)

The following age distribution has been obtained: 18 speakers are under 16, 550 are between 16 and 30, 262 are between 31 and 45, 157 are between 46 and 60, and 13 speakers are over 60.

A pronunciation lexicon with a phonemic transcription in SAMPA is also included.

View resource description in all available languages

La base de données SpeechDat(AT) MDB-1000 de l'autrichien comprend les enregistrements de 1000 locuteurs autrichiens (543 hommes, 457 femmes) enregistrés à travers le réseau téléphonique mobile autrichien. La base de données est répartie sur 5 CD-ROM, et dans le format de la norme ISO 9660.

Les fichiers de parole sont stockés en séquences d'échantillons au format 8bit, 8 kHz, A-law, et décompressés. Chaque énoncé est stocké dans un fichier séparé et est accompagné d'un fichier d'étiquetage ASCII SAM. Cette base a été validée par SPEX, Pays-Bas, afin de contrôler son adéquation avec le format SpeechDat et les spécifications de contenu.

Chaque locuteur a prononcé les éléments suivants :

* 3 chiffres isolés
* 4 séries de chiffres connectés (un numéro permettant d'identifier la feuille de prompt - +5 chiffres, un numéro de téléphone - 9-11 chiffres, 1 numéro de carte de crédit - 14-16 chiffres, 1 code confidentiel - 6 chiffres)
* 1 nombre naturel
* 2 montants (un montant en devises autrichiennes, un montant donné dans une autre devise)
* 2 questions oui / non (une question à prédominance ‘oui', une question à prédominance ‘non')
* 3 dates (une date spontanée - date d'anniversaire, une date lue, une date relative et générale)

* 2 expressions comportant une notion de temps (un moment de la journée, spontané, une expression lue)
* 6 mots de commande
* 1 expression utilisant un mot de commande
* 7 noms extraits d'un annuaire de renseignements téléphoniques (noms spontanés – prénoms, la ville de naissance du locuteur, un nom sur un lot de 150, un nom de ville parmi les plus courants, un nom de société parmi les plus courantes)
* 3 mots épelés (un spontané - prénom, un nom de ville extrait de l'annuaire de renseignements téléphoniques, un nom de ville réel/artificiel)
* 4 mots isolés
* 12 phrases phonétiquement riches
* 7 éléments relatifs au locuteur (Etes-vous un homme ou une femme ? Appelez-vous d'un téléphone fixe ou d'un portable ? De quelle région êtes-vous issu ? Quelle date sommes-nous aujourd'hui ? Dans quel environnement vous trouvez-vous ? Quelle est votre langue maternelle ? Quel est votre niveau d'études ?)

Les classes d'âge sont réparties comme suit : 18 locuteurs ont moins de 16 ans, 550 locuteurs ont entre 16 et 30 ans, 262 locuteurs entre 31 et 45 ans, 157 locuteurs entre 46 et 60 ans, 13 locuteurs de plus de 60 ans.

Un lexique de prononciation avec sa transcription phonétique en SAMPA est également fourni.

You don’t have the permission to edit this resource.