Dutch SpeechDat(II) MDB-250

View resource name in all available languages

Base de données SpeechDat(II) MDB-250 du néerlandais

ID:

ELRA-S0106

The Dutch SpeechDat(II) MDB-250 comprises 250 Dutch speakers (125 males, 125 females) recorded over the Dutch mobile telephone network. This database is partitioned into 5 CDs The speech databases made within the SpeechDat(II) project were validated by SPEX to assess their compliance with the SpeechDat format and content specifications.
Speech samples are stored as sequences of 8-bit 8 kHz A-law. Each prompted utterance is stored in a separate file. Each signal file is accompanied by an ASCII SAM label file which contains the relevant descriptive information.
The following items were recorded:
- 8 application words (2 optional); 2 isolated digits; 1 sequence of 10 isolated digits; 3 connected digits: 1 telephone number (1-10 digits), 1 credit card number (1-16 digits), 1 digit PIN code (6 digits); 3 dates: 1 spontaneous date, 1 date, 1 relative date expression; 1 embedded application word; 3 spelled words: 1 forename (spontaneous), 1 city name, 1 word; 1 currency money amount; 1 natural number; 6 directory assistance names: 1 forename (spontaneous), 1 city of birth, 1 most frequent city, 1 city name, 1 company name, 1 forename surname; 2 yes/no questions: 1 predominantly "yes" question, 1 predominantly "no" question; 9 phonetically rich sentences; 2 time phrases: 1 time of day (spontaneous), 1 time phrase; 4 phonetically rich words.
The following age distribution has been obtained: 5 speakers are under 16, 90 are between 16 and 30, 89 between 31 and 45, 56 between 46 and 60, and 10 are over 60. The lexicon was created following the guidelines in SD1.3.1 v4.3.

A pronunciation lexicon with a phonemic transcription in SAMPA is also included.

View resource description in all available languages

La base de données SpeechDat(II) MDB-250 du néerlandais contient 250 locuteurs hollandais (1250 hommes, 125 femmes) enregistrés à travers le réseau téléphonique mobile hollandais. Cette base est répartie sur 5 CD-ROM. Les bases de données SpeechDat(II) ont été réalisées selon les spécifications du projet SpeechDat(II) et validées par SPEX, Pays-Bas. Les fichiers de parole sont stockés en séquences d’échantillons de 8 bits, 8 kHz, loi-A. Chaque énoncé est stocké dans un fichier séparé et est accompagné d'un fichier d'étiquetage ASCII SAM.

Chaque locuteur a prononcé les éléments suivants :

* 8 mots de commande (2 optionnels) ;
* 2 chiffres isolés ;
* 1 séquence de 10 chiffres isolés ;
* 4 nombres : 1 numéro de téléphone (1-10 chiffres), 1 numéro de carte de crédit (1-16 chiffres), 1 code confidentiel (6 chiffres) ;
* 3 dates : 1 date spontanée, 1 date lue, 1 expression contenant une date ;
* 1 expression utilisant un mot de commande ;
* 3 mots épelés: 1 prénom (spontané), 1 nom de ville, 1 mot réel ;
* 1 montant en devises ;
* 1 nombre naturel ;
* 8 noms : 1 prénom (spontané), 2 noms de ville (1 spontané, 1 optionnel), 2 noms de ville, 2 noms de compagnie, 1 "prénom nom" ;
* 2 questions oui/non : 1 question à prédominance "oui", 1 question à prédominance "non" ;
* 9 phrases phonétiquement riches ;
* 2 phrases comportant une notion de temps : 1 heure du jour (spontané), 1 phrase comportant une notion de temps ;
* 4 mots phonétiquement riches.

Les classes d'âge sont réparties comme suit : 5 locuteurs ont moins de 16 ans, 90 ont entre 16 et 30 ans, 89 entre 31 et 45, 56 entre 46 et 60, enfin, 10 ont plus de 60 ans. Un lexique phonétique comprenant les transcriptions canoniques en SAMPA est également fourni.

Un lexique de prononciation avec sa transcription phonétique en SAMPA est également fourni.

You don’t have the permission to edit this resource.