Danish SpeechDat(M) database - DB1
View resource name in all available languages
Base de données SpeechDat(M) du danois DB1
ID:
ELRA-S0040
The Danish SpeechDat(M) database is the speech database collected within the SpeechDat(M) project. It consists ofpolyphone-like data recorded by 1,523 speakers.
The speech files are stored as sequences of 8 bit 8 kHz A-law samples. Each prompted utterance is stored within a separatefile and the associated label files are stored in SAM file format.
An ASCII file is attached and is listing information about each speaker: speaker code, sex, age, region, prompt number.
The lexicon is presented in a TAB delimited ASCII file containing an alphabetically ordered list of distinct lexical itemsoccurring in the database. Each entry contains a frequency count and corresponding pronunciation information.
Example:
WORD FREQUENCY PHONEMIC TRANSCRIPTIONS
åbnede 104 O b n @ D | O b n @ D @
adresseangivelse 97 a d R a s @ a n g i: u l s @
The complete Danish SpeechDat database consists of 5 CD-ROMs. The first three CD-ROMs contain the application oriented sub-set. The last two CD-ROMs contain the phonetically rich sentences.
The included items are:
· 5 application word phrases (semi spontaneous)
· 12 connected digit strings with 8 digits
· 24 natural numbers (3-4 digits)
· 27 application words
· 3 dates, D3 spontaneous (birthday)
· 3 spelled words
· 2 money amounts, M1 small, M2 large
· City name (spontaneous)
· 3 yes/no questions (spontaneous)
· 22-25 sentences
· T1 time phrase, T2 time of day (spontaneous)
There are 1,523 speakers in the SpeechDat database from 11 linguistic regions of Denmark and five age groups (under 16, 16-30, 31-45, 46-60, over 60). 78% of them are between 16 and 60 years old.
A pronunciation lexicon with a phonemic transcription in SAMPA is also included.
View resource description in all available languages
La base de données SpeechDat(M) du danois est une base de données orale collectée dans le cadre du projet SpeechDat(M) (similaire aux autres bases de données Polyphone) et enregistrée par 1 523 locuteurs.
Les signaux de parole sont enregistrés en loi-A (8 bits, 8 kHz). Les fichiers sont au format SAM.
Un fichier ASCII séparé présente une liste d'informations concernant chaque locuteur : code du locuteur, sexe, âge, région, etc.
Le lexique est présenté dans un autre fichier ASCII délimité par des tabulations et contenant une liste alphabétique des éléments lexicaux distincts apparaissant dans la base. Chaque entrée contient la fréquence et les prononciations correspondantes.
Exemple:
MOT FREQUENCE TRANSCRIPTIONS PHONEMIQUES
åbnede 104 O b n @ D | O b n @ D @
adresseangivelse 97 a d R a s @ a n g i: u l s @
La base complète est composée de 5 CD-ROM. Les trois premiers CD-ROM contiennent les mots de commandes, orientés vers des applications. Les deux derniers CD-ROM contiennent les phrases phonétiquement riches.
Les éléments sont :
· 5 mots de commande inclus dans des phrases (semi spontané),
· 12 séquences de 8 chiffres connectés,
· 24 nombres entiers naturels (3-4 chiffres),
· 27 mots d'application,
· 3 dates dont une spontanée (anniversaire),
· 3 mots épelés,
· 2 montants (argent) dont une petite somme et une grosse,
· nom de ville (spontané),
· 3 questions oui/non (spontané),
· 22-25 phrases,
· une phrase comportant une notion de temps et une l'heure de la journée (spontané).
La base compte 1 523 locuteurs de 11 régions linguistiques du Danemark et de 5 groupes d'âge différents (moins de 16 ans, 16-30 ans, 31-45 ans, 46-60 ans, plus de 60 ans). 78% d'entre eux ont entre 16 et 60 ans.
Un lexique de prononciation avec sa transcription phonétique en SAMPA est également fourni.
People who looked at this resource also viewed the following: