SpeechDat Galician Database for the Fixed Telephone Network
View resource name in all available languages
Base de données SpeechDat galicien pour le réseau téléphonique fixe
ID:
ELRA-S0277
The SpeechDat Galician Database for the Fixed Telephone Network contains the recordings of 653 speakers (217 males, 436 females) of Galician recorded over the fixed telephone network. This database is partitioned into 3 CDs. The database complies with the common specifications created in the SpeechDat project.
Speech samples are stored as sequences of 8-bit 8 kHz A-law. Each prompted utterance is stored in a separate file. Each signal file is accompanied by an ASCII SAM label file which contains the relevant descriptive information.
Each speaker uttered the following 44 items:
– 3 common application words
– 1 sequence of isolated digits
– 4 digit strings : prompt sheet number, telephone number, credit card number, PIN code
– 1 spontaneous phone number
– 1 spontaneous PIN code (8 digits)
– 3 dates : spontaneous, date (birth date), Prompted date (word style), relative and general date expr.
– 1 application word phrase
– 1 isolated digit
– 3 spelled word : spontaneous, spelled own forename, spelled directory city name, spelled real/artificial words
– 1 money amount
– 2 natural numbers
– 5 directory assistance: forename (spontaneous), city of origin (spontaneous), country name (most frequent city), most frequent company/agency name, forename & surname (out of 500), surname (out of 76), “forename surname” (spontaneous)
– 2 spontaneous yes/no questions
– 10 phonetically rich sentences
– 2 time phrases : time of day (spontaneous), time phrase
– 4 phonetically rich words
The following age distribution has been obtained: 12 speakers are under 16, 375 are between 16 and 30, 164 are between 31 and 45, 88 are between 46 and 60, and 9 speakers are over 60. (The age of 5 speakers was not defined).
A pronunciation lexicon with a phonemic transcription in SAMPA is also included.
View resource description in all available languages
La base de données SpeechDat galicien pour le réseau téléphonique fixe comprend les enregistrements de 653 locuteurs galiciens (217 hommes, 436 femmes) enregistrés à travers le réseau téléphonique fixe La base de données est répartie sur 3 CD-ROM. Cette base est conforme aux spécifications du projet SpeechDat.
Les fichiers de parole sont stockés en séquences d’échantillons au format 8bit, 8 kHz, A-law, et décompressés. Chaque énoncé est stocké dans un fichier séparé et est accompagné d'un fichier d'étiquetage ASCII SAM.
Chaque locuteur a prononcé les 44 éléments suivants :
• 3 mots de commande
• 1 séquence de chiffres isolés
• 4 séries de chiffres connectés (1 numéro permettant d'identifier la feuille de prompt, 1 numéro de téléphone, 1 numéro de carte de crédit, 1 code confidentiel)
• 1 numéro de téléphone spontané
• 1 code confidentiel spontané (8 chiffres)
• 3 dates (une date spontanée - date d’anniversaire, une date lue, une date relative et générale)
• 1 expression utilisant un mot de commande
• 1 chiffre isolé
• 3 mots épelés (un spontané - prénom, un nom de ville extrait de l’annuaire de renseignements téléphoniques, un nom de ville réel/artificiel)
• 1 montants en devises
• 2 nombres naturels
• 5 noms extraits d’un annuaire de renseignements téléphoniques : nom spontané, la ville de naissance du locuteur, un nom de ville parmi les plus courants, un nom de société parmi les plus courantes, prénom et nom (sur 500), nom (sur 76), « prénom nom » (spontané)
• 2 questions oui / non spontanées
• 10 phrases phonétiquement riches
• 2 expressions comportant une notion de temps (un moment de la journée, spontané, une expression lue)
• 4 mots phonétiquement riches
Les classes d’âge sont réparties comme suit : 12 locuteurs ont moins de 16 ans, 375 locuteurs ont entre 16 et 30 ans, 164 locuteurs entre 31 et 45 ans, 88 locuteurs entre 46 et 60 ans, 9 locuteurs de plus de 60 ans (l’âge de 5 locuteurs n’est pas précisé).
Un lexique de prononciation avec sa transcription phonétique en SAMPA est également fourni.
People who looked at this resource also viewed the following: