Basque FDB-1060 database (SpeechDat-like)

View resource name in all available languages

Base de données FDB-1060 du basque

ID:

ELRA-S0152

The Basque FDB-1060 database contains the recordings of 1,060 speakers (480 males, 580 females) of Basque recorded over the fixed telephone network. This database is partitioned into 4 CDs. The database complies with the common specifications created in the SpeechDat project.

Speech samples are stored as sequences of 8-bit 8 kHz A-law. Each prompted utterance is stored in a separate file. Each signal file is accompanied by an ASCII SAM label file which contains the relevant descriptive information.

Each speaker uttered the following items:

* 6 common application words
* 1 sequence of isolated digits
* 4 digit strings : prompt sheet number, telephone number, credit card number, PIN code
* 3 dates : spontaneous, date (birth date), Prompted date (word style), relative and general date expr.
* 1 application word phrase
* 1 isolated digit
* 3 spelled word : spontaneous, spelled own forename, spelled directory city name, spelled artificial words
* 1 money amount
* 1 natural number
* 5 directory assistance: forename (spontaneous), city of origin (spontaneous), country name (most frequent city), most frequent company/agency name, forename & surname
* 2 spontaneous yes/no questions
* 9 phonetically rich sentences
* 2 time phrases : time of day (spontaneous), time phrase
* 4 phonetically rich words

The following age distribution has been obtained: 8 speakers are under 16, 474 are between 16 and 30, 320 are between 31 and 45, 236 are between 46 and 60, and 13 speakers are over 60. (The age of 9 speakers was not determined.)

A pronunciation lexicon with a phonemic transcription in SAMPA is also included.

View resource description in all available languages

La base de données FDB-1060 du basque comprend les enregistrements de 1060 locuteurs basques (480 hommes, 580 femmes) enregistrés à travers le réseau téléphonique fixe. La base de données est répartie sur 4 CD-ROM. Cette base est conforme aux spécifications du projet SpeechDat.

Les fichiers de parole sont stockés en séquences d'échantillons au format 8bit, 8 kHz, A-law, et décompressés. Chaque énoncé est stocké dans un fichier séparé et est accompagné d'un fichier d'étiquetage ASCII SAM.

Chaque locuteur a prononcé les 43 éléments suivants :

* 6 mots de commande
* 1 séquence de chiffres isolés
* 4 séries de chiffres connectés (1 numéro permettant d'identifier la feuille de prompt, 1 numéro de téléphone, 1 numéro de carte de crédit, 1 code confidentiel)
* 3 dates (une date spontanée - date d'anniversaire, une date lue, une date relative et générale)
* 1 expression utilisant un mot de commande
* 1 chiffre isolé
* 3 mots épelés (un spontané - prénom, un nom de ville extrait de l'annuaire de renseignements téléphoniques, un nom de ville artificiel)
* 1 montants en devises
* 1 nombre naturel
* 5 noms extraits d'un annuaire de renseignements téléphoniques (nom spontané - prénom, la ville de naissance du locuteur, un nom de ville parmi les plus courants, un nom de société parmi les plus courantes, prénom et nom)
* 2 questions oui / non spontanées
* 9 phrases phonétiquement riches
* 2 expressions comportant une notion de temps (un moment de la journée, spontané, une expression lue)
* 4 mots phonétiquement riches

Les classes d'âge sont réparties comme suit : 8 locuteurs ont moins de 16 ans, 474 locuteurs ont entre 16 et 30 ans, 320 locuteurs entre 31 et 45 ans, 236 locuteurs entre 46 et 60 ans, 13 locuteurs de plus de 60 ans (l'âge de 9 locuteurs n'est pas précisé).

Un lexique de prononciation avec sa transcription phonétique en SAMPA est également fourni.

You don’t have the permission to edit this resource.