Portuguese SpeechDat(M) database

View resource name in all available languages

Base de données SpeechDat(M) du portugais

ID:

ELRA-S0068

The Portuguese SpeechDat(M) database contains the recordings of 1,001 speakers (453 males, 548 females). This speech database was collected by Portugal Telecom within the European SpeechDat project.

Speech signals are stored as sequences of 8 kHz, 8-bit A-law. Files are stored according to the file specifications proposed in the SpeechDat database format specification. The file formats and headers follow the SAM recommendations (header files separated from signal files).

This speech database was validated by SPEX (the Netherlands) to assess its compliance with the SpeechDat format and content specifications.

Each speaker uttered the following items:

* 3 natural numbers
* 1 isolated digit
* 2 connected digits (1 credit card number, 1 telephone number)
* 2 money amounts
* 2 dates
* 1 time phrase
* 6 application words
* 3 spelled-out words
* 3 word spotting phrases
* 9 sentences
* 4 yes/no questions
* 1 spontaneous date
* 1 spontaneous time
* 1 region name

The approach adopted for speaker recruitment involved selecting speakers among the employees of Portugal Telecom (about 20,000) and their relatives. The company has a wide geographical coverage, thus guaranteeing a good representation of many regional accents.

The following age distribution has been obtained: 12 speakers are under 16, 345 speakers are between 17 and 30, 436 speakers are between 31 and 45, 196 speakers are between 46 and 60 and 8 speakers are over 60; the age of two speakers is unknown and two others said they were born in 1996.

A pronunciation lexicon with a phonemic transcription in SAMPA is also included.

View resource description in all available languages

La base de données SpeechDat(M) du portugais contient les enregistrements de 1001 locuteurs (453 locuteurs hommes et 548 locuteurs femmes).

Chaque locuteur a prononcé les éléments suivants :

* 3 nombres entiers naturels,
* 1 chiffre isolé,
* 1 numéro de carte de crédit,
* 1 numéro de téléphone,
* 2 montants en devise,
* 2 dates,
* 1 phrase comportant une notion de temps,
* 6 mots de commande,
* 3 mots épelés,
* 3 phrases incluant des mots-clés,
* 9 phrases,
* 4 questions oui/non,
* 1 date spontanée,
* 1 phrase spontanée comportant une notion de temps,
* 1 nom de région.

Les locuteurs ont été sélectionnés parmi les 20 000 employés de Portugal Telecom. La compagnie a une couverture géographique suffisamment large pour garantir une bonne représentation des différents accents régionaux.

Les classes d'âge sont réparties comme suit : 12 locuteurs de moins de 16 ans, 345 locuteurs entre 17 et 30 ans, 436 locuteurs entre 31 et 45 ans, 196 locuteurs entre 46 et 60 ans et 8 locuteurs de plus de 60 ans (ajouter à ces chiffres, 2 locuteurs qui n'ont pas mentionné leur âge et 2 autres qui ont dit être né en 1996).

Les signaux de parole ont été échantillonnés à 8 kHz et enregistrés en séquences de 8 bits, loi-A. Les fichiers ont été stockés conformément aux spécifications de SpeechDat(M). Les formats des fichiers et les en-têtes suivent les recommandations SAM (les fichiers d'en-têtes sont séparés des fichiers de signaux). Un lexique de prononciation avec sa transcription phonétique en SAMPA est également fourni.

CARACTERISTIQUES :
Type de ressource : Enregistrements de parole (acoustique)
Mode de parole : Lu (sauf si marqué spontané)
Conditions d'enregistrement : Réseau de téléphone fixe
Langue : Portugais
Domaine/Source : Phrases extraites du quotidien portugais PÚBLICO
Sexe et nombre de locuteurs : 1001 locuteurs (453 hommes et 548 femmes)
Annotation linguistique : Orthographique
Format de fichier : 8 bits, loi-A
Standard utilisé : SAM
Fréquence d'échantillonnage (kHz) : 8 kHz
Mode de distribution : 3 CD-ROM
Ressources connexes : Ressources SpeechDat(M) en d'autres langues : danois (ELRA-S0040), anglais (ELRA-S0011), français (ELRA-S0016), allemand (ELRA-S0018), italien (ELRA-S0052), espagnol (ELRA-S0065).

Un lexique de prononciation avec sa transcription phonétique en SAMPA est également fourni.

You don’t have the permission to edit this resource.