Greek SpeechDat(II) FDB-5000

View resource name in all available languages

Base de données SpeechDat(II) FDB-5000 du grec

ID:

ELRA-S0118

The Greek SpeechDat(II) FDB-5000 database contains the recordings of 5,000 Greek speakers (2,405 males, 2,595 females) recorded over the Greek fixed telephone network.The FDB-5000 database is partitioned into 25 CDs in ISO 9660 format.

Speech samples are stored as sequences of 8-bit 8 kHz A-law. Each prompted utterance is stored in a separate file. Each signal file is accompanied by an ASCII SAM label file which contains the relevant descriptive information.

This speech database was validated by SPEX (the Netherlands), to assess its compliance with the SpeechDat format and content specifications.

Each speaker uttered the following items:

* 2 isolated digits
* 1 sequence of 10 isolated digits
* 7 connected digits (1 prompt sheet number -5+ digits, 1 telephone number –9/11 digits, 1 credit card number –14/16 digits, 1 PIN code -6 digits, 1 long number greater than 999999, 1 decimal number, 1 age)
* 3 dates (1 spontaneous date e.g. birthday, 1 word style prompted date, 1 relative and general date expression)
* 1 word spotting phrase using an embedded application word
* 3 application words
* 3 spelled words (1 spontaneous name e.g. own forename, 1 city name, 1 real/artificial word for coverage)
* 1 currency money amount
* 1 natural number
* 7 directory assistance names (1 name e.g. forename, 1 city of birth/growing up, set of 150 SDB full names, 1 most frequent cities, 1 most frequent company/agency, 1 city/region of call, 1 profession)
* 4 yes/no questions
* 1 fuzzy yes/no question that could have either yes/no or something else as an answer
* 9 phonetically rich sentences
* 2 time phrases (1 spontaneous time of day, 1 word style time phrase)
* 4 isolated words
* 1 male/female
* 1 telephone model
* 1 environment of call
* 5 words broken into syllables

The following age distribution has been obtained: 512 speaker are under 16, 2,555 speakers are between 16 and 30, 1,199 speakers are between 31 and 45, 653 speakers are between 46 and 60, 74 speakers are over 60, and the age of 7 speakers is unknown.

A pronunciation lexicon with a phonemic transcription in SAMPA is also included.

View resource description in all available languages

La base de données SpeechDat(II) FDB-5000 du grec contient les enregistrements de 5000 locuteurs grecs (2595 femmes, 2405 hommes) , enregistrés à travers le réseau téléphonique fixe grec. Elle est répartie sur 25 CD-ROM, dans le format de la norme ISO 9660. Les bases de données SpeechDat(II) ont été réalisées selon les spécifications du projet SpeechDat(II) et validées par SPEX, Pays-Bas.

Les fichiers de parole sont stockés en séquences d'échantillons de 8 bits, 8 kHz, loi-A. Chaque énoncé est stocké dans un fichier séparé et est accompagné d'un fichier d'étiquetage ASCII SAM.

Chaque locuteur a prononcé les éléments suivants :

* 2 chiffres isolés ;
* 1 séquence de 10 chiffres isolés ;
* 7 séries de chiffres connectés : 1 numéro permettant d'identifier la feuille de prompt (+5 chiffres), 1 numéro de téléphone (9-11 chiffres), 1 numéro de carte de crédit (14-16 chiffres), 1 code confidentiel (6 chiffres), un nombre supérieur à 999999, un nombre décimal, un âge (spontané) ;
* 3 dates : 1 date spontanée (date de naissance), 1 date lue, 1 date relative et générale ;
* 1 expression utilisant un mot de commande ;
* 3 mots d'application ;
* 3 mots épelés : 1 spontané (prénom), 1 nom de ville provenant d'un annuaire de renseignements téléphoniques, 1 mot réel / artificiel pour couverture ;
* 1 montant en devise ;
* 1 nombre naturel ;
* 7 noms extraits d'un annuaire de renseignements téléphoniques : 1 spontané (prénom), 1 nom de ville spontané (ville de naissance / d'enfance du locuteur), 1 nom de ville parmi les plus courantes, 1 nom de société, 1 nom choisi dans un lot de 150 noms complets, 1 ville ou région de l'appel (spontané), 1 profession (spontané).
* 5 questions oui / non, dont une dont la réponse est libre ;
* 9 phrases phonétiquement riches
* 2 phrases comportant une notion de temps : 1 jour (spontané), 1 phrase comportant une notion de temps ;
* 4 mots isolés ;
* 1 nom masculin / féminin (spontané);
* 1 type de téléphone (spontané) ;
* 1 environnement de l'appel (spontané) ;
* 5 syllabes (mots découpés en syllabes).

Les classes d'âge sont réparties comme suit : 512 locuteurs de moins de 16 ans, 2555 locuteurs entre 16 et 30 ans, 1199 locuteurs entre 31 et 45 ans, 653 locuteurs entre 46 et 60 ans, 74 locuteurs de plus de 60 ans et 7 locuteurs pour lesquels l'âge est inconnu.

Un lexique de prononciation avec sa transcription phonétique en SAMPA est également fourni.

You don’t have the permission to edit this resource.