POLYCOST

ID:

ELRA-S0042

The POLYCOST speech database was recorded during January-March 1996 as a common initiative entitled ''Speaker Recognition in Telephony'' within the COST 250 action (http://www.fub.it/cost250). The main purpose of the database is to compare and validate speaker recognition algorithms. The data was collected via international telephone lines, with more than five sessions per speaker, and with English spoken by foreigners.
The database contains 1 285 calls (around 10 sessions per speaker) recorded by 133 subjects (74 male and 59 female speakers) from 13 different countries. Approximately 10 speakers per country were provided by each partner.
Each session comprises 15 prompts, including one prompt for DTMF detection, 10 prompts with connected digits uttered in English, 2 prompts with sentences uttered in English and 2 prompts in the speaker?s mother tongue. One of the prompts in the speaker?s mother tongue consists of free speech.
* English:
- 4 prompts distributed throughout the session in which the speaker pronounces his or her 7-digit client code;
- 5 prompts distributed throughout the session in which the speaker pronounces a sequence of 10 digits (the same from session to session and from speaker to speaker);
- 2 prompts in which the speaker pronounces the sentences: ''Joe took father's green shoe bench out'' and ''He eats several light tacos'', as fixed password phrases which are common to all speakers;
- 1 prompt in which the speaker is supposed to give his or her international phone number.
* Mother tongue
- 1 prompt in which the speaker gives his or her first name, family name, gender (female/male), town and country;
- 1 prompt with free speech.
The database was collected through the European telephone network and was recorded through an ISDN card on XTL SUN platform with an 8 kHz sampling rate. Most of the calls were automatically classified by DTMF detection. Manual classification has been used in the case of no DTMF or wrong DTMF PIN code (circa 10% of the database).
The English prompts are segmented and labelled at the word level (orthographic transcription and word stretches). The prompts in mother tongue are simply labelled (an orthographic transcription will be given). The conventions used for the annotation are those defined within the SpeechDat project.
Character set: ISO-8859-1
Medium: CD-ROMs. The first CD contains speech data from speakers M001-M069, and the second CD contains data from speakers F001-F060 plus M070-M074.
Total size CD1: 636 MB
Total size CD2: 610 MB
File format: A-law, 8 kHz sampling rate, 8 bits/sample, with no file header.

For more information: http://circhp.epfl.ch/polycost

View resource description in all available languages

La base de données POLYCOST a été enregistrée entre janvier et mars 1996 dans le cadre d'une initiative commune intitulée "Speaker Recognition in Telephony - Reconnaissance du locuteur en téléphonie" de l'action COST 250 (http://www.fub.it/cost250). Le principal objectif de cette base est de comparer et valider les algorithmes de reconnaissance du locuteur. Les données ont été collectées à travers les lignes téléphoniques internationales. Les enregistrements sont essentiellement en anglais, parlé par des locuteurs dont l'anglais n'est pas la langue maternelle, avec quelques enregistrements dans leur propre langue.

La base de données contient un total de 1 285 appels (environ 10 sessions par locuteur) enregistrés par 133 sujets (74 hommes et 59 femmes) de 13 pays différents. Chaque partenaire a proposé environ 10 locuteurs.
Chaque session comprend 15 prompts, dont un pour la détection DTMF, 10 pour la prononciation d'une série de chiffres en anglais, 2 présentant des phrases à lire en anglais et 2 prompts dans la langue maternelle du locuteur (dont un étant du discours libre).

* Anglais :

* 4 prompts distribués lors de la session au cours de laquelle le locuteur prononce son code client de 7 chiffres ;
* 5 prompts distribués lors de la session au cours de laquelle le locuteur prononce une séquence de 10 chiffres (la même d'une session à une autre et d'un locuteur à un autre) ;
* 2 prompts dans lesquels le locuteur prononce les phrases : "Joe took father's green shoe bench out" et "He eats several light tacos", en tant que phrases "mots de passe" communes à tous les locuteurs ;
* 1 prompt dans lequel le locuteur est supposé donner son numéro de téléphone international.

* Langue maternelle :

* 1 prompt dans lequel le locuteur donne son prénom, son nom de famille, son sexe (femme/homme), sa ville et son pays ;
* 1 prompt comportant du discours libre.

Dans chaque répertoire correspondant à un locuteur, on trouve un fichier comprenant un résumé des informations disponibles sur ce locuteur. Ce fichier contient des données sur le code client, la nationalité, le nombre de sessions enregistrées, ainsi que la date, l'heure et le lieu d'enregistrement de chaque sessions.

Cette base de données a été collectée à travers le réseau téléphonique européen et enregistrée grâce à une carte ISDN sur une plate-forme SUN XTL avec une fréquence d'échantillonnage de 8 kHz. La plupart des appels ont été classés automatiquement par détection DTMF. Dans les cas d'appels non DTMF ou de code PIN DTMF erroné, une classification manuelle a été faite (environ 10% de la base de données).

Jeu de caractères: ISO-8859-1
Support électronique: CD-ROMs. Le premier CD contient les données des locuteurs M001 à M069, le second CD contient les données des locuteurs F001 à F060 et M070 à M074.
Taille du CD1: 636 MB. Taille du CD2: 610 MB.
Format de fichier: Loi-a, fréquence d'échantillonnage de 8 kHz, 8 bit/échantillon, aucun fichier d'en-tête.

Pour plus d'informations : http://circhp.epfl.ch/polycost

You don’t have the permission to edit this resource.