MICROAES
ID:
ELRA-S0165
The ATLAS Spanish Microphone Database (MICROAES) has been collected in Spain by Applied Technologies on Language and Speech, S.L. (ATLAS). This database comprises microphone recordings from 300 different speakers, who have been selected from five different dialectal areas. Sex and age distribution was also considered for speaker selection.
The corpus has 30 sets of 15 paragraphs giving a total of 450 paragraphs. Each 15 paragraph set contains at least two allophones from the extended SAMPA symbols. For this purpose, coarticulation effect between words was considered.
The recording platform is based on a laptop using a PCMCIA slot as interface to the audio equipment. Up to four microphones are recorded simultaneously:
* Sennheiser ME 104 (close distance)
* Nokia Lavalier HDC-6D (close distance)
* Sennheiser ME 64 (medium distance)
* Haun MBNM-550 E-L (far distance)
In this database all recordings have been done in an office with no discussion or meeting during the recordings. The signals are stored in a raw file format, i.e. without headers in the signal file. Each of the four speech channels is recorded at 16 kHz with 16 bit quantization.
A description of the sample rate, the quantization, and byte order used is held in the SAM label file that corresponds to each speech file. This label file also contains information about the signal quality value of the speech file.
The transcription included in this database is an orthographic, lexical transcription with a few details that represent audible acoustic events (speech and non speech) present in the corresponding waveform files. Transcription includes segment markers dividing the paragraph in portions of less than 10 seconds using speaker pauses.
The lexicon file included in this database has more that 7400 words with the corresponding pronunciation information using the SAMPA phonemic notation.
The database contains 30 hours of speech and is distributed in 30 ISO 9660 CD-ROM volumes or 5 ISO 9660 DVD-ROM volumes.
View resource description in all available languages
MICROAES est une base de données orale en espagnol, produite par ATLAS (Applied Technologies on Language and Speech, S.L ), qui comprend les enregistrements au microphone de 300 locuteurs espagnols, issus de 5 régions dialectales différentes et répartis en fonction de critères de sexe et d’âge.
Le corpus contient 30 ensembles de 15 paragraphes ; soit au total 450 paragraphes. Chaque ensemble comprend au moins 2 allophones issus de la norme SAMPA. C’est pourquoi, l’effet de co-articulation entre les mots a été pris en compte.
La plateforme d’enregistrements est un ordinateur portable combiné au matériel audio grâce à une carte PCMCIA. Un maximum de 4 microphones ont été utilisés simultanément :
* Sennheiser ME 104 (proche)
* Nokia Lavalier HDC-6D (proche)
* Sennheiser ME 64 (moyen)
* Haun MBNM-550 E-L (éloigné)
Les enregistrements ont eu lieu dans un bureau, sans bruits extérieurs. Les signaux sont stockés dans des fichiers bruts, sans en-tête. Chacun des 4 canaux est enregistré avec une fréquence de 16 kHz -16 bits.
Une description du taux d’échantillonnage, de la quantification et de l’ordre des octets utilisés est disponible dans le fichier d’étiquettes SAM correspondant à chaque fichier son. Ce fichier contient également des informations sur la qualité du signal.
Les transcriptions des données sont orthographiques et lexicales, avec quelques compléments d’information sur les événements acoustiques audibles (de parole ou non) présents dans les fichiers .wav. La transcription inclut des marqueurs de segments divisant le paragraphe en portions de moins de 10 secondes utilisant les pauses des locuteurs.
Le lexique comprend plus de 7 400 mots avec leur prononciation en SAMPA.
La base de données, comprenant au total 30 heures de discours, est distribuée sur 30 CD-ROM ou 5 DVD-ROM suivant la norme ISO 9660.
People who looked at this resource also viewed the following: