Laboratory Conditions Czech Audio-Visual Speech Corpus

View resource name in all available languages

Corpus tchèque audio-visuel enregistré en conditions de laboratoire

UWB-05-LCAVC

ID:

ELRA-S0283

This is an audio-visual speech database for training and testing of Czech audio-visual continuous speech recognition systems. The corpus consists of about 25 hours of audio-visual records of 65 speakers in laboratory conditions. Data collection was done with static illumination, and recorded subjects were instructed to remain static.

The average speaker age was 22 years old. Speakers were asked to read 200 sentences each (50 common for all speakers and 150 specific to each speaker). The average total length of recording per speaker is 23 minutes.

All audio-visual data are transcribed (.trs files) and divided into sentences (one sentence per file). For each video file we get the description file containing information about the position and size of the region of interest.

Acoustic data are stored in wave files using PCM format, sampling frequency 44kHz, resolution 16 bits. Each speaker’s acoustic data set represents about 140 MB of disk space (about 9 GB as a whole).

Visual data are stored in video files (.avi format) using the digital video (DV) codec. Visual data per speaker take about 3 GB of disk (about 195 GB as a whole) and are stored on an IDE hard disk (NTFS format).

View resource description in all available languages

Cette base de données audio-visuelle a été constituée pour entraîner et tester les systèmes de reconnaissance audio-visuelle en langue tchèque. Le corpus comprend environ 25 heures d’enregistrements audio-visuels de 65 locuteurs enregistrés en conditions de laboratoire. La collecte des données a été réalisée par éclairage statique. On a donc demandé aux sujets enregistrés de rester en position statique.

La moyenne d’âge des locuteurs est de 22 ans. On a demandé aux locuteurs de lire 200 phrases chacun (50 en commun pour tous les locuteurs et 150 spécifiques à chaque locuteur). La durée moyenne totale d’enregistrement par locuteur est de 23 minutes.

Toutes les données audio-visuelles ont été transcrites (.trs files) et découpées par phrases (une phrase par fichier). A chaque fichier vidéo correspond un fichier de description contenant l’information sur la position et la taille de la région d’intérêt.

Les données acoustiques ont été stockées en fichiers wave en utilisant le format PCM, une fréquence d’échantillonnage de 44kHz et une résolution de 16 bits. Un ensemble de données acoustiques pour chaque locuteur représente environ 140 Mo d’espace-disque (environ 9 Go en totalité).

Les données visuelles sont stockées en fichiers vidéo (format .avi) utilisant le codec vidéo numérique DV. Les données visuelles par locuteur prennent environ 3 Go de disque (environ 195 Go en totalité) et sont stockées sur un disque dur IDE au format NTFS.

You don’t have the permission to edit this resource.
People who looked at this resource also viewed the following: