Laboratory Conditions Czech Audio-Visual Speech Corpus

47 Last view: 2026-03-19

Laboratory Conditions Czech Audio-Visual Speech Corpus

View resource name in all available languages

Corpus tchèque audio-visuel enregistré en conditions de laboratoire

UWB-05-LCAVC

http://catalog.elra.info/product_info.php?products_id=1081

ID:

ELRA-S0283

This is an audio-visual speech database for training and testing of Czech audio-visual continuous speech recognition systems. The corpus consists of about 25 hours of audio-visual records of 65 speakers in laboratory conditions. Data collection was done with static illumination, and recorded subjects were instructed to remain static.

The average speaker age was 22 years old. Speakers were asked to read 200 sentences each (50 common for all speakers and 150 specific to each speaker). The average total length of recording per speaker is 23 minutes.

All audio-visual data are transcribed (.trs files) and divided into sentences (one sentence per file). For each video file we get the description file containing information about the position and size of the region of interest.

Acoustic data are stored in wave files using PCM format, sampling frequency 44kHz, resolution 16 bits. Each speaker’s acoustic data set represents about 140 MB of disk space (about 9 GB as a whole).

Visual data are stored in video files (.avi format) using the digital video (DV) codec. Visual data per speaker take about 3 GB of disk (about 195 GB as a whole) and are stored on an IDE hard disk (NTFS format).

View resource description in all available languages

Cette base de données audio-visuelle a été constituée pour entraîner et tester les systèmes de reconnaissance audio-visuelle en langue tchèque. Le corpus comprend environ 25 heures d’enregistrements audio-visuels de 65 locuteurs enregistrés en conditions de laboratoire. La collecte des données a été réalisée par éclairage statique. On a donc demandé aux sujets enregistrés de rester en position statique.

La moyenne d’âge des locuteurs est de 22 ans. On a demandé aux locuteurs de lire 200 phrases chacun (50 en commun pour tous les locuteurs et 150 spécifiques à chaque locuteur). La durée moyenne totale d’enregistrement par locuteur est de 23 minutes.

Toutes les données audio-visuelles ont été transcrites (.trs files) et découpées par phrases (une phrase par fichier). A chaque fichier vidéo correspond un fichier de description contenant l’information sur la position et la taille de la région d’intérêt.

Les données acoustiques ont été stockées en fichiers wave en utilisant le format PCM, une fréquence d’échantillonnage de 44kHz et une résolution de 16 bits. Un ensemble de données acoustiques pour chaque locuteur représente environ 140 Mo d’espace-disque (environ 9 Go en totalité).

Les données visuelles sont stockées en fichiers vidéo (format .avi) utilisant le codec vidéo numérique DV. Les données visuelles par locuteur prennent environ 3 Go de disque (environ 195 Go en totalité) et sont stockées sur un disque dur IDE au format NTFS.

You don’t have the permission to edit this resource.

DistributionAvailability

Available - Restricted Use

Start date: 05/11/2008

Licence

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Academic

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Academic

Contact Person

Mapelli Valérie

audio
video

Monolingual audio corpusLanguages

Czech

Linguality

Linguality type: Monolingual

Size

no size available

Monolingual video corpusLanguages

Czech

Linguality

Linguality type: Monolingual

Size

no size available

Metadata

Created: 12/05/2005

Version

Version: 1.0

Last Updated: 05/11/2008

Usage

Actual Use - Nlp Applications

Use NLP Specific: Speech Recognition

People who looked at this resource also viewed the following: