Mbochi speech corpus

View resource name in all available languages

Corpus oral mbochi

ID:

ELRA-S0396

The Mbochi speech corpus was developed in the framework of ANR-DFG BULB project. This project aims to provide field linguists (eg working on morphology) with tools for less or not written languages. The provided corpus is a subset from the corpus developed in this framework.

The provided corpus consists of 5131 sentences recorded in mbochi, together with their transcription and French translation, as well as the results from the work made during JSALT workshop (within one of the topics which was "the speaking Rosetta stone - Discovering Grounded Linguistic Units for Languages without Orthography"): alignments at the phonetic level and various results of unsupervised word segmentation from audio. The audio corpus is made up of 4,5 hours, downsampled at 16kHz, 16bits, with Linear PCM encoding. Data is distributed into 2 parts, one for training consisting of 4617 sentences, and one for development consisting of 514 sentences.

View resource description in all available languages

Le corpus oral mbochi a été développé dans le cadre du projet ANR-DFG BULB. Ce projet a pour but de fournir des outils pour les linguistes de terrain pour des langues peu ou pas écrites, par exemple en découverte de la morphologie. Le corpus fourni est une partie du corpus développé dans ce cadre.

Le corpus fourni comprend 5131 phrases enregistrées en mbochi avec leur transcription, et leur traduction en français, ainsi que le résultat du travail réalisé pendant le workshop JSALT (dont l’un des sujets était "the speaking Rosetta stone - Discovering Grounded Linguistic Units for Languages without Orthography"): alignements au niveau phonétique, et divers résultats de segmentation en mots non supervisée à partir de l'audio. Le corpus audio contient 4,5 heures, échantillonnées à 16kHz, 16bits, avec codage Linear PCM. Les données sont séparées en 2 parties, une pour l'apprentissage (train) contenant 4617 phrases, et une pour le développement (dev) contenant 514 phrases.

You don’t have the permission to edit this resource.