JV_TDM Corpus
View resource name in all available languages
Corpus JV_TDM
ID:
ELRA-S0379
The JV_TDM corpus provides a phonetic annotation of 37 chapters of the original French version of “Around the World in 80 Days” by Jules Verne read by a single speaker. Each chapter has been annotated in a separate .TextGrid file. The audio files are not included in this release. They are available under a CC BYNC-SA licence on the site www.litteratureaudio.com (www.litteratureaudio.com/livre-audio-gratuit-mp3/jules-verne-le-tour-du-monde-en-80-jours.html).
The total audio size is 6h 41mn 36s with 5h 2mn 41s of speech. In the JV_TDM corpus, the speaker uttered 78,876 words at an average speed of 5.82 syllables and 13.49 phones per second. The speaker produced 244,908 phones and 11,352 pauses (short and long). All phonemes except glottal stops and palatal/velar nasals are encountered more than 1000 times.
The .TextGrid files contain several annotation tiers: phoneme, number of alphanumeric characters corresponding to a phone, syllable, transcription, PoS, paragraph break, sentence break, prosodic annotations, breathing pauses.
With the text-to-speech system COMPOST, the original text material was first PoS annotated, phonetically transcribed, syllabified and plausible pauses were inserted. Text-to-speech alignment was then performed on paragraphs which were manually delimited with Praat. The segmentation and all the annotations were manually validated.
View resource description in all available languages
Le corpus JV_TDM contient une annotation phonétique de 37 chapitres de la version originale de l’ouvrage « Le Tour du Monde en 80 jours », de Jules Verne, lus par un seul locuteur. Chaque chapitre a été annoté dans un fichier .TextGrid. Les fichiers audio ne sont pas inclus dans cette version. Ils sont disponibles sous une licence CC BY-NC-SA sur le site www.litteratureaudio.com (www.litteratureaudio.com/livre-audio-gratuit-mp3/jules-verne-le-tour-du-monde-en-80-jours.html).
La durée totale des fichiers audio est de 6h 41mn 36s, avec 5h 2mn 41s de parole. Dans le corpus JV_TDM, le locuteur a prononcé 78876 mots à une vitesse moyenne de 5.82 syllabes et 13.49 phones par seconde. Le locuteur a produit 244908 phones et 11352 pauses (longues et courtes). Tous les phonèmes, à l’exception des coups de glotte et des nasales palatales et vélaires, apparaissent plus de 1000 fois.
Les fichiers .TextGrid contiennent plusieurs niveaux d’annotation : phonème, nombre de caractères alphanumériques associés au phone, syllabe, transcription, partie du discours, marqueur de paragraphe, marqueur de phrase, marqueurs prosodiques, pauses respiratoires.
Avec le système de synthèse de la parole COMPOST, le texte original a été annoté en parties du discours, transcrit phonétiquement et divisé en syllabes, et des pauses plausibles ont été insérées. L’alignement texte-parole a été réalisé sur la base de paragraphes délimités manuellement avec Praat. La segmentation et toutes les annotations ont été validées à la main.
People who looked at this resource also viewed the following: