C-ORAL-ROM - Integrated reference corpora for spoken romance languages. Multi-media edition; tools of analysis; standard linguistic measurements for validation in HLT

View resource name in all available languages

C-ORAL-ROM - Corpus oral de référence intégrés pour les langues romanes. Edition multimédia ; outils d'analyse, mesures linguistiques standards pour la validation en HLT

C-ORAL-ROM

ID:

ELRA-S0172

Description
The C-ORAL-ROM resource is a multilingual corpus of spontaneous1 speech for the main romance languages of around 1,200,000 words (IST 2000-26228). The resource comprises three components:
a)Multimedia corpus;
b)Speech software;
c)Appendix.

The corpus consists of four comparable recording collections of Italian, French, Portuguese and Spanish spontaneous speech sessions (around 300,000 words for each Language). The collections are delivered respectively by the following providers:

* Università di Firenze (Dipartimento di Italianistica, LABLITA);
* Université de Provence (Description Linguistique Informatisée sur Corpus);
* Fundação da Universidade de Lisboa/Centro de Linguística da Universidade de Lisboa
* Universidad Autónoma de Madrid (Departamento de Lingüística, Lenguas Modernas, Lógica y F. de la Ciencia, Laboratorio de Lingüística Informática).

The C-ORAL-ROM corpus provides the acoustic source of each session together with the following main annotations:

* The orthographic transcription, in CHAT format, enriched with the tagging of terminal and non terminal prosodic breaks
* Session metadata
* The text to speech synchronization, in WIN PITCH CORPUS format, based on the alignment of each transcribed utterance,

The multimedia corpus comes with the speech software Win Pitch Corpus (© Pitch France. Minimal configuration: Pentium III, 1 GHz, 252 mega Ram, S-blaster or compatible sound card, running under Windows 2000 or XP only. GDPLUS.dll installed on the same directory of the program required).2 A series of appendix are also provided containing: a) the purely textual corpus in .TXT and .XML format; b) the PoS tagging of all and the corresponding frequency list of lemmas forms in .TXT files; c) a set of linguistic measurements extracted from the main corpus annotations, in .EXCEL files; d) the specifications and validation of the resource, e) corpus metadata.

Package

1. DVDs 1 to 8 contain the multimedia corpus edition (DVDs1-2 French; DVDs 3-4 Italian; DVDs 5-6 Portuguese; DVDs 7-8 Spanish). All collections have the same folder's structure, that mirrors directly the C-ORAL-ROM corpus design (see. below). For each session into folders the following is delivered:

* the uncompressed .WAV files (Windows PCM: 22,050 hz; 16 bit)
* the .TXT file of the transcripts;
* the .XML file defining the text to speech alignment in WIN PITCH CORPUS format and its .DTD

2. The CD contains the speech software and the Appendix:

a)Speech software
The speech software Win Pitch Corpus (10 licenses)
b) Appendix
The C-ORAL-ROM transcription files in .TXT and .XML format
The C-ORAL-ROM transcription files with PoS tagging in .TXT files
The frequency list of lemmas for each language collection in TXT files
Measurements of spoken language variability in EXCEL files
The Corpus specifications:
a)Corpus design;
b)Metadata description;
c)Dialogue representation format;
d)Prosodic tagging;
e)Alignment format;
f)XML format;
g)PoS tagging and lemma formats
h)Glossaries.
Resource Validation reports
Multimedia sample files

Main Features

The resource aims to represent the variety of speech acts performed in everyday language and to enable the induction of prosodic and syntactic structures in the four romance languages, from a quantitative and qualitative point of view. The resource has been designed for prosodic modeling, test bed procedures in HLT and corpus based studies of spontaneous speech. C-ORAL-ROM have a relevant added value at the following levels:

* Corpus design
* Metadata
* Dialogue representation
* Prosodic annotation
* PoS tagging
* Multimedia storage
* Speech analysis

CORPUS DESIGN

The corpus design of the C-ORAL-ROM resource aim to ensure a possibility of occurrence for a large variety of speech act typologies and natural prosodic contours, which are the most peculiar linguistic feature found in spontaneous speech. To this end the main variation parameters of the spoken domain (Channel variation, Dialogue structure, sociological domain of use, and semantic domain of application) are represented in a corpus design schema, covering a wide range of semantic and pragmatic domains of application.
The four language collection are considered comparable as far as they fit with the corpus design schema. More specifically each language collection in the C-ORAL-ROM corpus is consistent with the following average structure (check documentation for deviations):

INFORMAL/150,000 words from at least 64 texts of 1500 words each and 10 texts of 4500 words each
INFORMAL/ Family-Private context/124,500 words
INFORMAL/Family-Private context/ Monologues/42,000 words
INFORMAL/Family-Private context/Dialogues-Conversations /82,500 words
INFORMAL/Public context /25.500 words
INFORMAL/Public context/Monologues/6,000 words
INFORMAL/Public context/ Dialogues-Conversations/19,500 words
FORMAL 150,000 words
FORMAL/Formal in natural context/2 or 3 samples of 3000 words average for each of the following typical domain of use for 65,000 words in total.
FORMAL/Formal in natural context/ political speech
FORMAL/Formal in natural context/ political debate
FORMAL/Formal in natural context/ preaching
FORMAL/Formal in natural context/ teaching
FORMAL/Formal in natural context/professional explanation
FORMAL/Formal in natural context/ conference
FORMAL/Formal in natural context/ business
FORMAL/Formal in natural context/law (through media allowed)
FORMAL/Media context/2 or 3 samples of 3000 words average for each of the following typical domain of use for 60,000 words in total
FORMAL/Media context/news (small sample)
FORMAL/Media context/meteo (small sample)
FORMAL/Media context/interviews
FORMAL/Media context/reportage
FORMAL/Media context/scientific press
FORMAL/Media context/sport talk shows
FORMAL/Media context/political debate
FORMAL/Media context/talk shows thematic discussions
FORMAL/Media context/talk shows culture
FORMAL/Media context/talk shows science
FORMAL/Telephone 25,000 words3
FORMAL/Telephone/private conversations
FORMAL/Telephone/phone to call services or man-machine interaction (10,000 words) 4

METADATA

For each session a rich series of metadata is delivered in CHAT format, ensuring multitask exploitation of the resource for Linguistics and Human language technologies. Metadata contain essential information regarding the speakers, the recording situation, the topic, the acoustic quality, the source of the collected data .
DIALOGUE REPRESENTATION
Corpora are orthographically transcribed in standard textual format (CHAT format; Mac Whinney, 1994) with the annotation of speaker's turns. The textual string is divided into utterances. The main non linguistic and paralinguistic acoustic events in the speech flow are reported into transcripts
PROSODIC ANNOTATION
The four romance collections are completely tagged with respect to prosodic breaks. Terminal and non terminal breaks, are discriminated through perceptive judgments and reported in the transcripts. The level of inter-annotator agreement on prosodic tags assignment has been validated by an external institution.
MULTIMEDIA STORAGE
The multimedia storage ensures a natural and meaningful text / sound correspondence for both prosodic modeling, test bed procedures and corpus based studies of spontaneous speech.
SPEECH SOFTWARE
Win Pitch Corpus is an innovative software program for computer-aided alignment of large corpora. It provides a method for easy and precise selection of alignment units, ranging from syllable to whole sentences in a hierarchical storing system of aligned data. The method is based on the ability to link visually a moving target with the perception of corresponding speech sound played back at a rate reduced by at least 30% or more.
Segments derived from alignment can be defined on 8 independent layers, with automatic generation of the corresponding database, which can be saved directly in both XML and Excel formats. Besides text to speech alignment, Win Pitch Corpus, which is Unicode compliant, has numerous features allowing easy and efficient acoustical analysis of speech, such as real-time fundamental frequency tracking, spectrographic display, re-synthesis after editing of prosodic parameters, etc...

For more information: http://www.elda.org/en/proj/coralrom.html

___________________
(1) As defined according to C-ORAL-ROM as: comprising formal and informal speech.
(2) ELDA does not take responsibility on software products coming with the distributed resources. Pitch France is fully responsible for this Software.
(3) text length not defined (by preference 1500 words upper limit, no lower limit)
(4) Field not present in the Portuguese corpus. The texts in this field are not delivered aligned to the acoustic source.

View resource description in all available languages

Description

La ressource C-ORAL-ROM est un corpus multilingue de parole spontanée1 pour les principales langues romanes composé d'environ 1 200 000 mots (IST 2000-26228). La ressource est composée des trois parties suivantes :
a)Corpus multimédia ;
b)Logiciel de parole ;
c)Annexes.

Le corpus est composé de quatre collections d'enregistrements comparables de sessions de parole spontanée pour l'italien, le français, le portugais et l'espagnol (environ 300 000 mots par langue). Les collections ont été fournies par les organismes suivants :

* Università di Firenze (Dipartimento di Italianistica, LABLITA);
* Université de Provence (Description Linguistique Informatisée sur Corpus);
* Fundação da Universidade de Lisboa/Centro de Linguística da Universidade de Lisboa
* Universidad Autónoma de Madrid (Departamento de Lingüística, Lenguas Modernas, Lógica y F. de la Ciencia, Laboratorio de Lingüística Informática).

Le corpus C-ORAL-ROM offre la source acoustique de chaque session ainsi que les annotations principales suivantes :

* La transcription orthographique, au format CHAT, enrichie de l'étiquetage des pauses prosodiques terminales et non terminales
* Un metadata des sessions
* La synchronisation du texte par rapport à la parole, au format WIN PITCH CORPUS, basée sur l'alignement de chaque occurrence transcrite,

Le corpus multimédia est fourni avec le logiciel de parole Win Pitch Corpus (© Pitch France. Configuration minimum: Pentium III, 1 GHz, 252 mega Ram, S-blaster ou carte son compatible, Windows 2000 ou XP uniquement. Le fichier GDPLUS.dll doit être installé dans le même répertoire que le programme).2
Une série d'annexes est également fournie et consiste en : a) le corpus textuel aux formats .TXT et .XML ; b) l'étiquetage de la partie du discours de l'ensemble, ainsi que la liste de fréquence des lemmes sous la forme de fichiers .TXT ; c) un ensemble de mesures linguistiques extraites des annotations principales du corpus, sous la forme de fichiers .EXCEL ; d) les spécifications et validations de la ressource ; e) le metadata du corpus.
Package
La ressource C-ORAL-ROM est distribuée sur 8 DVD et un CD, qui contiennent l'information suivante :

1. Les DVD 1 à 8 contiennent l'édition du corpus multimédia (DVD 1-2 français ; DVD 3-4 italien ; DVD 5-6 portugais ; DVD 7-8 espagnol). Toutes les collections ont la même arborescence de répertoires, reflétant directement le design du corpus C-ORAL-ROM (voir ci-dessous). Pour chaque session présentée sous chaque répertoire, sont fournis les composants suivants :

* Les fichiers non compressés .WAV (Windows PCM: 22,050 hz; 16 bit)
* Le fichier .TXT des transcriptions ;
* Le fichier .XML définissant l'alignement du texte avec la parole dans le format WIN PITCH CORPUS, ainsi que sa .DTD


2. Le CD contient le logiciel de parole et les annexes :
a)Logiciel de parole
Le logiciel de parole Win Pitch Corpus (10 licences)

b)Annexes
Les fichiers de transcription The C-ORAL-ROM aux formats .TXT et .XML
Les fichiers de transcription C-ORAL-ROM avec l'étiquetage de la partie du discours en .TXT
La liste de fréquence des lemmes pour chaque collection de langue en .TXT
Les mesures de variabilité de la langue orale en EXCEL
Les spécifications du corpus :
a.Design du corpus ;
b.Description du Metadata ;
c.Format de représentation du dialogue ;
d.Etiquetage prosodique ;
e.Format d'alignement ;
f.Format XML ;
g.Formats de l'étiquetage de la partie du discours et des lemmes
h.Glossaires.
Rapports de validation de la ressource
Fichiers d'échantillons multimédia

Caractéristiques principales
La ressource a pour but de représenter la variété des actes de parole de la langue de tous les jours et de faciliter l'induction de structures prosodiques et syntaxiques dans les quatre langues romanes traitées, d'un point de vue quantitatif et qualitatif. La ressource a été conçue pour la modélisation prosodique, les procédures de test en HLT et des études de la parole spontanée basées sur les corpus. C-ORAL-ROM offre une valeur ajoutée sur les niveaux suivants :
Design du corpus
Metadata
Représentation du dialogue
Annotation prosodique
Etiquetage de la partie du discours
Stockage multimédia
Analyse de la parole

DESIGN DU CORPUS

Le design de la ressource C-ORAL-ROM vise à assurer un maximum de possibilités d'occurrences pour une grande variété de types d'actes de parole et de contours prosodiques naturels, qui sont les traits linguistiques les plus particuliers que l'on puisse trouver en parole spontanée. A ces fins, les paramètres de variation principaux du domaine de la parole (variation de canaux, structure du dialogue, domaine sociologique d'usage, et domaine sémantique d'application) sont représentés dans un schéma de design de corpus, couvrant une grande variété de domaines sémantiques et pragmatiques d'application.
La collection de quatre langues proposée est considérée comme comparable par le fait qu'elle s'applique au schéma du design du corpus. Plus particulièrement, chaque collection de langue du corpus C-ORAL-ROM est cohérente avec la structure suivante (voir la documentation pour les déviations):

INFORMAL/150 000 mots, soit au moins 64 textes de 1 500 mots chacun et 10 textes de 4 500 mots chacun
INFORMAL/ Family-Private context/124 500 mots
INFORMAL/Family-Private context/ Monologues/42 000 mots
INFORMAL/Family-Private context/Dialogues-Conversations /82 500 mots
INFORMAL/Public context /25 500 mots
INFORMAL/Public context/Monologues/6 000 mots
INFORMAL/Public context/ Dialogues-Conversations/19 500 mots
FORMAL 150 000 mots
FORMAL/Formal in natural context/2 ou 3 échantillons de 3 000 mots en moyenne pour chaque domaine type d'usage pour 65 000 mots au total.
FORMAL/Formal in natural context/ political speech
FORMAL/Formal in natural context/ political debate
FORMAL/Formal in natural context/ preaching
FORMAL/Formal in natural context/ teaching
FORMAL/Formal in natural context/professional explanation
FORMAL/Formal in natural context/ conference
FORMAL/Formal in natural context/ business
FORMAL/Formal in natural context/law (médias permis)
FORMAL/Media context/2 ou 3 échantillons de 3 000 mots en moyenne pour chaque domaine type d'usage pour 60 000 mots au total
FORMAL/Media context/news (petit échantillon)
FORMAL/Media context/meteo (petit échantillon)
FORMAL/Media context/interviews
FORMAL/Media context/reportage
FORMAL/Media context/scientific press
FORMAL/Media context/sport talk shows
FORMAL/Media context/political debate
FORMAL/Media context/talk shows thematic discussions
FORMAL/Media context/talk shows culture
FORMAL/Media context/talk shows science
FORMAL/Telephone 25,000 mots 3
FORMAL/Telephone/private conversations
FORMAL/Telephone/phone to call services or man-machine interaction (10 000 mots) 4

METADATA
Pour chaque session, une série enrichie de metadata est fournie au format CHAT, assurant l'exploitation multi-tâche de la ressource linguistique et en technologie de la langue. Le metadata contient l'information essentielle sur les locuteurs, la situation d'enregistrement, le thème, la qualité acoustique, la source des données collectées.
REPRESENTATION DU DIALOGUE
Les corpus sont transcrits orthographiquement au format de texte standard (format CHAT ; Mac Whinney, 1994) avec l'annotation des tours de parole. L'ensemble textuel est séparé en occurrence. Les principaux événements acoustiques non linguistiques et paralinguistiques du flux de parole sont rapportés dans les transcriptions.
ANNOTATION PROSODIQUE
Les collections des quatre langues romanes sont entièrement étiquetées au niveau des pauses prosodiques. Les pauses terminales et non terminales, sont discriminées par des jugements de perception et rapportées dans les transcriptions. Le contrôle du niveau d'accord entre annotateurs a été validé par une institution externe.
STOCKAGE Multimedia
Le stockage multimédia garantit une correspondance texte/son naturelle et signifiante pour la modélisation prosodique, les procédures de validation et les études en parole spontanée basées sur le corpus.
LE LOGICIEL DE PAROLE
Win Pitch Corpus est un programme logiciel innovateur pour l'alignement de grands corpus assisté par ordinateur. Il propose une méthode de sélection d'unités d'alignement facile et précise, en passant de la syllabe à des phrases complètes par un système de stockage hiérarchique des données alignées. La méthode est basée sur la possibilité de relier visuellement une cible mouvante par la perception du son correspondant écouté à un taux réduit d'au moins 30%.
Les segments dérivés de l'alignement peuvent être définis selon 8 niveaux indépendants, avec une génération automatique de la base de données correspondante, qui peut être sauvegardée directement à la fois en XML et Excel. Au-delà de l'alignement texte/parole, Win Pitch Corpus, compatible Unicode, comporte de nombreux composants permettant facilement et efficacement l'analyse de la parole, tel que le suivi de la fréquence fondamentale, la représentation en spectrographe, la re-synthèse après l'édition des paramètres prosodiques, etc.

Pour plus d'informations : http://www.elda.org/en/proj/coralrom.html

___________________
(1)Tel que défini dans C-ORAL-ROM, c'est-à-dire, parole formelle et informelle.
(2)ELDA ne prend aucune responsabilité sur les produits logiciels fournis avec les ressources distribuées. Pitch France est entièrement responsable de son logiciel.
(3)Longueur du texte non définie (de préférence 1500 mots maximum, pas de limite minimum)
(4)Champ non present dans le corpus portugais. Les textes de ce champ ne sont pas fournis alignés à la source acoustique.

You don’t have the permission to edit this resource.