Fundamental Portuguese Corpus

View resource name in all available languages

Corpus du portugais fondamental

ID:

ELRA-S0346

The Fundamental Portuguese Corpus is a corpus of spoken language, collected between 1970 and 1974, composed of 1800 recordings (500 hours) made in Continental Portugal and the Islands. Of these 1800 conversations, a sample was selected and transcribed.

The corpus consists of audio files in .wav format, aligned transcriptions in XML Exmaralda format and transcriptions in plain text. The plain text files also have automatically assigned POS-tag information. The transcriptions of the corpus are also available in html format. The characters have been encoded in UTF-8.

View resource description in all available languages

Le Corpus du portugais fondamental est un corpus de langue parlée, collecté entre 1970 et 1974, composé de 1800 enregistrements (500 heures) réalisés au Portugal continental et dans les îles. De ces 1800 conversations, un extrait a été sélectionné et transcrit.

Le corpus est constitué de fichiers audio au format .wav, de transcriptions alignées au format XML Exmaralda, ainsi que de transcriptions en texte intégral. The plain text files also have automatically assigned POS-tag information. Les fichiers texte intégral ont également des informations en partie du discours associées de façon automatique. Les transcriptions du corpus sont aussi disponibles au format html. Les caractères sont codés en UTF-8.

You don’t have the permission to edit this resource.