PAROLE Irish Distributable Corpus

View resource name in all available languages

Corpus PAROLE irlandais

ID:

ELRA-W0026

The PAROLE Irish Distributable Corpus consists of over 8 million words (a subset of the 15+ million words Irish Reference corpus).

The text is marked-up in accordance with the PAROLE encoding standard which incorporates the Corpus Encoding Standard (CES) and Text Encoding Initiative (TEI) Guidelines. All the files are in SGML format with a detailed header and the body of the text tagged to paragraph level. The header includes information such as title, author(s), number of words, ownership, publication details and also a standard coding for Medium, Topic and Genre categories.

A subset of the Distributable Corpus is morpho-syntactically tagged.

Included in this distribution is approximately 3,000 manually checked words.

View resource description in all available languages

Le corpus PAROLE irlandais est composé de plus de 8 millions de mots (provenant du corpus de référence irlandais PAROLE, qui lui comporte plus de 15 millions de mots).

Le texte a été étiqueté selon le standard de codage PAROLE qui comprend les directives CES (Corpus Encoding Standard) et TEI (Text Encoding Initiative). Tous les fichiers sont au format SGML qui inclut un en-tête détaillé, ainsi que le corpus du texte annoté au niveau du paragraphe. L'en-tête comprend des informations tels que le titre, le(s) auteur(s), le nombre de mots, le détenteur des droits, des détails de publication, ainsi qu'un standard de codage pour les catégories "Support", "Thème" et "Genre".

Un sous-ensemble du corpus a été étiqueté au niveau morpho-syntaxique..

Environ 3 000 mots vérifiés manuellement sont également fournis.

You don’t have the permission to edit this resource.