PAROLE French Corpus 
Corpus Français PAROLE
The PAROLE French corpus contains the following data:
Miscellaneous: Data provided by ELRA (CRATER, MLCC Multilingual and Parallel Corpora) 2 025 964 words
Books: CNRS Editions 3 267 409 words
Periodicals: CNRS Info, Hermès 942 963 words
Newspapers: Le Monde, provided by ELRA 13 856 763 words
Total 20 093 099 words
1. Newspapers:
14 million words were extracted from complete issues of years 1987, 1989, 1991, 1993 and 1995 of Le Monde newspaper. 241,484 words, from 7 issues of Le Monde of September 1987, have been extracted, and POS-tagged automatically. Each article consists of a complete item ? header ? according to the directives of the TEI (Text Encoding Initiative). Le Monde original markups were changed into classication features, so that extracting articles of different topics is possible.
2. Periodicals:
Issues 15 to 22 have been used (134 articles, one Word file per article). The data have been converted from Word to RTF (Rich Text Format) and then, via a translator, from RTF to HTML. The conversion from HTML to the PAROLE format was made thanks to flex programs. The result for each article is: one "header" file which contains information on the author and the article id, and one "body" file which contains the article itself. A perl script is creating the final file from both "header" and "body".
? CNRS-Infos
The data come from the CNRS-Infos Web site ( Each file has been processed as follows: cleaning the HTML header, extracting a summary, cleaning of HTML markups, translation to the PAROLE format, creation of the "header" and the "body" files (see Hermès). . Like Hermès files, a perl script is creating the final file from both "header" and "body".
3. Books
All books were provided on CD-ROM as Xpress files, each book having its own structure. Therefore, each book has been considered separately. XPress allows conversion to a format called "Xpress markup". This format enables to spot the different structures of the book (if the Xpress file has been laid out well - which is not always the case). The structure of each book had to be worked out to create the perl script which enables the translation to the PAROLE format. Conformance to the PAROLE format was made thanks to a "nsgmls" tool. The errors found during the verification have been manually corrected.
Le corpus français PAROLE contient les données suivantes :
Divers : Données provenant d'ELRA (CRATER, MLCC Multilingue, MLCC Parallèle) 2 025 964 mots
Ouvrages (CNRS Editions) 3 267 409 mots
Périodiques (CNRS Info, Hermès) 942 963 mots
Presse (Le Monde, en provenance d'ELRA) 13 856 763 mots
Total 20 093 099 mots
1. Données de presse :
14 millions de mots provenant par choix aléatoire de numéros entiers parmi ceux des années 1987, 1989, 1991, 1993 et 1995 du Journal Le Monde constituent la partie Presse du corpus réalisé dans le cadre du projet. 241 484 mots, provenant de 7 numéros du Monde de septembre 1987, ont été extraits , étiquetés automatiquement et corrigés manuellement pour la partie du discours. Chaque article constitue un composant à part entière ' en-tête ' suivant les propositions de la TEI (TextEncoding Initiative). Les champs signalétiques fournis par la documentation du Monde ont été transformés en catégories classificatoires. Il est ainsi possible d'extraire les articles relevant de différentes rubriques ou de différents genres.
2. Périodiques :
Les numéros 15 à 22 ont été utilisés (134 articles, un par fichier, au format Word). La conversion a été réalisée de Word vers RTF (Rich Text Format) puis, via un traducteur, vers HTML. La conversion des fichiers HTML vers le format PAROLE a été effectuée à l'aide de programmes écrit avec flex. Le résultat de ce traitement est pour chaque article : un fichier "header" contenant des informations sur l'auteur et l'identifiant de l'article et un fichier "body" contenant l'article proprement dit au format PAROLE. Finalement un script perl crée le fichier final à partir des fichiers "header" et "body".
Les données extraites du "CNRS-Infos" proviennent du serveur web hébergeant la revue ( Pour chaque fichier, les traitements suivants ont été appliqués : nettoyage de l'en-tête HTML, extraction du résumé, nettoyage des balises HTML, traduction vers le format PAROLE, création des fichiers "header" et "body" (comme pour Hermès). Comme pour Hermès, un script perl crée le fichier final à partir des fichiers "header" et "body".
3. Ouvrages
Tous les livres ont été fournis sur cédérom au format Xpress, chaque ouvrage ayant sa propre structure. Le traitement s'est donc fait ouvrage par ouvrage. XPress permet la conversion vers un format "balise XPress". Ce format permet de repérer, si le fichier Xpress a correctement été mis en page (ce qui n'est pas toujours le cas), les différentes structures d'un ouvrage. Pour chaque ouvrage il a fallu étudier la structure pour pouvoir réaliser le script perl permettant la traduction vers le format PAROLE. La conformité au format PAROLE a été faite à l'aide de l'outil "nsgmls". Les erreurs découvertes lors de la vérification ont été corrigées "à la main" dans le fichier.
