GeFRePaC - German French Reciprocal Parallel Corpus
View resource name in all available languages
GeFRePaC
ID:
ELRA-W0031
The German-French Reciprocal Parallel Corpus (GeFRePaC) was produced by the Multilinguale Forschung/Multilingual Research Abteilung Lexik, Institut für Deutsche Sprache (Germany) through a funding from ELRA in the framework of the European Commission project LRsP&P (Language Resources Production & Packaging - LE4-8335).
The German-French Reciprocal Parallel Corpus (GeFRePaC) is a 30 million word corpus (15 million for each language) for the purpose of developing, enhancing and improving translation aids (dictionaries, lexicons, platforms) for French-German and German-French translation.
The database consists of the following parallel corpora:
European Union CELEX Database: Treaties, Foreign relations, Law, Complementar Law and all the published documents of the "European Parliament".
Celex-Database: 22,000,000 words (German+French) (http://www.outlaw-web.com)
Europarl: 8,320,000 words (German+French) (http://www.europarl.eu.int)
It covers natural general language as used in public socio-political discourse and it has a focus on multilingual administration and commercial and legal documentation. GeFRePaC comprises a large variety of text types for which there is a rapidly growing need for translation but which currently defy successful machine translation. The corpus is encoded according to the PAROLE guidelines, it was aligned on the sentence level and also for single word translation units on the lexical level, POS-tagged in conformity with EAGLES recommendations and validated according to the most current version of the ELRA guidelines. The parallel German-French texts were aligned using a program developed at the Equipe Langue et Dialogue, Laboratoire Loria, Nancy. The text files containing markup for paragraphs and sentences were processed by the Tree Tagger developed at the IMS Stuttgart. The text files are automatically converted into TEI-conformant SGML format.
View resource description in all available languages
Le corpus parallèle allemand-français (GeFRePaC, German French Reciprocal Parallel Corpus) a été produit par le centre de recherche multilingue de l'institut de la langue allemande (Multilinguale Forschung/Multilingual Research Abteilung Lexik, Institut für Deutsche Sprache), en Allemagne, dans le cadre du projet LRsP&P (Language Resources Production & Packaging - LE4-8335), soutenu par la Commission Européenne et financé par ELRA.
Le corpus GeFRePaC compte au total 30 millions de mots (15 millions dans chaque langue), et a été produit dans le but de développer, améliorer et enrichir les différents systèmes d'aide à la traduction (dictionnaires, lexiques, plateformes) pour la traduction du français vers l'allemand et de l'allemand vers le français.
La base de données comprend les corpus parallèles suivants :
Base de données CELEX de l'Union Européenne : traités, affaires étrangères, législation, et tous les documents publiés par le Parlement Européen.
Base de données Celex : 22 000 000 mots (allemand+français) (http://www.outlaw-web.com)
Europarl : 8 320 000 mots (allemand+français) (http://www.europarl.eu.int)
Ce corpus est constitué de textes en langage naturel tel qu'utilisé dans le domaine socio-politique et est plus particulièrement porté sur l'administration multilingue et la documentation commerciale et juridique.
Le codage du corpus suit les recommandations PAROLE. Il a été aligné au niveau de la phrase, et également au niveau des unités lexicales pour la traduction, les parties du discours étant marquées suivant les recommandations EAGLES. L'ensemble a été validé suivant les derniers critères recommandés par ELRA.
Les textes allemands-français ont été alignés à l'aide d'un programme développé par l'équipe Langue et Dialogue du LORIA à Nancy. Les fichiers textes comportant un balisage pour les paragraphes et les phrases ont été analysés par l'outil Tree Tagger développé à l'IMS de Stuttgart, et automatiquement convertis au format SGML standard de la TEI.
People who looked at this resource also viewed the following: