Persian 1984 corpus (Multext-East framework) 
Corpus 1984 en persan (Multext-East)
This corpus contains the Persian (Farsi) translation of a part of the novel “1984” (G. Orwell) annotated in the Multext-East framework (Multilingual Text Tools and Corpora for Eastern and Central European Languages). The aim of the Multext-East project was to develop standardized language resources.
The package comprises:
(i) the specifications for morphosyntactic encoding of Persian Language, based on the EAGLES/MULTEXT model and specific resources of MULTEXT-East,
(ii) the annotated Persian version of Orwell’s 1984 corpus.
The corpus contains extensive headers and markup for document structure, sentences, and various sub-sentence annotations in the XML-format following the TEI guidelines. Annotation includes POS (part-of-speech) and lemmas. The corpus contains approximately 100,000 words (6,604 sentences, 13,247 lemmas) and can easily be aligned with other corpora in the MULTEXT-East framework.
Ce corpus contient la traduction en persan (farsi) d’une partie du roman “1984” (G. Orwell) annoté dans le cadre du projet Multext-East (Outils et corpus de textes multilingues pour les langues d’Europe centrale et de l’est). L’objectif du projet Multext-East était de développer des ressources linguistiques standardisées.
L’ensemble fourni comprend:
(i) les spécifications pour le codage morpho-syntaxique de la langue persane, basées sur le modèle EAGLES/MULTEXT et les ressources spécifiques de MULTEXT-East,
(ii) la version annotée en persan du corpus 1984 d’Orwell.
Le corpus contient les en-têtes et les balises étendues pour la structure de documents, les phrases, et diverses annotations de sous-phrases au format XML selon les directives TEI. L’annotation inclut la partie du discours (POS) et les lemmes. Le corpus contient approximativement 100 000 mots (6 604 phrases, 13 247 lemmes) et peut être facilement aligné avec d’autres corpus du projet MULTEXT-East.
