NUM 5M Mongolian written corpus
View resource name in all available languages
Corpus NUM 5M de textes en mongol
ID:
ELRA-W0120
This is a corpus of Mongolian text mostly from domains like online or printed daily newspapers, literature, and laws.
The collected raw texts was reduced from 5 to 4.8 million words after cleaning. The cleaned corpus comprises:
- 144 texts from laws,
- 278 stories,
- 8 novelettes,
- 4 novels from literature;
- 597 news,
- 505 interviews,
- 302 reports,
- 578 essays,
- 469 stories,
- 1,258 editorials from newspaper.
Part of this corpus, about 2,800 sentences with 100,000 words, has been POS-tagged manually and stored in TEI format.
View resource description in all available languages
Il s’agit d’un corpus de textes en mongol provenant principalement de quotidiens en ligne ou papier, de livres et de textes juridiques.
La taille du corpus a été réduite de 5 millions à 4,8 millions de mots après nettoyage des textes bruts. Le corpus nettoyé contient :
- 144 textes juridiques
- 278 histoires
- 8 nouvelles
- 4 romans littéraires
- 597 articles journalistiques
- 505 interviews
- 302 rapports
- 578 essais
- 469 histoires
- 1258 éditoriaux de journaux
Une partie du corpus, environ 2800 phrases (100000 mots), a été annotée manuellement en partie du discours et standardisée au format TEI.
People who looked at this resource also viewed the following: