NUM 5M Mongolian written corpus

View resource name in all available languages

Corpus NUM 5M de textes en mongol

ID:

ELRA-W0120

This is a corpus of Mongolian text mostly from domains like online or printed daily newspapers, literature, and laws.

The collected raw texts was reduced from 5 to 4.8 million words after cleaning. The cleaned corpus comprises:
- 144 texts from laws,
- 278 stories,
- 8 novelettes,
- 4 novels from literature;
- 597 news,
- 505 interviews,
- 302 reports,
- 578 essays,
- 469 stories,
- 1,258 editorials from newspaper.

Part of this corpus, about 2,800 sentences with 100,000 words, has been POS-tagged manually and stored in TEI format.

View resource description in all available languages

Il s’agit d’un corpus de textes en mongol provenant principalement de quotidiens en ligne ou papier, de livres et de textes juridiques.

La taille du corpus a été réduite de 5 millions à 4,8 millions de mots après nettoyage des textes bruts. Le corpus nettoyé contient :
- 144 textes juridiques
- 278 histoires
- 8 nouvelles
- 4 romans littéraires
- 597 articles journalistiques
- 505 interviews
- 302 rapports
- 578 essais
- 469 histoires
- 1258 éditoriaux de journaux

Une partie du corpus, environ 2800 phrases (100000 mots), a été annotée manuellement en partie du discours et standardisée au format TEI.

You don’t have the permission to edit this resource.