Al-Hayat Arabic Corpus

192 Last view: 2026-01-05

Al-Hayat Arabic Corpus

View resource name in all available languages

Corpus arabe Al-Hayat

http://catalog.elra.info/product_info.php?products_id=632

ID:

ELRA-W0030

The corpus was developed in the course of a research project at the University of Essex, in collaboration with the Open University.
The corpus contains Al-Hayat newspaper articles with value added for Language Engineering and Information Retrieval applications development purposes.
The data have been distributed into 7 subject-specific databases, thus following the Al-Hayat subject tags: General, Car, Computer, News, Economics, Science, and Sport.
Mark-up, numbers, special characters and punctuation have been removed. The size of the total file is 268 MB. The dataset contains 18,639,264 distinct tokens in 42,591 articles, organised in 7 domains.

View resource description in all available languages

Ce corpus a été développé dans le cadre d'un projet de recherche de l'Université d'Essex, en collaboration avec Open University.
Ce corpus est constitué d'articles extraits du journal Al-Hayat, qui pourront être utilisés pour le développement d'applications en ingénierie linguistique et pour l'extraction d'information.
Les données sont réparties dans 7 bases spécifiques, suivant les critères de répartition des sujets du journal Al-Hayat : rubrique Général, rubrique Automobile, rubrique Informatique, rubrique Actualités, rubrique Economie, rubrique Sciences, et rubrique Sport.
Tout balisage, les nombres, les caractères spéciaux et la ponctuation ont été supprimés. La taille totale du fichier est de 268 Mo. Il contient 18 639 264 unités lexicales, 42 591 articles, répartis dans 7 domaines différents.

You don’t have the permission to edit this resource.

DistributionAvailability

Available - Restricted Use

Start date: 15/01/2002

Licence

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Academic

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Academic

Contact Person

Mapelli Valérie

text

Monolingual text corpusLanguages

Arabic

Linguality

Linguality type: Monolingual

Size

no size available

Metadata

Created: 12/05/2005

Version

Version: 1.0

Last Updated: 19/11/2008

People who looked at this resource also viewed the following: