Al-Hayat Arabic Corpus
View resource name in all available languages
Corpus arabe Al-Hayat
ID:
ELRA-W0030
The corpus was developed in the course of a research project at the University of Essex, in collaboration with the Open University.
The corpus contains Al-Hayat newspaper articles with value added for Language Engineering and Information Retrieval applications development purposes.
The data have been distributed into 7 subject-specific databases, thus following the Al-Hayat subject tags: General, Car, Computer, News, Economics, Science, and Sport.
Mark-up, numbers, special characters and punctuation have been removed. The size of the total file is 268 MB. The dataset contains 18,639,264 distinct tokens in 42,591 articles, organised in 7 domains.
View resource description in all available languages
Ce corpus a été développé dans le cadre d'un projet de recherche de l'Université d'Essex, en collaboration avec Open University.
Ce corpus est constitué d'articles extraits du journal Al-Hayat, qui pourront être utilisés pour le développement d'applications en ingénierie linguistique et pour l'extraction d'information.
Les données sont réparties dans 7 bases spécifiques, suivant les critères de répartition des sujets du journal Al-Hayat : rubrique Général, rubrique Automobile, rubrique Informatique, rubrique Actualités, rubrique Economie, rubrique Sciences, et rubrique Sport.
Tout balisage, les nombres, les caractères spéciaux et la ponctuation ont été supprimés. La taille totale du fichier est de 268 Mo. Il contient 18 639 264 unités lexicales, 42 591 articles, répartis dans 7 domaines différents.
People who looked at this resource also viewed the following: