Training and test data for Arabizi detection and transliteration
View resource name in all available languages
Données de test et d’entraînement pour la détection et la translittération de l’arabizi
ID:
ELRA-W0126
The dataset is composed of two distinct resources:
1) A collection of mixed English and Arabizi text intended to train and test a system for the automatic detection of code-switching in mixed English and Arabizi texts. The training part of the corpus contains: 522 tweets composed of 5,207 tokens (including 3,307 English tokens, 1,203 Arabizi tokens and 697 other tokens). Tokens are manually labelled as English (“e”), Arabizi (“a”), or other (“o”). The testing part contains: 475 tweets containing 3,533 tokens (803 English tokens; 1,965 Arabizi tokens; and 765 other tokens).
2) A set of 3,452 Arabizi tokens manually transliterated into Arabic, and a set of 127 Arabizi tweets containing 1,385 word also manually transliterated into Arabic. This dataset was intended to train and test a system that performs Arabizi to Arabic transliteration.
View resource description in all available languages
Ces données sont composées de deux ressources distinctes :
1) une collection de texte anglais et arabizi mélangés dans le but d’entraîner et de tester un système de détection automatique du changement de langue dans des textes contenant de l’anglais et de l’arabizi. Les données d’entraînement contiennent 522 tweets (5207 tokens dont 33307 tokens en anglais, 1203 tokens en arabizi et 697 tokens en d’autres langues). Les tokens ont été labelisés manuellement : anglais (« e »), Arabizi (« a ») ou autres (« o »). Les données de test contiennent 475 tweets, soit 3.533 tokens (803 tokens anglais, 1965 tokens arabizi et 765 tokens en d’autres langues).
2) un ensemble de 3452 tokens en arabizi manuellement translittérés en arabe, et un ensemble de 127 tweets en arabizi (1385 mots) également translittérés en arabe, dans le but d’entrainer et de tester un système de translittération de l’arabizi vers l’arabe.
People who looked at this resource also viewed the following: