Amharic-English bilingual corpus

View resource name in all available languages

Corpus bilingue amharique-anglais

ID:

ELRA-W0074

The Amharic-English bilingual corpus contains parallel text from legal and news domains in Amharic script, in transliterated form and in English. The size of the corpus is of 232,653 words in Amharic and 291,701 in English.

This parallel corpus contains documents from two domains, namely legal and news, in English and Amharic language. The two domains are separately processed. In addition, for Amharic language, documents were prepared using its own script which is different from Latin alphabet. For easy of use and processing, as well as normalization purposes, the Amharic documents are transliterated and the English documents are converted into lower case format. Furthermore, clean documents were prepared without considering the two domains separately.

Amharic is a Semitic language spoken in Ethiopia.

View resource description in all available languages

Le corpus bilingue amharique-anglais contient du texte parallèle pour les domaines juridiques et d’actualités en script amharique, au format translitéré, ainsi qu’en anglais. La taille du corpus est de 232,653 mots en amharique et 291,701 en anglais.

Ce corpus parallèle comprend des documents de deux domaines, le domaine juridique et le domaine d’actualités, en langues anglais et amharique. Les deux domaines sont traités séparéments. De plus, pour la langue amharique, les documents ont été préparés en utilisant leur propre script qui est différent de l’alphabet latin. Pour en faciliter l’usage et le traitement, ainsi que dans un objectif de normalisation, les documents amhariques sont translitérés et les documents anglais sont convertis en caractères minuscules. De plus, les documents nettoyés ont été préparé sans considérer les deux domaines séparément.

L’amharique est une langue sémitique parlée en Ethiopie.

You don’t have the permission to edit this resource.