Linguatools Webcrawl Parallel Corpus German-English 2015

View resource name in all available languages

Corpus parallèle allemand-anglais Linguatools de données crawlées du web 2015

ID:

ELRA-W0091

The corpus consists of 10 million German-English parallel sentences that were crawled from the internet between 10/2013 and 04/2015. The sentences were gathered from over 112,000 different hosts. An elaborate multi-step quality filtering was applied, including language identification filter, machine translation filter, grammaticality filter, etc. to get as clean data as possible. There are no duplicate sentence pairs, and there is no overlap with existing publicly available corpora like europarl, DGT-TM, etc. Web pages have been automatically categorized for subject area. The corpus is available in TMX and Moses format (encoding UTF-8).

View resource description in all available languages

Ce corpus comprend 10 millions de phrases parallèles allemand-anglais qui ont été crawlées depuis l’internet entre octobre 2013 et avril 2015. Les phrases ont été rassemblées à partir de plus de 112,000 adresses différentes. Un filtrage de qualité en plusieurs étapes a été réalisé, incluant un filtrage pour l’identification de la langue, la traduction automatique, la grammaticalité, etc. afin d’obtenir des données les plus propres possible. Il n’y a pas de doublons dans les paires de phrases, et aucun chevauchement par rapport à des corpus publiquement disponibles comme europarl, DGT-TM, etc. Les pages web ont été catégorisées automatiquement par thème. Les corpus est disponible aux formats TMX et Moses (codage UTF-8).

You don’t have the permission to edit this resource.