ACL RD-TEC: A Reference Dataset for Terminology Extraction and Classification Research in Computational Linguistics

View resource name in all available languages

ACL RD-TEC: un ensemble de données de référence pour la recherche en extraction et classification de terminologie en ingénierie linguistique

ID:

ELRA-T0375

Automatic Term Recognition (ATR) is a research task that deals with the identification of domain-specific terms. Terms, in simple words, are textual realization of significant concepts in an expertise domain. Additionally, domain-specific terms may be classified into a number of categories, in which each category represents a significant concept. A term classification task is often defined on top of an ATR procedure to perform such categorization. For instance, in the biomedical domain, terms can be classified as drugs, proteins, and genes.

This is a reference dataset for terminology extraction and classification research in computational linguistics. It is a set of manually annotated terms in English language that are extracted from the ACL Anthology Reference Corpus (ACL ARC). The ACL ARC is a canonicalised and frozen subset of scientific publications in the domain of Human Language Technologies (HLT). It consists of 10,921 articles from 1965 to 2006.

The dataset, called ACL RD-TEC, is comprised of more than 69,000 candidate terms that are manually annotated as valid and invalid terms. Furthermore, valid terms are classified as technology and non-technology terms. Technology terms refer to a method, process, or in general a technological concept in the domain of HLT, e.g. machine translation, word sense disambiguation, and language modelling. On the other hand, non-technology terms refer to important concepts other than technological; examples of such terms in the domain of HLT are multilingual lexicon, corpora, word sense, and language model. The dataset is created to serve as a gold standard for the comparison of the algorithms of term recognition and classification.

View resource description in all available languages

La reconnaissance automatique de termes est une tâche de recherche qui traite de l’identification de termes de domaines spécifiques. Ces termes, pour l’exprimer simplement, sont la reproduction textuelle de concepts importants dans un domaine d’expertise. De plus, les termes de domaines spécifiques peuvent être classés en différentes catégories, chaque catégorie représentant un concept important. La tâche de classification de terme est souvent définie au bout d’une procédure de reconnaissance automatique de termes pour effectuer la catégorisation. Par exemple, dans le domaine biomédicale, des termes peuvent être classés en médicaments, protéines et gènes.

Cette ressource est un ensemble de données de référence pour la recherche en extraction et classification de terminologie en ingénierie linguistique. C’est un ensemble de termes en anglais annotés manuellement qui sont extraits du corpus de référence d’anthologie d’ACL (ACL ARC). ACL ARC est un sous-ensemble standardisé et figé de publications scientifiques dans le domaine des technologies de la langue. It consists of 10,921 articles from 1965 to 2006.

L’ensemble de données, appelé ACL RD-TEC, est constitué de plus de 69,000 candidats-termes qui sont annotés manuellement en tant que termes valides ou non valides. De plus, les termes valides sont classés en tant que termes de la technologie ou non. Les termes de la technologie se rapportent à une méthode, un processus, ou en générale un concept technologique du domaine des technologies de la langue, par exemple traduction automatique, désambigüisation du sens des mots, et modélisation du langage. D’autre part, les termes non technologiques se rapportent à des concepts importants autres que technologiques; des exemples de tells termes dans le domaine des technologies de la langues sont les lexiques multilingues, les corpus, le sens des mots et les modèles de langage. L’ensemble des données a été créé afin de servir de gold standard pour la comparaison des algorithmes de reconnaissance et classification de termes.

You don’t have the permission to edit this resource.