BioLexicon
ID:
ELRA-T0373
BioLexicon is a large-scale English terminological resource which has been developed to address the needs emerging in text mining efforts in the biomedical domain. It contains information on:
- terminological nouns, including nominalised verbs and proper names (e.g., gene names)
- terminological adjectives
- terminological adverbs
- terminological verbs
- general English words frequently used in the biology domain
Existing information on terms was integrated, augmented, complemented and linked, through processing of massive amounts of biomedical text, to yield inter alia over 2.2M lexical entries (over 3.3M semantic relations), and information on over 1.8M variants and on over 2M synonymy relations. Moreover, extensive information is provided on how verbs and nominalised verbs in the domain behave at both syntactic and semantic levels, supporting thus applications aiming at discovery of relations and events involving biological entities in text. It contains domain specific verbs (658), includes both automatically-extracted syntactic subcategorization frames (1710), as well as semantic event frames (850) that are based on corpus annotation by domain experts.
This comprehensive coverage of biological terms makes BioLexicon a unique linguistic resource within the domain. It is primarily intended to support text mining and information retrieval in the biomedical domain, however its standards-based structure and rich content make it a valuable resource for many other kinds of application.
In the first stage of the construction of BioLexicon, potential terms were pooled together from several resources representing selected semantic types of entities, such as genes and proteins, chemical compounds, species, enzymes, as well as various entities found in biological ontologies.
Terms were then organized into sets of synonymous variants and annotated with a number of static features which improve the resolution of term ambiguity. Once populated with terms from existing repositories, BioLexicon was augmented with term variants extracted from the scientific literature and complemented with manually selected lexical items, such as biologically relevant verbs and multiword token expressions. Linguistic information was added to entries, on the basis of corpus processing, including syntactic subcategorisation information for verbs and nominalised verbs, and semantic event frame information. Last but not least, a subset of terms in BioLexicon was linked to Gene Regulation Ontology concepts to support the identification of gene regulatory events.
The schema of BioLexicon preserves term annotations and metadata derived from the original data resources. At the same time, it provides consistent lexical representation for terms of different semantic types. BioLexicon thus offers the clear advantage of a uniform lexical format for a wide coverage of biological terminology, with accompanying linguistic information.
BioLexicon is available in a relational database format (MySQL dump format) and it adheres to the EAGLES/ISO standards for lexical resources.
View resource description in all available languages
BioLexicon est une ressource terminologique en anglais de grande envergure développée dans l’objectif de répondre aux besoins grandissants des efforts de text mining dans le domaine biomédical. Elle comprend des informations concernant :
- les noms terminologiques, y compris les verbes nominalisés et les noms propres (par exemple, les noms des gènes)
- les adjectifs terminologiques
- les adverbes terminologiques
- les verbes terminologiques
- des mots de l’anglais général fréquemment utilisés dans le domaine de la biologie
Les informations sur les termes déjà existantes ont été intégrées, augmentées, completées et mises en relation, grâce au traitement d’un large nombre de textes du domaine biomédical, pour finalement produire entre autres plus de 2,2 millions d’entrées lexicales (plus de 3,3 millions de relations sémantiques), ainsi que des informations sur plus de 1,8 millions de variantes et plus de 2 millions de relations synonymiques. De plus, des informations très complètes sont fournies sur la manière dont les verbes (notamment les verbes nominalisés dans le domaine) se comportent aux niveaux à la fois syntaxique et sémantique, permettant ainsi son utilisation dans des applications visant à mettre en évidence des relations et des événements impliquant des entités biologiques dans le texte. BioLexicon contient des verbes spécifiques au domaine (658), inclut des cadres de sous-catégorisation syntaxique extraits automatiquement (1710), ainsi que des cadres des situations sémantiques (850), qui sont basés sur l’annotation de corpus par des experts du domaine.
Cette couverture très complète des termes de biologie fait de BioLexicon une ressource linguistique unique dans ce domaine. Elle a pour but premier d’aider les travaux de text mining et de recherche d’information dans le domaine biomédical, même si sa structure basée sur des standards et un contenu riche en font une ressource de qualité pour beaucoup d’autres types d’applications.
Dans la première phase de construction de BioLexicon, les termes potentiels ont été rassemblés à partir de différentes ressources représentant des types sémantiques sélectionnés pour traiter différentes entités telles que les gènes et les protéines, les composants chimiques, les espèces, les enzymes, ainsi que diverses entités identifiées dans les ontologies relatives à la biologie.
Les termes ont été alors organisés en ensembles de variantes synonymiques et annotés avec un certain nombre de traits statiques qui améliorent la résolution de l’ambiguïté du terme. Une fois alimenté de termes provenant d’inventaires existants, des variantes des termes extraits de littérature scientifique et complétés par des éléments lexicaux sélectionnés manuellement ont été ajoutés dans BioLexicon (tels que des verbes et des expressions de mot composés pertinents en biologie). Des informations linquistiques ont été ajoutées aux entrées, sur la base du traitement de corpus, y compris des informations sur la sous-catégorisation syntaxique des verbes et les verbes nominalisés, ainsi que des informations sur les cadres d’événements sémantiques. Enfin, un sous-ensemble de termes de BioLexicon sont reliés aux concepts d’ontologie en régulation génétique afin d’assurer l’identification d’événements dans le domaine de la régulation génétique.
Le schéma de BioLexicon conserve les annotations des termes et les métadonnées dérivées des données d’origine. Dans un même temps, il propose une représentation lexicale cohérente des termes de types sémantiques différents. Ainsi, BioLexicon présente l’avantage évident d’un format lexical uniforme pour une large couverture de la terminologie relative à la biologie, accompagné d’informations linguistiques.
BioLexicon est disponible sous la forme d’une base de données relationnelle (format dump MySQL). Il adhère également aux standards EAGLES/ISO relatifs aux ressources lexicales.
People who looked at this resource also viewed the following: