PAROLE English lexicon

View resource name in all available languages

Lexique PAROLE de l'anglais

ID:

ELRA-L0043

The English PAROLE Lexicon has been compiled by two partners, Sheffield University and the Corpus Linguistic Group (CLG) at Birmingham University.

The Lexicon was compiled from existing resources: CRL-LKB and the COBUILD dictionary database. Both have restricted availability and contain extensive syntactic, semantic and morphological information.

The lexicon contains 22,000 morphological units, of which 12998 are common nouns, 40 proper nouns 4195 verbs, 3208 adjectives, 606 adverbs, 71 adpositions, 2 articles, 21 conjunctions, 25 determiners, 53 pronouns.

The English PAROLE lexicon comprises the following information:

- morphological encoding for all nouns, verbs, adverbs, adjectives and functions words;

- syntactic encoding of all verbs, nouns, adjectives and adverbs.

The organizational procedure was as follows:

1. Selection: Lemmata were mostly selected on the basis of frequency from the COBUILD corpus. Most proper nouns were deselected and some verbs were added because of the decision to encode deverbal nominalisations and compound information.
2. Coverage: the headword list was checked against the resources to make sure there was adequate coverage of syntactic and morphological information.
3. Composition: the nominal lemmata were checked for derivations and compounds. These were extracted and analyzed into their constituent parts and compounds were checked for lexicalisation. Components were flagged with their base forms and grammatical class.
4. Conversion: Morphosyntactic information was either directly transferred from existing resources or, in the case of inflectional information and subcategorisation patterns, programs were written to extract information and convert it into the PAROLE format.
5. Cross-reference: all components contained in nominal derivations and compounds were cross-referenced with their base PoS.

Integrity checks were made and the lexicon was parsed using nsgmls.

View resource description in all available languages

Le lexique PAROLE anglais a été conçu par deux partenaires, l'université de Sheffield et le CLG (Corpus Linguistic Group) de l'université de Birmingham.

Il a été créé à partir de ressources existantes : les dictionnaires électroniques CRL-LKB et COBUILD, qui ont tous deux un accès limité, et qui contiennent des informations sémantiques, syntaxiques et morphologiques détaillées.

Ce lexique comprend 22000 entrées : 12998 noms communs, 40 noms propres, 4195 verbes, 3208 adjectifs, 606 adverbes, 71 pré- et post-positions, 2 articles, 21 conjonctions, 25 déterminants, et 53 pronoms.

Les informations suivantes sont disponibles dans le lexique PAROLE anglais :

* le codage morphologique de tous les noms, verbes, adverbes, adjectifs et mots de fonction.
* Le codage syntaxique de tous les verbes, noms, adjectifs et adverbes.

La procédure était la suivante :

Sélection : les lemmes étaient sélectionnés en fonction de leurs occurrences dans le corpus COBUILD. La plupart des noms propres ont été désélectionnés, et quelques verbes ajoutés suite à la décision que nous avons prise de coder les déverbaux et les composés.

Couverture : la liste des entrées (ou mots-têtes) a été vérifiée en parallèle à celle des ressources, afin de s'assurer qu'il y avait une couverture appropriée des informations syntaxiques et morphologiques.

Composition : les noms ont été vérifiés, avec leurs dérivations et composés. Ceux-ci étaient extraits et leurs constituants analysés, et les composés l'étaient te pour leur lexicalisation, les composants marqués, avec leur radical et la catégorie grammaticale.

Conversion : les renseignements morpho-syntaxiques étaient transférés directement depuis les ressources existantes, ou bien on écrivait des programmes pour extraire les informations et les convertir au format PAROLE, pour les flexions et la catégorisation.

Référence croisée : tous les composants des formes nominales et des composés font référence à leur partie du discours d'origine.

Après contrôle, le lexique a été analysé avec nsgmls.

You don’t have the permission to edit this resource.