Dutch PAROLE lexicon

View resource name in all available languages

Lexique PAROLE hollandais

ID:

ELRA-L0031

The entry list of the lexicon consists of about 20,200 entries distributed over 13 parts of speech (POS). The entries have been described along the dimensions of morphosyntax and syntax. Morphosyntactic information consists of various lexical properties, like gender, number, case, person, inflection, etc. Syntactic descriptions consist of typical complementation patterns associated with the various lemmata.

The composition of the entry list of the lexicon is based on 3 corpora from the Instituut voor Nederlandse Lexicologie (INL) and 2 lexica. The corpora contain a total of about 54 million words and have been automatically annotated for part-of-speech and lemma. The lexica contain morphosyntactic information of various kinds. For verbs, nouns, adjectives and adverbs, lemmata that were covered by at least 2 corpora and the 2 lexica were selected on the basis of cumulative frequency, coverage (distribution over sources) and inflected forms. For the smaller parts of speech, these selection requirements appeared to be too strict. Entry selection for these parts of speech was based on ranked frequency.

The entries, uniquely defined by the combination of part of speech (e.g. noun) and subtype (e.g. common vs. proper noun), are provided with morphosyntactic information according to the Dutch set of PAROLE categories and features, and, where available, with syntactic information. Morphosyntactic information is automatically extracted from the INL lexica. Syntactic data have been collected manually, by inspection of corpus data and - where necessary - consultation of reference works. The corpus consulted consists of the newspaper component and the varied component of the 38 Million Words Corpus 1996.

Word forms in the Dutch PAROLE lexicon are not inflected according to general paradigms, but are related to their lemma by a set of string procedures. These procedures are not unique. They can be shared by many other word forms. An example is suffixation with -e for adjectives, which produces "goede"/good from "goed". Inflected forms can be derived directly by applying the string procedures to the lemma they are connected with.

The lexicon is set up as an SGML file (over 30 MB of plain ASCII). Its contents have been encoded in a distributed manner: all formative entities (like lemmata, syntactic phrases, feature bundles) are SGML entities, related by a pointer mechanism to other entities.

The lexicon contains the following categories : adjectives (3,298 entries), adpositions (80 entries), adverbs (554 entries), articles (3 entries), conjunctions (70 entries), determiners (59 entries), interjections (235 entries), nouns (12,279 entries), numerals (77 entries), pronouns (85 entries), residuals (186 entries), unique (1 entry), verb (3,274 entries).

More info on the Parole project: http://www.elda.org/catalogue/en/text/doc/parole.html

View resource description in all available languages

Le lexique comprend environ 20 200 entrées distribuées sur 13 étiquettes " parties du discours ". Les entrées sont décrites avec des informations morpho-syntaxiques et syntaxiques. Les informations morpho-syntaxiques contiennent de nombreuses propriétés lexicales, telles que genre, nombre, cas, personne, flexion, etc. Les descriptions syntaxiques contiennent des modèles de compléments types associés à de nombreux lemmes.

La composition des entrées du lexique est basée sur 3 corpus de l'Instituut voor Nederlandse Lexicologie (INL) et de 2 lexiques. Les corpus totalisent environ 54 millions de mots et les parties du discours et les lemmes ont été annotés automatiquement. Le lexique contient des informations morpho-syntaxiques de toutes sortes. Pour les verbes, les noms, les adjectifs et les adverbes, les lemmes qui étaient couverts par au moins 2 corpus et 2 lexiques, ont été sélectionnés d'après un cumul des fréquences, la couverture (distribution sur les sources) et les formes fléchies. Pour les parties du discours plus petites, ces besoins de sélection se sont avérés trop stricts. Ainsi, la sélection sur ces parties du discours s'est basée sur un classement des fréquences.


Les entrées, définies uniquement selon la combinaison de la partie du discours (par ex. le nom) et le sous-type (par ex. nom commun par opposition à nom propre), sont fournies avec des informations morpho-syntaxiques établies d'après les catégories et attributs de l'ensemble PAROLE hollandais, et, quand cela était possible, avec des informations syntaxiques. Les informations morpho-syntaxiques ont été extraites automatiquement des lexiques de l'INL. Les données syntaxiques ont été collectées manuellement, en inspectant les données du corpus et, si nécessaire, en consultant d'autres travaux de référence. Le corpus consulté est composé des données de journaux et de données d'origines diverses provenant du corpus de 38 millions de mots de 1996.


Le lexique se présente sous la forme d'un fichier SGML (plus de 30 MB de texte ASCII). Le contenu du fichier a été codé de manière distributive : toutes les entités "formatrices" (lemmes, phrases syntaxiques, ensembles de traits) sont des entités SGML reliées à d'autres entités par un mécanisme de pointeur.

Le lexique contient les catégories suivantes : adjectifs (3 298 entrées), pré- et post-positions (80 entrées), adverbes (554 entrées), articles (3 entrées), conjonctions (70 entrées), déterminants (59 entrées), interjections (235 entrées), noms (12 279 entrées), numéraux (77 entrées), pronoms (85 entrées), catégorie résiduelle (186 entrées), catégorie unique (1 entrée), verbes (3 274 entrées).

Plus d'informations sur le projet Parole: http://www.elda.org/catalogue/en/text/doc/parole.html

You don’t have the permission to edit this resource.