CELEX Dutch lexical database - Syntax Subset

77 Last view: 2026-06-25

CELEX Dutch lexical database - Syntax Subset

View resource name in all available languages

CELEX - Base de données lexicale du hollandais - sous-ensemble "syntaxe"

http://catalog.elra.info/product_info.php?products_id=444

ID:

ELRA-L0029_06

The Dutch CELEX data is derived from R.H. Baayen, R. Piepenbrock & L. Gulikers, The CELEX Lexical Database (CD-ROM), Release 2, Dutch Version 3.1, Linguistic Data Consortium, University of Pennsylvania, Philadelphia, PA, 1995.
Apart from orthographic features, the CELEX database comprises representations of the phonological, morphological, syntactic and frequency properties of lemmata. For the Dutch data, frequencies have been disambiguated on the basis of the 42.4m Dutch Instituut voor Nederlandse Lexicologie text corpora.
To make for greater compatibility with other operating systems, the databases have not been tailored to fit any particular database management program. Instead, the information is presented in a series of plain ASCII files, which can be queried with tools such as AWK and ICON. Unique identity numbers allow the linking of information from different files.This database can be divided into different subsets:
· orthography: with or without diacritics, with or without word division positions, alternative spellings, number of letters/syllables;
· phonology: phonetic transcriptions with syllable boundaries or primary and secondary stress markers, consonant-vowel patterns, number of phonemes/syllables, alternative pronunciations, frequency per phonetic syllable within words;
· morphology: division into stems and affixes, flat or hierarchical representations, stems and their inflections;
· syntax: word class, subcategorisations per word class;
· frequency of the entries: disambiguated for homographic lemmata.

View resource description in all available languages

Les données en hollandais de CELEX sont extraites de la base de données lexicale CELEX (CD-ROM) de R.H. Baayen, R. Piepenbrock & L. Gulikers, seconde édition, version hollandaise 3.1, Linguistic Data Consortium, Université de Pennsylvanie, Philadelphie, PA, 1995.

En-dehors des traits orthographiques, la base de données CELEX comprend des représentations des propriétés phonologiques, morphologiques, syntaxiques et fréquentielles des lemmes. En ce qui concerne les données du hollandais, les fréquences ont été désambigüisées sur la base du corpus de textes de l'Instituut voor Nederlandse Lexicologie.

Afin de permettre une meilleure compatibilité avec d'autres systèmes, les bases ne sont adaptées à aucun système de gestion de base de données spécifique. Au contraire, l'information est présentée dans une série de fichiers textes ASCII, pouvant être interrogés par des outils tels que AWK et ICON. Des numéros d'identification uniques permettent d'accéder et d'établir les relations entre les informations provenant de différents fichiers.

Cette base de données peut être divisée en cinq sous-ensembles selon les niveaux d'informations suivants :

· orthographe: avec ou sans diacritiques, avec ou sans la position de la coupure de mot (césure), option d'orthographe, nombre de lettres/syllabes ;
· phonologie : transcriptions phonétiques avec segmentation des syllabes ou balisage des accents primaires ou secondaires, schémas consonne-voyelle, nombre de phonèmes/syllabes, options de prononciation, fréquence par syllabe phonétique dans les mots ;
· morphologie : division en radical et affixes, représentations à plat ou hiérarchisées, radicaux et leurs flexions ;
· syntaxe : classe de mot, sous-catégorisation par classe de mot ;
· fréquence des entrées : désambigüisation des lemmes homographes.

You don’t have the permission to edit this resource.

DistributionAvailability

Available - Restricted Use

Start date: 15/09/1997

Licence

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Academic

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Academic

Contact Person

Mapelli Valérie

text

Lexical Conceptual Resource General Information

Lexicon

Monolingual text lexicalConceptualResourceLanguages

Dutch

Variety: Flemish (Type: Dialect) (2 Gb)

Linguality

Linguality type: Monolingual

Size

no size available

Resource Creation

Funding Project

CELEX

Funding Type: National Funds

Metadata

Created: 12/05/2005

Version

Version: 1.0

Last Updated: 05/10/2005

People who looked at this resource also viewed the following:

Resources from the same project