Arboretum treebank

View resource name in all available languages

Treebank Arboretum

ID:

ELRA-W0084

The Arboretum treebank is a morphologically and syntactically annotated repository of Danish sentences, taken from Korpus 90 and Korpus 2000, both compiled by the Society for Danish Language and Literature (http://ordnet.dk/korpusdk/fakta), and containing samples of written Danish from the 90'ies and from around the year 2000, respectively. The treebank consists of about 425,000 tokens. There are ca. 22,260 sentences/utterances containing 3 or more tokens.

In a first pass, all material was tokenized and tagged with the DanGram parser, using hand-written Constraint Grammar rules. In a next stage, the parser's dependency grammar and constituent conversion was applied to produce full syntactic tree structures. The automatic annotation was then revised both at the morphosyntactic and the structural levels, with iterative improvements made to the parser at the same time.

Arboretum provides named entity categories for all proper nouns. It also contains subclass categorisation for the pronoun and adverb word classes, facilitating conversion to different descriptive traditions. In addition, the dependency version contains structural markers concerning coordination and clause boundaries, as well as some morphological information concerning compounding.

The final version of the treebank consists of two independent versions, constituent trees and dependency trees, and is distributed in the following versions:
1. Native dependency format (Constraint Grammar format)
2. Dependency annotation converted to MALT xml format
3. Native constituent tree format (Cross-language VISL standard)
4. Constituent format converted to TIGER xml

View resource description in all available languages

Le treebank Arboretum est un corpus de phrases en danois annoté aux niveaux morphologique et syntaxique. Les phrases sont extraites de Korpus 90 et Korpus 2000, deux corpus construits par la Société pour la Langue et la Littérature Danoise (http://ordnet.dk/korpus.dk/fakta) comprenant respectivement des échantillons du danois écrit des années 90 et des années 2000. Le treebank comprend environ 425,000 mots pour environ 22,260 phrases de 3 mots ou plus.

Dans un premier temps le corpus a été tokenisé et annoté avec l’analyseur syntaxique DanGram, sur la base des règles d’une Grammaire de Contraintes développées manuellement. Dans un deuxième temps, la grammaire de dépendances de l’analyseur syntaxique et la conversion de constituants ont permis la production d’arbres syntaxiques complets. L’annotation morphosyntaxique et l’annotation structurelle ont été révisées, ce qui a donné lieu à l’amélioration itérative de l’analyseur syntaxique.

Arboretum précise le type d’entité nommée pour tous les noms propres. Les sous-classes des pronoms et des adverbes sont aussi précisées, ce qui simplifie la conversion à d’autres traditions descriptives. En outre, l’annotation des dépendances contient des marqueurs structurels concernant les frontières de la coordination et de la subordination, ainsi que des informations morphologiques concernant la composition.

La version finale du treebank comprend deux versions indépendantes : des arbres de constituants et des arbres de dépendances. 4 versions sont fournies:
1. Format de dépendances natif (format Grammaire de Contraintes)
2. Annotation des dépendances convertie au format MALT xml
3. Format d’arbre de constituants natif (standard VISL interlinguistique)
4. Format de constituants converti au format TIGER xml

You don’t have the permission to edit this resource.