Arabic dictionary of inflected words with recognition of agglutinated clitics and inflection system

View resource name in all available languages

Dictionnaire arabe de mots fléchis avec reconnaissance de clitiques agglutinés et système de flexions

ID:

ELRA-L0099

This dictionary consists of 6 million inflected forms, fully vowelized, generated in compliance with the grammatical rules of Arabic and tagged with grammatical information which includes POS and grammatical features, including number, gender, case, definiteness, tense, mood and compatibility with clitic agglutination.

It is accompanied by a grammatical resource that recognizes hundreds of millions of valid agglutinated words, i.e. words consisting of one of the forms in the dictionary preceded and/or followed by clitics (conjunctions, prepositions, articles, pronouns) in compliance with the grammatical rules of Arabic.

In order to be able to update the full-form dictionary, a dictionary of 65 000 lemmas and the data required to inflect them and regenerate the full-form dictionary are also provided. This allows adapting the dictionary to specific applications by deleting and/or adding entries.

The resource as it stands covers more than 98% of the forms found in any sort of literature, newspaper articles...; the remaining 2% include proper names, which can be relevant.

The data is formatted in conformity with the data formats of Unitex/GramLab, an open source corpus processing system for language processing. These data formats are publicly documented. The data can either be converted into user-specific formats, or be used directly with Unitex/GramLab.

This dictionary is also available without recognition of agglutinated clitics and without inflection system in the ELRA Catalogue under reference ELRA-L0098.

Authors: Alexis NEME et Eric LAPORTE

View resource description in all available languages

Le dictionnaire arabe de mots fléchis avec reconnaissance de clitiques agglutinés et système de flexions comprend une liste de 6 millions de formes fléchies, entièrement voyellisées, générées en conformité avec les régles grammaticales de l’arabe et étiquetées avec des informations grammaticales comprenant la partie du discours et les attributs grammaticaux, dont le nombre, le genre, le cas, la définitude, le temps, le mode et la compatibilité avec l’agglutination de clitiques.

Il est accompagné d’une ressource grammaticale qui permet de reconnaître des centaines de millions de mots valides agglutinés, c’est-à-dire des mots comportant l’une des formes du dictionnaire précédée et/ou suivie de clitiques (conjonctions, prépositions, articles, pronoms), conformément aux régles grammaticales de l’arabe.

Afin de permettre la mise à jour du dictionnaire, un dictionnaire de 65 000 lemmes est également fourni ainsi que les données requises pour permettre de produire les flexions et regénérer le dictionnaire, ce qui permet d’adapter le dictionnaire à des applications spécifiques en supprimant et/ou ajoutant des entrées.

La ressource couvre plus de 98% des formes trouvées dans tout type de littérature, articles de journaux, etc. Les 2% restants incluent des noms propres ce qui peut s’avérer pertinent pour certains traitements.

Les données sont formattées aux formats Unitex/GramLab, un système de traitement de corpus open source. Ces formats sont documentés publiquement. Les données peuvent être soit utilisées directement avec Unitex/GramLab ou converties dans des formats spécifiques à l’utilisateur.

Ce dictionnaire est également disponible sans reconnaissance de clitiques agglutinés et sans système de flexions dans le Catalogue ELRA sous la référence ELRA-L0098.

Auteurs: Alexis NEME et Eric LAPORTE

You don’t have the permission to edit this resource.