KORLEX – Croatian Lexicon
View resource name in all available languages
Lexique croate KORLEX
ID:
ELRA-L0065
This lexical resource was developed as part of the bilingual lexicon for English-Croatian built for the following project: http://www.rjecnik.com.
The lexicon data is compiled with the objective of covering the majority of text circulating in everyday use, such as in the news (e.g., newswire articles), in business, technological documentation, legal documentation, and politics. The words that are primarily used in literary and religious contexts, and which are not part of every-day usage, are generally not included in the lexicon.
The KORLEX-Croatian Lexicon provides a list of 118,252 Croatian lemmas, i.e., words in canonical form, annotated with part-of-speech (POS) tag and lexical features. Among these 118,252 entries, there are 52,450 nouns, 8,985 adverbs, 14,937 verbs and 41,161 adjectives. Remaining entries are pronouns, determiners, prepositions/postpositions, conjunctions and numerals.
The resource is a flat textual file in which each textual line contains information about one lemma. The format of a line can be captured with the following Perl regular expression:
/^(.*\S)\t+(:\w+)(.*)$/;
where $1 is lemma, $2 is POS tag, and $3 is a concatenated list of features. For example in:
automobil :nn:m
the lemma is "automobil", the POS tag is ":nn" and the lemma is annotated with one feature ":m".
A lemma may contain the hash sign (#), in which case it denotes a frequently misspelled form. For example, in:
mijesec#mjesec :nn:m:x
"mijesec" is an incorrect form, followed with a correct form "mjesec".
Additionally, the incorrect forms are marked with the feature ":x".
The resource is encoded using ISO-8859-2 encoding, and sorted according to the standard Croatian lexicographic order.
View resource description in all available languages
Cette ressource lexicale a été développée pour la constitution d’un lexique bilingue anglais-croate dans le cadre du projet suivant : http://www.rjecnik.com.
Les données du lexique ont été compilées avec pour but de couvrir la majorité des textes utilisés au quotidien, tels que dans les actualités (par exemple, des articles de journaux), les affaires, les documentations technologiques, juridiques et politiques. Les mots utilisés principalement dans des contextes littéraires et religieux, et qui ne font pas partie de l’usage quotidien, sont généralement exclus du lexique.
Le lexique croate KORLEX propose une liste de 118 252 lemmes du croate, c’est-à-dire des mots sous leur forme canonique, annotés avec des étiquettes indiquant la partie du discours (POS) et d’autres informations lexicales. Parmi ces 118 252 entrées, on peut compter 52 450 noms, 8 985 adverbes, 14 937 verbes et 41 161 adjectifs. Les entrées restantes sont constituées de pronoms, déterminants, prépositions/postpositions, conjonctions et numéraux.
La ressource est présentée dans un fichier texte à plat dans lequel chaque ligne de texte comprend des attributs par lemme. Le format d’une ligne peut être traduit par l’expression régulière Perl suivante:
/^(.*\S)\t+(:\w+)(.*)$/;
où $1 est un lemme, $2 est une etiquette POS, et $3 est une liste concaténée d’attributs. Par exemple, dans:
automobil :nn:m
le lemme est "automobil", l’étiquette POS est ":nn" et le lemme est annoté avec un attribut ":m".
Un lemme peut contenir le signe dièse (#), auquel cas il indique une forme fréquemment mal orthographiée. Par exemple, dans:
mijesec#mjesec :nn:m:x
"mijesec" est une forme incorrecte, suivie par la forme correcte "mjesec".
De plus, les formes incorrectes sont marquées par l’attribut ":x".
La ressource utilise le format de codage ISO-8859-2, et est classée dans l’ordre alphabétique lexicographique standard du croate.
People who looked at this resource also viewed the following: