KORLEX – Croatian Lexicon – META-SHARE

Last view: 2026-08-01

91 Last view: 2026-08-01

KORLEX – Croatian Lexicon

View resource name in all available languages

Lexique croate KORLEX

http://catalog.elra.info/product_info.php?products_id=858

ID:

ELRA-L0065

This lexical resource was developed as part of the bilingual lexicon for English-Croatian built for the following project: http://www.rjecnik.com.

The lexicon data is compiled with the objective of covering the majority of text circulating in everyday use, such as in the news (e.g., newswire articles), in business, technological documentation, legal documentation, and politics. The words that are primarily used in literary and religious contexts, and which are not part of every-day usage, are generally not included in the lexicon.

The KORLEX-Croatian Lexicon provides a list of 118,252 Croatian lemmas, i.e., words in canonical form, annotated with part-of-speech (POS) tag and lexical features. Among these 118,252 entries, there are 52,450 nouns, 8,985 adverbs, 14,937 verbs and 41,161 adjectives. Remaining entries are pronouns, determiners, prepositions/postpositions, conjunctions and numerals.

The resource is a flat textual file in which each textual line contains information about one lemma. The format of a line can be captured with the following Perl regular expression:
/^(.\S)\t+(:\w+)(.)$/;
where $1 is lemma, $2 is POS tag, and $3 is a concatenated list of features. For example in:
automobil :nn:m
the lemma is "automobil", the POS tag is ":nn" and the lemma is annotated with one feature ":m".
A lemma may contain the hash sign (#), in which case it denotes a frequently misspelled form. For example, in:
mijesec#mjesec :nn:m:x
"mijesec" is an incorrect form, followed with a correct form "mjesec".
Additionally, the incorrect forms are marked with the feature ":x".

The resource is encoded using ISO-8859-2 encoding, and sorted according to the standard Croatian lexicographic order.

View resource description in all available languages

Cette ressource lexicale a été développée pour la constitution d’un lexique bilingue anglais-croate dans le cadre du projet suivant : http://www.rjecnik.com.

Les données du lexique ont été compilées avec pour but de couvrir la majorité des textes utilisés au quotidien, tels que dans les actualités (par exemple, des articles de journaux), les affaires, les documentations technologiques, juridiques et politiques. Les mots utilisés principalement dans des contextes littéraires et religieux, et qui ne font pas partie de l’usage quotidien, sont généralement exclus du lexique.

Le lexique croate KORLEX propose une liste de 118 252 lemmes du croate, c’est-à-dire des mots sous leur forme canonique, annotés avec des étiquettes indiquant la partie du discours (POS) et d’autres informations lexicales. Parmi ces 118 252 entrées, on peut compter 52 450 noms, 8 985 adverbes, 14 937 verbes et 41 161 adjectifs. Les entrées restantes sont constituées de pronoms, déterminants, prépositions/postpositions, conjonctions et numéraux.

La ressource est présentée dans un fichier texte à plat dans lequel chaque ligne de texte comprend des attributs par lemme. Le format d’une ligne peut être traduit par l’expression régulière Perl suivante:
/^(.\S)\t+(:\w+)(.)$/;
où $1 est un lemme, $2 est une etiquette POS, et $3 est une liste concaténée d’attributs. Par exemple, dans:
automobil :nn:m
le lemme est "automobil", l’étiquette POS est ":nn" et le lemme est annoté avec un attribut ":m".
Un lemme peut contenir le signe dièse (#), auquel cas il indique une forme fréquemment mal orthographiée. Par exemple, dans:
mijesec#mjesec :nn:m:x
"mijesec" est une forme incorrecte, suivie par la forme correcte "mjesec".
De plus, les formes incorrectes sont marquées par l’attribut ":x".

La ressource utilise le format de codage ISO-8859-2, et est classée dans l’ordre alphabétique lexicographique standard du croate.

You don’t have the permission to edit this resource.

DistributionAvailability

Available - Restricted Use

Start date: 31/03/2006

Licence

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Academic

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Academic

Contact Person

Mapelli Valérie

text

Lexical Conceptual Resource General Information

Lexicon

Monolingual text lexicalConceptualResourceLanguages

Croatian

Linguality

Linguality type: Monolingual

Text Format

Plain text

Size

no size available

Resource Creation

Creation ended: 01/01/2004

Metadata

Created: 12/05/2005

Version

Version: 1.0

Last Updated: 31/03/2006

People who looked at this resource also viewed the following: