ILE: Italian LExicon

View resource name in all available languages

ILE: Lexique italien

ID:

ELRA-S0059

ILE is a 588,000 entries Italian lexicon transcribed with SAMPA notation. It was generated, mainly for speech recognition purposes, by means of a morphological analyzer handling more than 100,000 morphemes, each of them transcribed and manually checked. Each stem was combined with all its possible suffixes to form valid words. Verbal forms do not include clitics.The morpho-lexicon was obtained by properly processing an Italian dictionary, and adding by hand all possible inflections. This base lexicon was then enriched with names and neologisms found in the 65,000 most frequent words of the newspaper "Il Sole 24 Ore". Also the most frequent Italian proper names and surnames (from the telephone directory), geographical names, acronyms, company names, commonly used foreign words were added to the lexicon.All words are transcribed using SAMPA units for the Italian language. In case of multiple pronunciations for a word, one row for each different transcription is provided (a total of about 601,000 different transcriptions are provided for the 588,000 words lexicon). Stressed vowels are marked with the ASCII character ". Also foreign words are transcribed using only SAMPA units for the Italian language, which leads to some awkward but effective transcription, at least for speech recognition purposes.
Some samples of ILE follow.
ANCORA "a n k o r a
ANCORA a n k "o r a
CESSARE tS e ss "a r e
CESSEREBBERO tS e ss e r "E bb e r o
CITTA` tS i tt "a
AIDS "a i d s
AIDS a i d i "E ss e
BABY-SITTER b E b i s "i tt e r
BABY-SITTER b e i b i s "i tt e r
BLUE-JEANS b l u dZ "i n s

View resource description in all available languages

ILE est un lexique italien de 588 000 entrées transcrit selon le système de notation SAMPA. Il a été généré, principalement pour la reconnaissance de la parole, au moyen d'un analyseur morphologique. Chaque radical a été associé à tous ses suffixes possibles afin de former des mots. Les formes verbales n'incluent pas les clitiques.

Ce lexique morphologique a été réalisé grâce au traitement d'un dictionnaire italien, et en ajoutant manuellement toutes les flexions possibles. Le lexique de base ainsi obtenu a ensuite été enrichi par l'ajout de noms et de néologismes issus d'une liste de 65 000 mots les plus fréquents du quotidien italien "Il Sole 24 Ore". De plus, les noms propres et prénoms italiens les plus fréquents (du répertoire téléphonique), des noms de lieux, des acronymes, des noms d'organisations, ainsi que les mots étrangers les plus communément utilisés ont été ajoutés au lexique.

Tous les mots ont été transcrits en utilisant les unités SAMPA pour l'italien. En cas de prononciations multiples pour un mot, une colonne pour chaque transcription est fournie (un total d'environ 601 000 transcriptions différentes sont fournies pour le lexique de 588 000 mots). Les voyelles accentuées sont marquées par le caractère ASCII ". Les mots étrangers ont également été transcrits d'après les unités SAMPA de l'italien uniquement, ce qui peut rendre des transcriptions parfois maladroites mais utiles, au moins en vue d'un usage en reconnaissance de la parole.

Quelques exemples :

ANCORA "a n k o r a
ANCORA a n k "o r a
CESSARE tS e ss "a r e
CESSEREBBERO tS e ss e r "E bb e r o
CITTA` tS i tt "a
AIDS "a i d s
AIDS a i d i "E ss e
BABY-SITTER b E b i s "i tt e r
BABY-SITTER b e i b i s "i tt e r
BLUE-JEANS b l u dZ "i n s

You don’t have the permission to edit this resource.