MHATLex

ID:

ELRA-S0100

MHATLex is a new enhanced lexical resource for written and speech automatic processing for French. It is derived from BDLex (see ELRA-S0004).

It contains three levels of representation:
- Syntactic level: S
- Phonological word level: W
- Phonetic level: P

At the W level, a word has two representations:
- input representation (W representation) where words are simply imported from the lexicon,
- output representation (W' or phonotypical) where words have the phonotypical representation imposed by their context in the sentence.

The lexicons contain inflected words (among which canonical words).
MHATLexSt (& BDLex) MHATLexW: about 50,000 entries (canonical) & 440,000 entries (inflected)
MHATLexW': about 81,000 entries (canonical) & 854,000 entries (inflected)
Words are represented with their orthography, pronunciation, morpho-syntactic features, and frequency indicator.
Only the pronunciation related part changes according to the lexicon (except if the user want to generate his own lexicon by skipping some features).

Four lexicons can be generated from MHATLex:
- MHATLexW : this is the central lexical resource which enables to generate the other lexicons
- MHATLexW' (or MHATLexPht) : gives the word representations for each pertinent context.
- MHATLexSt : with standard and simplified format of the pronunciation.
- BDLex (or BDLex50) : already distributed by ELDA (ELRA-S0003 and S0004). The current BDLex, derived from MHATLexW, contains some updates.
When purchasing MHATLex, the package includes BDLex (S0004: http://www.elda.org/catalogue/en/speech/S0004.html).
Integrity checks were made and the lexicon was parsed using nsgmls.

For more information: http://www.irit.fr/ACTIVITES/EQ_IHMPT/ress_ling/accueil01.php

View resource description in all available languages

MHATLex est une nouvelle ressource lexicale pour le traitement automatique du français écrit et oral.
Elle est basée sur BDLex (voir ELRA-S0004), dont elle constitue un enrichissement en terme de représentation.

Il existe trois niveaux de représentation pour les ressources MHATLex :
- Niveau syntaxique : S
- Niveau phonologique des mots : W
- Niveau phonétique : P

Au niveau W, un mot (ou un énoncé) a deux représentations :
- la représentation d'entrée (représentation W) où les mots sont simplement importés du lexique,
- la représentation de sortie (W' ou phonotypique) où les mots ont la représentation phonotypique qu'impose leur contexte dans la phrase.

Les lexiques contiennent des mots fléchis (parmi lesquels les mots canoniques).
MHATLexSt (& BDLex) MHATLexW : environ 50 000 entrées (canonique) & 440 000 entrées (fléchis)
MHATLexW' : environ 81 000 entrées (canonique) & 854 000 entrées (fléchis)
Les mots sont représentés par leur graphie, leur prononciation leurs attributs morpho-syntactique, un indicateur de fréquence.
Seule la partie relative à la prononciation change selon le lexique (sauf si l'usager génère son propre lexique en se passant de quelques attributs).

Quatre lexiques peuvent être générés dans MHATLex:
- MHATLexW : c'est actuellement la ressource lexicale centrale permettant de générer tous les autres lexiques.
- MHATLexW' (ou MHATLexPht) : donne les représentations des mots pour chaque contexte pertinent.
- MHATLexSt : avec forme standard et simplifiée de la prononciation.
- BDLex (ou BDLex50) : forme déjà distribuée par ELDA (ELRA-S0004: http://www.elda.org/catalogue/fr/speech/S0004.html). Le BDLex actuel, dérivant de MHATLexW, contient des mises à jour.

Pour plus d'informations : http://www.irit.fr/ACTIVITES/EQ_IHMPT/ress_ling/accueil01.php

You don’t have the permission to edit this resource.