LC-STAR English-Russian Bilingual Aligned Phrasal lexicon

View resource name in all available languages

Lexique aligné anglais-russe de locutions LC-STAR

ID:

ELRA-S0231

The LC-STAR English-Russian Bilingual Aligned Phrasal lexicon was created within the scope of the LC-STAR project (IST 2001-32216) which was sponsored by the European Commission. It was designed for SST (Speech-to-Speech Translation) and ASR (Automatic Speech Recognition) applications.

The lexicon comprises 10,519 phrases from the tourist domain. It is based on a list of short sentences obtained by translation from a US-English 10,000 phrase corpus.

The lexicon contains the following information:
- US-English phrase (orthography),
- its translation into Russian (orthography),
and for each token in Russian a phrase provides the following:
- orthography of a word,
- part of speech,
- lemma,
- foreign tag (if the word is non-Russian),
- foreign language tag (if the word is foreign and can be attributed definitely to a certain foreign language).

The lexicon is provided in XML format. The database is stored on 1 CD.

View resource description in all available languages

Le lexique aligné anglais-russe de locutions LC-STAR a été créé dans le cadre du projet LC-STAR (IST 2001-32216), financé par la Commission européenne. Il a été conçu pour les applications SST (traduction parole-parole) et ASR (reconnaissance automatique de la parole).

Le lexique comprend 10 519 locutions du domaine du tourisme. Il est basé sur une liste de phrases courtes obtenue par la traduction d’un corpus de 10 000 locutions en anglais américain.

Le lexique contient les informations suivantes :
- la locution en anglais américain (orthographe),
- sa traduction en russe (orthographe),
et pour chaque élément dans la locution en russe:
- l’orthographe du mot,
- la partie du discours,
- le lemme,
- l’étiquette “foreign” (si le mot n’est pas russe),
- l’étiquette “foreign language” (si le mot est étranger et peut de manière certaine être attribué à un mot précis d’une langue étrangère).

Le lexique est fourni au format XML. La base de données est stockée sur 1 CD.

You don’t have the permission to edit this resource.