GlobalPhone Bulgarian Pronunciation Dictionary 260k entries (extended version) 
Dictionnaire de prononciation GlobalPhone bulgare 260k entrées (version étendue)
This extended version of the Bulgarian Pronunciation Dictionary called Bulgarian-Dict260k contains pronunciations of more than 260,000 word forms. The dictionary matches in phone set and format the original GlobalPhone Bulgarian Pronunciation Dictionary (see ELRA-S0351) of 20,000 word forms. Bulgarian-Dict260k was built based on the extension of the Bulgarian GlobalPhone text database to improve language modeling and to reduce the high Out-Of-Vocabulary rate resulting from the rich morphology of the Bulgarian language. For this purpose, roughly 9 Million word tokens were collected from the internet sources of national, international, and economic news available from the online newspapers "Banker" (, "Kesh" (, and “Sega" ( After text cleaning and normalization, all word forms were extracted. Pronunciations were created in an automatic process using hand-crafted grapheme-to-phoneme rules. The generated pronunciations were manually cross-checked by native speakers, correcting potential errors of the automatic generation.
Cette version étendue du dictionnaire de prononciation bulgare, nommée “Bulgarian-Dict260k” comprend la prononciation de plus de 260,000 formes de mots. Le dictionnaire est conforme à l’ensemble de phones et au format du Dictionnaire de prononciation GlobalPhone bulgare original (voir ELRA-S0351) de 20,000 formes de mots. Bulgarian-Dict260k a été conçu sur la base d’une extension de la base de données textuelle de GlobalPhone bulgare afin d’améliorer la modélisation de la langue et de réduire le taux élevé “hors-vocabulaire” dû à la riche morphologie de la langue bulgare. Dans cet objectif, environ 9 millions de tokens ont été collectés à partir de sources internet d’actualités nationales, internationales et économiques des journaux en ligne "Banker" (, "Kesh" (, et “Sega" ( Toutes les formes de mots ont été extraites après le nettoyage et la normalisation du texte. La prononciation a été créée selon un processus automatique au moyen de règles graphèmes-phonèmes manuscrites. La prononciation générée a été vérifiée par des locuteurs natifs, qui ont corrigé les erreurs potentielles provenant de la génération automatique.
