Acoustic database for Polish concatenative speech synthesis 
View resource name in all available languages
Base de données acoustique pour la synthèse de parole par concaténation en polonais
This database consists of 1443 nonsense words including all the diphones for the Polish language. The diphone is always placed at an unstressed syllable. The neighbourhood doesn’t influence the co-articulation of the diphone.
The database includes information such as: the name of the diphone, context of the diphone, phonetic transcription in SAMPA, identifier of the wave file where it is placed, and three numbers corresponding to the beginning, the middle and the end of the diphone.
The recordings were taken in an anechoic chamber using one table stand dynamic microphone (Sennheiser M104) by a female speaker. A 16 kHz sampling frequency and 16 bit resolution was used. The total duration of the recordings is 1.27 hours with prompts varying in length from 2 to 6 seconds.
The signal was manually aligned with the position of the diphone, i.e. each prompt contains the boundary of the chosen diphone. The database was validated manually.
For a more detailed description, see:
- Szklanny K. (2002) MBROLA – Creating Polish diphone database for speech synthesis, 3rd European Master School on Language and Speech, Leuven, Belgium
- Szklanny K. (2003) Preparing the Polish diphone database for speech synthesis in MBROLA. 50. Otwarte Seminarium z Akustyki Szczyrk, Poland
View resource description in all available languages
Cette base de données est constituée de 1443 mots sans signification, incluant tous les diphones de la langue polonais. Le diphone est toujours placé sur une syllabe non accentuée. La proximité n’influence pas la co-articulation du diphone.
Le base de données inclut des informations telles que le nom du diphone, le contexte du diphone, la transcription phonétique en SAMPA, l’identifiant du fichier wave où il est placé, et trois nombres correspondant au début, milieu et fin du diphone.
Les enregistrements ont été realizes dans une chambre anéchoïque via un microphone de table dynamique (Sennheiser M104) par une locutrice femme de langue maternelle polonaise. Une fréquence d’échantillonnage de 16 kHz et une resolution de 16 bit ont été utilisés. La durée totale des enregistrements se monte à 1,27 heures avec des énoncés ayant une longueur variant entre 2 et 6 secondes.
Le signal a été aligné manuellement avec la position du diphone, i.e. chaque énoncé contient la limite du diphone sélectionné. La base de données a été validée manuellement.
Pour une description plus détaillée, voir:
- Szklanny K. (2002), “MBROLA – Creating Polish diphone database for speech synthesis”, 3rd European Master School on Language and Speech, Leuven, Belgique
- Szklanny K. (2003), “Preparing the Polish diphone database for speech synthesis in MBROLA”. 50. Otwarte Seminarium z Akustyki Szczyrk, Pologne
People who looked at this resource also viewed the following: