N4 (NATO Native and Non Native) database

View resource name in all available languages

Base de données N4 (NATO Native and Non Native)

ID:

ELRA-S0239

Speech technology is covering an increasing number of languages, and systems are becoming more robust with regard to speech variability such as speaking style and accents. However, for real applications, especially in a multilingual and multinational context, further robustness to regional and even non-native accents is necessary. Among numerous corpora available for speech research few have specifically addressed this issue.

The NATO Speech and Language Technology group decided to create a corpus geared towards the study of non-native accents. The group chose naval communications as the common task because it naturally includes a great deal of non-native speech and because there were training facilities where data could be collected in several countries.

The N4 NATO Native and Non-Native Speech corpus was developed by the NATO research group on Speech and Language Technology in order to provide a military-oriented database for multilingual and non-native speech processing studies.

Speech data was recorded in the naval transmission training centers of four countries (Germany, The Netherlands, United Kingdom, and Canada) during naval communication training sessions in 2000-2002. The material consists of native and non-native speakers using NATO Naval English procedure between ships where the typical sentence sounds like “This is alpha, whiskey, roger. I make two seven zero six hostile, two seven zero six. Out”, and reading from a text, "The North Wind and the Sun," in both English and the speaker's native language.

The audio material was recorded on DAT and downsampled to 16kHz-16bit, and all the audio files have been manually transcribed and annotated with speakers identities using the Transcriber tool. Navy procedure recordings and text readings have been stored in different files. The first digit in the filename indicates the type of speech.

Among speech segments, the duration of Navy procedure recordings range from 1.3 to 2.3 hours for a total of 7.5 hours. The duration of the native language text readings range from 1.5 minutes to 22.9 minutes for a total of around one hour. <table border="0" width="100%" cellspacing="0" cellpadding="2" class="infoBoxContents">
<tr align=center><td> </td><td>Canada</td><td>Germany</td><td>The Netherlands</td><td>United Kingdom</td><td>All</td></tr>
<tr align=center><td align=left><strong>Signal</strong></td><td>5.30</td><td>3.20</td><td>5.00</td><td>6.30</td><td>19.80</td></tr>
<tr align=center><td align=right>Silence</td><td>3.00</td><td>0.56</td><td>2.00</td><td>4.70</td></tr>
<tr align=center><td align=right>Speech</td><td>2.30</td><td>2.64</td><td>3.00</td><td>1.60</td></tr>
<tr align=center><td align=left><strong>Speech</strong></td><td>2.30</td><td>2.64</td><td>3.00</td><td>1.60</td><td>9.54</td></tr>
<tr align=center><td align=right>Navy proc</td><td>2.00</td><td>1.90</td><td>2.30</td><td>1.30</td></tr>
<tr align=center><td align=right>Read text</td><td>0.30</td><td>0.74</td><td>0.70</td><td>0.30</td></tr>
<tr align=center><td align=left><strong>Read text</strong></td><td>0.30</td><td>0.74</td><td>0.70</td><td>0.30</td><td>2.04</td></tr>
<tr align=center><td align=right>Non-native</td><td>0.27</td><td>0.37</td><td>0.32</td><td>0.00</td></tr>
<tr align=center><td align=right>Native</td><td>0.03</td><td>0.37</td><td>0.38</td><td>0.30</td></tr>
</table>

The database contains the following information about each speaker: gender, age, weight, length, possible speaking or hearing disorders, education level, living area, accent, second language, the year English was learned(for non-native speakers). The speaker accents vary widely from country to country. The speaker's average age was 22.6 years. Nineteen women participated, accounting for 18% of the study participants. There were a total of 115 speakers. <table border="0" width="100%" cellspacing="0" cellpadding="2" class="infoBoxContents">
<tr align=center><td></td><td>Canada</td><td>Germany</td><td>The Netherlands</td><td>United Kingdom</td><td>All</td></tr>
<tr align=center><td align=left><strong>#Speakers</strong></td><td>22</td><td>51</td><td>31</td><td>11</td><td>115</td></tr>
<tr align=center><td align=left><strong>#Women</strong></td><td>5</td><td>0</td><td>9</td><td>5</td><td>19</td></tr>
<tr align=center><td align=left><strong>Age</strong></td><td>22-35</td><td>17-23</td><td>17-61</td><td>19-62</td><td>17-62</td></tr>
<tr align=center><td align=left><strong>Age mean</strong></td><td>28.3</td><td>20.1</td><td>21</td><td>27.5</td><td>22.6</td></tr>
</table>

View resource description in all available languages

La technologie de la parole couvre un nombre croissant de langues et les systèmes deviennent plus robustes vis-à-vis de la variabilité de la parole tel que le style de parole et les accents. Cependant, pour les applications réelles, en particulier dans un contexte multilingue et multinational, plus de robustesse est nécessaire vis-à-vis des accents régionaux et mêmes des accents non natifs. Parmi les nombreux corpus disponibles pour la recherche en parole, peu répondent spécifiquement à cette question.

Le groupe de technologie de la langue et de la parole de l’OTAN a décidé de créer un corpus orienté vers l’étude des accents non natifs. Le groupe a choisi la communication navale comme tâche commune car elle comprend très naturellement une grande variété de parole non native et il existait des facilités d’expérimentation puisque les données pouvaient être collectées dans plusieurs pays.

Le corpus de parole N4 (NATO Native and Non-Native) a été développé par le groupe de recherché en parole et technologie de la langue de l’OTAN, afin d’offrir une base de données de type militaire pour les études de traitement de la parole multilingue et non native.

Les données de parole ont été enregistrées dans des centres d’entraînement de transmission navale de quatre pays (Allemagne, Pays-Bas, Royaume Uni et Canada) au cours des sessions d’entraînement en communication navale entre 2000 et 2002. Le matériel consiste en l’enregistrement de locuteurs natifs et non natifs, utilisant une procédure navale de l’OTAN en anglais, avec des phrases types ressemblant à “This is alpha, whiskey, roger. I make two seven zero six hostile, two seven zero six. Out”. Les locuteurs ont également lu un texte, "The North Wind and the Sun," à la fois en anglais et dans la langue du locuteur.

Le matériel audio a été enregistré sur DAT et échantillonné en 16kHz-16bit. Tous les fichiers audio ont été transcrits manuellement et annotés avec l’identité des locuteurs grâce à l’outil Transcriber. Les enregistrements des procédures de navigation et les textes lus ont été stockés dans des fichiers différents. Le premier numéro du fichier précise le type de parole.

Pour les segments de parole, la durée des enregistrements de procédure navale se situe entre 1,3 et 2,3 heures pour un total de 7,5 heures. La durée du texte lu dans la langue native se situe entre 1,5 minutes et 22,9 minutes pour un total d’environ une heure. <table border="0" width="100%" cellspacing="0" cellpadding="2" class="infoBoxContents">
<tr align=center><td></td><td>Canada</td><td>Allemagne</td><td>Pays-Bas</td><td>Royaume Uni</td><td>All</td></tr>
<tr align=center><td align=left><strong>Signal</strong></td><td>5.30</td><td>3.20</td><td>5.00</td><td>6.30</td><td>19.80</td></tr>
<tr align=center><td align=right>Silence</td><td>3.00</td><td>0.56</td><td>2.00</td><td>4.70</td></tr>
<tr align=center><td align=right>Parole</td><td>2.30</td><td>2.64</td><td>3.00</td><td>1.60</td></tr>
<tr align=center><td align=left><strong>Parole</strong></td><td>2.30</td><td>2.64</td><td>3.00</td><td>1.60</td><td>9.54</td></tr>
<tr align=center><td align= right>Procédure navale</td><td>2.00</td><td>1.90</td><td>2.30</td><td>1.30</td></tr>
<tr align=center><td align=right>Texte lu</td><td>0.30</td><td>0.74</td><td>0.70</td><td>0.30</td></tr>
<tr align=center><td align=left><strong>Texte lu</strong></td><td>0.30</td><td>0.74</td><td>0.70</td><td>0.30</td><td>2.04</td></tr>
<tr align=center><td align=right>Non natif</td><td>0.27</td><td>0.37</td><td>0.32</td><td>0.00</td></tr>
<tr align=center><td align=right>Natif</td><td>0.03</td><td>0.37</td><td>0.38</td><td>0.30</td></tr>
</table>

La base de données contient l’information suivante pour chaque locuteur : sexe, âge, poids, taille, éventuels troubles de parole ou d’audition, niveau de formation, lieu de résidence, accent, deuxième langue, l’année où il/elle a appris l’anglais (pour les locuteurs non natifs). Les accents des locuteurs varient de manière importante d’un pays à l’autre. La moyenne d’âge des locuteurs est de 22,6 ans. Dix-neuf femmes ont participaté, soit 18% des participants à l’étude. Un total de 115 locuteurs a été enregistré. <table border="0" width="100%" cellspacing="0" cellpadding="2" class="infoBoxContents">
<tr align=center><td></td><td>Canada</td><td>Allemagne</td><td>Pays-Bas</td><td>Royaume Uni</td><td>All</td></tr>
<tr align=center><td align=left><strong>#Locuteurs</strong></td><td>22</td><td>51</td><td>31</td><td>11</td><td>115</td></tr>
<tr align=center><td align=left><strong>#Femmes</strong></td><td>5</td><td>0</td><td>9</td><td>5</td><td>19</td></tr>
<tr align=center><td align=left><strong>Age</strong></td><td>22-35</td><td>17-23</td><td>17-61</td><td>19-62</td><td>17-62</td></tr>
<tr align=center><td align=left><strong>Moyenne d'âge</strong></td><td>28.3</td><td>20.1</td><td>21</td><td>27.5</td><td>22.6</td></tr>
</table>

You don’t have the permission to edit this resource.