Nepali Spoken Corpus 
Corpus oral népalais
The Nepali Spoken Corpus is one of the 3 resources that constitute the Nepali National Corpus. The Nepali National Corpus was produced in 2006 in the framework of the project Bhasha Sanchar (“language communication”), also known as Nelralec, for Nepali Language Resources and Localization for Education and Communication; funded by the EU Asia IT&C programme, reference number ASIE/2004/091-777.
The design of Nepali Spoken Corpus (NSC) is based on Goteborg Spoken Language Corpus (GSLC). The data are taken from spoken Nepali used in different social activities. The basic assumption of the NSC is that the spoken language differs from written language and it has also different genres as in written language.
NSC contains audio recordings from different social activities within their natural settings as much as possible, with phonologically transcribed and annotated texts, and information about the participants. A total of 17 types of activity were recorded. The total temporal duration of the recorded material is 31 hours and 26 minutes.
The description of the Nepali Spoken Corpus is provided below:
Recorded Activity types: 17
Recorded Activity occurrences (files): 115
Total time (duration): 31 hours 26 minutes
Total transcribed words (assumed): 260,000
Total transcribed files: 115
Completely checked: 115
As can be seen above, 115 activity occurrences have been recorded belonging to 17 activity types. For instance, the activity type “shopping” has four recorded occurrences and the activity type “discussion” has 16 recorded instances.
Le corpus oral népalais est l’une des 3 ressources qui composent le Corpus National Népalais. Le corpus National Népalais a été produit en 2006 dans le cadre du projet Bhasha Sanchar (“communication langagière”), également connu sous le nom de Nelralec (Ressources linguistiques népalaises et localisation pour l’éducation et la communication); il a été financé par le programme de l’Union Européenne Asia IT&C, sous la référence ASIE/2004/091-777.
La conception du Corpus oral népalais est basée sur le Corpus de langue parlée de Göteborg. Les données proviennent du népalais parlé employé dans différentes activités sociales. L’hypothèse de base pour la constitution de ce corpus est que le langage parlé diffère du langage écrit et qu’il existe des genres différents que dans le langage écrit.
Le corpus oral népalais contient des enregistrements audio provenant de différentes activités sociales réalisées dans leur environnement naturel autant que possible. Il comprend les textes transcrits et annotés au niveau phonologique, ainsi que les informations sur les participants. 17 types d’activités ont été enregistrés. La durée temporelle totale du matériel enregistré se monte à 31 heures et 26 minutes.
La description du corpus oral népalais est fournie ci-dessous:
Types d’activités enregistrés: 17
Occurrences d’activités enregistrées (fichiers): 115
Durée totale: 31 heures 26 minutes
Total des mots transcrits (estimation): 260,000
Total des fichiers transcrits: 115
Complètement vérifiés: 115
Comme indiqué ci-dessus, 115 occurrences d’activités ont été enregistrées correspondent à 17 types d’activités. Par exemple, le type d’activité “shopping” a quatre occurrences enregistrées et le type d’activité “discussion” a 16 instances enregistrées.
