Gram Vanni data set

View resource name in all available languages

Corpus Gram Vanni

ID:

ELRA-S0405

The Gram Vanni data set consists of 130 hours (21,000 different audio recordings) recorded by 4,000 unique Hindi speakers from the states of Bihar, Jharkhand, and Madhya Pradesh in India (20-25% female, 60% people under 30 years of age, mostly rural).

The data set was collected via a voice-based community media platform that runs over IVR (Interactive Voice Response) telephone systems. Users can call into the system and listen to audio messages, or record their own message in response to messages they hear. This therefore serves as a discussion forum on voice, but without needing the Internet, and suitable even for less-literate populations. The platform is used for discussions on local policies, local news, questions and answers on agriculture, health and social norms, and poetry. All content recorded by the users is manually reviewed before it can be heard by other users over the IVR, to reject content with poor audio quality or editorial violations such as hate speech or false information. The environment for recordings is mostly outdoor, with a medium level of background noise from roadside and public places. Speech samples are stored as sequences of 8 kHz in MP3 files.

An orthographic transcription is provided (transliteration in Latin characters), including the following tagged named entities :
- #person:
- #location:
- #organization: an NGO or a government department,
- #crop: farming products, e.g. paddy, wheat, mushroom
- #scheme: multi-word names of government schemes and services, like employment guarantee, food subsidy, health center, hospital
- #disease: e.g. like malaria, dengue, diarrhea, heat stroke
- #event: e.g. festivals like diwali, chath, or event classes like flood, violence, curfew, rally, election

View resource description in all available languages

Le corpus Gram Vanni comprend 130 heures (21000 enregistrements audio différents) enregistrées par 4000 locuteurs uniques Hindi des états de Bihar, Jharkhand et Madhya Pradesh en Inde (20-25% femmes, 60% de locuteurs de moins de 30 ans, principalement d’origine rurale).

Les données ont été collectées via une plateforme vocale de médias communautaires qui passe par des systèmes téléphoniques RVI (Réponse Vocale Interactive). Les utilisateurs peuvent appeler et écouter les messages audio, ou enregistrer leur propre message en réponse aux messages qu’ils écoutent. Cela sert donc de forum de discussion, mais sans nécessiter un accès à Internet, et pouvant convenir même à des populations moins alphabétisées. La plateforme est utilisée pour des discussions sur les politiques et actualités locales, des questions-réponses sur l’agriculture, la santé et les normes sociales, ainsi que la poésie. L’intégralité du contenu enregistré par les utilisateurs a été révisée manuellement avant d’être écoutée par d’autres utilisateurs sur le système RVI, afin de rejeter le contenu ayant une faible qualité audio ou des violations éditoriales telles que des discours haineux ou de fausses informations. L’environnement d’enregistrement est principalement en extérieur, avec un niveau moyen de bruits de fond de circulation et de lieux publics. Les échantillons de parole sont stockés en séquences de 8 kHz dans des fichiers MP3.

Une transcription orthographique est fournie (translittération en caractères latins), avec l’étiquetage des entités nommées suivantes:
- #person
- #location
- #organization: une ONG ou un département gouvernemental,
- #crop: produits de la ferme, par exemple rizière, blé, champignon
- #scheme: noms (multi-mots) de schémas et services gouvernementaux, tels que garantie de l’emploi, subvention alimentaire, centre de santé, hôpital
- #disease: par exemple malaria, dengue, diarrhée, insolation
- #event: par exemple des festivals tels que diwali, chath, ou des classes d’événements tels qu’inondation, violence, couvre-feu, rassemblement, élection

You don’t have the permission to edit this resource.