TRAD Pashto Broadcast News Speech Corpus

View resource name in all available languages

Corpus TRAD d’actualités radio et télédiffusées en pachto

ID:

ELRA-S0381

This corpus contains transcribed broadcast news recordings in Pashto. Recordings are collected from 5 sources: Ashna TV, Azadi Radio, Deewa Radio, Mashaal Radio and Shamshad TV.

The corpus contains 108 hours of recordings covering more than 1,000 speakers. Transcriptions are provided together with the audio files and include about 46,000 segments and 1.1M words.

Pashto is an indo-iranian language spoken by the Pashtun people mainly in Pakistan and Afghanistan.

This corpus was produced by ELDA within the PEA TRAD project supported by the French Ministry of Defence (DGA).

View resource description in all available languages

Le corpus contient des enregistrements d’émissions radio et télé diffusées en pachto provenant des 5 sources suivantes : Ashna TV, Azadi Radio, Deewa Radio, Mashaal Radio et Shamshad TV.

Le corpus comprend 108 heures d’audio avec les voix de plus de 1.000 locuteurs. Les transcriptions sont fournies avec l’audio et contiennent environ 46.000 segments et 1,1M de mots.

Le pachto (ou pachtou) appartient à la famille des langues indo-iranienne. Il est parlé par les Pachtounes, principalement au Pakistan et en Afghanistan.

Ce corpus a été produit par ELDA dans le cadre du projet PEA TRAD, avec le soutien de la Direction Générale de l'Armement (DGA).

You don’t have the permission to edit this resource.