DEFT'08 Evaluation Package

View resource name in all available languages

Package d’évaluation DEFT’08

ID:

ELRA-E0035

DEFT (DEfi Fouille de Texte – Text Mining Challenge) organizes evaluation campaigns in the field of text mining. The topic of DEFT 2008 edition is related to the classification of texts by topics and genres.

Automatic classification has multiple applications in text mining. Many application fields have been explored, from email orientation to strategic or scientific watch. For a few years, a new problematics on text genre classification has emerged. Beyond document topic recognition, genre recognition is useful to the use that will be made out of the document. Questions that can be raised are: How can we recognize both document topic and genre? Can difference in genre influence the recognition of a document topical category, and conversely, can difference in topic influence the recognition of a document genre?

To evaluate classification software for that prospect, DEFT’08 Evaluation Package enables to compare two corpora with different genres (a newspaper article corpus extracted from Le Monde newspaper and a corpus of encyclopaedic articles extracted from the internet free encyclopaedia, Wikipedia) on the basis of the same set of pre-defined categories. Although a newspaper article highlights news whereas an encyclopaedic article disseminates knowledge, both have a certain amount of general topical categories in common, called “column” for the former and “category” for the latter. It consists in testing, on the one hand, robustness of a topical classification model subjected to variations in text genre, and, on the other hand, possible improvements of a topical classification through the recognition of text genre, on those corpora.

View resource description in all available languages

DEFT (DEfi Fouille de Texte) propose des campagnes d'évaluation dans le domaine de la Fouille de Textes. Le thème de l’édition 2008 de DEFT concerne la classification en thème et en genre de textes.

La classification automatique a de multiples applications en fouille de textes. De l'orientation de courriels à la veille stratégique ou scientifique, de nombreux domaines d'application ont été explorés. Depuis quelques années une nouvelle problématique est apparue, celle de la classification en genre de textes. Au-delà de la reconnaissance du thème du document, la reconnaissance de son genre est utile pour guider l'utilisation qui sera faite du document. Mais comment reconnaître à la fois le thème et le genre d'un document ? La différence de genre influence-t-elle la reconnaissance de la catégorie thématique d'un document, et, inversement, la différence de thème influence-t-elle la reconnaissance du genre du document ?

Pour évaluer des logiciels de classification dans cette perspective, le package d’évaluation DEFT’08 permet de confronter, sur un même ensemble de catégories pré-définies, deux corpus de genres différents, un corpus d'articles journalistiques issus du journal Le Monde, et un corpus d'articles encyclopédiques issus de l'encyclopédie libre sur Internet, Wikipédia. Un article de journal rend compte d'une actualité et un article encyclopédique diffuse un savoir, mais les deux ont en commun un certain nombre de catégories thématiques générales, appelées rubriques chez l'un et catégories chez l'autre. Il s'agit de tester sur ces corpus d'une part la robustesse d'un modèle de classification thématique soumis à des variations en genre de texte, et d'autre part les améliorations possibles d'une classification thématique par la reconnaissance du genre de texte.

You don’t have the permission to edit this resource.