MAURDOR Evaluation Package

View resource name in all available languages

Package d’évaluation MAURDOR

ID:

ELRA-E0045

The MAURDOR project consists in evaluating systems for automatic processing of written documents. Collected written documents are scanned documents (printed, typewritten or manuscripts).

In order to get images for the evaluation of automatic analysis systems, 10,000 original documents were collected and annotated (5000 in French, 2500 in English and 2500 in Arabic). This package contains 8,129 documents out of the 10,000 originally collected.

Each of the 8129 documents belongs to one of the 5 following categories:
C1: Printed form (completed in manuscript)
C2: Commercial, private or professional document, printed or photocopied
C3: Manuscript private correspondence
C4: Typewritten private or professional correspondence
C5: Others

Once collected, those documents were submitted to a manual annotation. This human analysis is used as a reference, known as ground truth, for the training and evaluation of automatic processing systems.

Annotations aim to highlight the following information:
1. How the document is structured (text zones, images...)?
2. Which writings are present, with their type (manuscript/typewritten) and their language (French, English, Arabic, other)?
3. What is the main information in the documents (author, recipient, subject, date...)?

The MAURDOR evaluation campaign provides a common framework for the reporting of current performances of systems for automatic processing of digital documents. This package contains the material provided to the campaign participants:
- Consistent development and test data corresponding to the application concerned;
- Tools for the automatic measurement of system performances;
- A common assessment protocol applicable to each processing stage, along with a complete automatic processing chain for written documents.

The documents are provided in TIFF format and the annotations are provided in XML format.

The aim of this evaluation package is to enable external players to evaluate their own system and compare their results with those obtained during the campaign itself.

View resource description in all available languages

Le projet MAURDOR consiste en l'évaluation de systèmes de traitement automatique de documents écrits. Les documents écrits collectés sont des documents scannés (imprimés, dactylographiés ou manuscrits).

Afin de disposer d’images pour l'évaluation des systèmes d'analyse automatique, 10000 documents originaux ont été collectés et annotés (5000 en français, 2500 en anglais et 2500 en arabe). Ce package contient 8129 documents sur les 10000 originalement collectés.

Chacun des 8129 documents appartient à l'une des 5 catégories suivantes:
C1: Formulaire imprimé (rempli en manuscrit)
C2: Document commercial, privé ou professionnel, imprimé ou photocopié
C3: Correspondance privée manuscrite
C4: Correspondance privée ou professionnelle dactylographiée
C5: Autres

Une fois collectés, ces documents ont fait l'objet d'une annotation manuelle. Cette analyse humaine sert de référence, appelée vérité-terrain, pour l’apprentissage et l’évaluation des systèmes d'analyse automatique.

Les annotations visent à mettre en évidence les informations suivantes:
1. Comment le document est-il structuré (zones de texte, images...)?
2. Quelles sont les écritures présentes, avec leur type (manuscrit/dactylo) et leur langue (français, anglais, arabe, autre)?
3. Quelles sont les informations principales des documents (auteur, destinataire, objet, date...)?

La campagne d’évaluation MAURDOR propose un cadre commun de tâches afin de rendre compte des performances actuelles des systèmes de traitement automatique de documents numériques. Ce package inclut les éléments fournis aux participants à la campagne:
- Des données cohérentes de développements et de test, correspondant aux domaines applicatifs concernés.
- Des outils de métriques automatiques de la performance des systèmes.
- Un protocole d’évaluation commun applicable à chacune des étapes de traitement ainsi qu’à une chaine complète de traitement automatique de documents écrits.

Les documents sont fournis au format TIFF et les annotations au format XML.

Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système et ainsi, de pouvoir comparer ses résultats à ceux obtenus pendant la campagne.

You don’t have the permission to edit this resource.
People who looked at this resource also viewed the following: