Note publique d'information : Mon travail de thèse s'inscrit dans la thématique de recherche " Analyse des documents
" du laboratoire Reconnaissance de Forme et Vision. Pour réaliser un système capable
d'analyser des documents et d'en restituer la structure, les méthodologies s'appuient
sur plusieurs approches et particulièrement sur l'approche syntaxique et structurelle
de la Reconnaissance de Formes. Le but recherché dans ce travail est d'arriver à convertir
des documents papier vers des documents électroniques tels que les documents HTML
car ce sont les documents les plus utilisés sur l'Internet. Le domaine d'application
d'un tel système peut être général, cependant, nous nous concentrons en premier sur
un type particulier de documents à typographie riche : les sommaires. Dans ce contexte,
nous avons mis en œuvre un système s'appuyant d'une part sur les structures physique
et logique du document et d'autre part sur l'inférence de Grammaire à Deux Niveaux.
Elle est composée de deux grammaires : une métagrammaire et une hypergarmmaire. Dans
notre système, le rôle de la métagrammaire est de décrire les structures physique
et logique du document. L'hypergrammaire décrit les traitements à effectuer pour convertir
le document en html. L'analyse d'un sommaire s'effectue en deux étapes. Lors de la
première étape, le système construit une base d'apprentissage en utilisant l'inférence
grammaticale. Cette base contient plusieurs modèles de sommaires à identifier. Un
document inconnu, soumis au système est identifié par appariement avec les modèles
de la base, en utilisant toutes les informations issues de l'étage d'analyse. La mise
en page du document dans le format HTML est basée sur l'analyse grammaticale de l'hypergrammaire.
Cette dernière est obtenue par traduction des étiquettes logiques et des paramètres
typographiques en commandes HTML. Le résultats de l'analyse de l'hypergrammaire produit
le document HTML équivalent au document étudié. Il est visualisé par un logiciel de
navigation.
Note publique d'information : This work is part of the thematic "Document Analysis" in the Laboratory Reconnaissance
de Forme et Vision(RFV). To achieve an analysis system ables to, interpret documents
and to restore its structure, the Methodologies we have chosen lean on several approaches
and particularly on the syntactic and structural approach of the Pattern Recognition.
The aim in this work is to convert some paper documents into HTML documents because
these documents are more used on the Internet. The application domain of such systems
could be general; however, we concentrate us on a particular type of documents with
a rich typography: the summaries. In this context, we have realized a system that
exploits on one hand the information about content of the document such as its physical
and logical structures, and on the other hand on two level grammars. It is composed
with two grammars: a meta-grammar and a hyper-grammar. In our system, the role of
the meta-grammar is to describe the physical and logical structures of the document.
The hyper-grammar is constituted with a set of calculus rules and describes the treatments
to do in order to convert the document in HTML. The summary analysis is done in two
steps: analysis and identification of the document, and then translation into HTML.
During of the first step, the system constructs a learning base by using the grammatical
inference. This base contains several patterns of synopses to identify. An unknown
document, submitted to the system is identified by matching with the patterns of the
base by using all the attributes obtained in the analysis step. The layout of HTML
document construction is based on the grammatical analysis of the hyper-grammar. The
last is obtained by translation of the logical labels and some typographic parameters
into HTML commands. The result of the grammatical analysis of the hyper-grammar produces
the structured HTML document corresponding to the studied document. This last will
be visualized by software of navigation.