Identifiant pérenne de la notice : 213596466
Notice de type
Notice de regroupement
Note publique d'information : Cette thèse est une contribution à l'analyse grammaticale d'énoncés oraux dans le
cadre d'un système de dialogue homme-machine. Le gain potentiel pour une application
se situe à la fois en termes de performance, de robustesse et de couverture de la
langue, mais également en termes d'interaction avec un module de reconnaissance de
la parole. Nous nous sommes fondés sur le formalisme des grammaires lexicalisées d'arbres
adjoints (LTAG), choix que nous justifions, à la vue des différents formalismes existants,
par des propriétés intéressantes autant linguistiques qu'informatiques. Afin d'adapter
ce formalisme à l'analyse locale et robuste d'énoncé oraux, nous présentons tout d'abord
un algorithme original délivrant des analyses pour les différents segments grammaticaux
présents dans l'énoncé. Cet algorithme repose sur des techniques tabulaires et de
compaction de la grammaire ce qui associe efficacité et robustesse. De manière complémentaire,
nous présentons des principes permettant de capturer les contraintes de la langue
parlée avec une LTAG, ainsi que des mécanismes additionnels de détection et de réparation
de certaines distorsions syntaxiques de l'oral. L'ensemble de ces propositions est
intégré dans un système implanté nommé EGAL (Extraction de Grammaire d'Arbres Lexicalisée),
permettant de spécialiser de façon semi-automatique une grammaire générale de la langue
à un sous-langage d'application spécifique à l'aide de corpus de type Magicien d'Oz.
Le système fournit également un atelier de tests d'analyse pour évaluer la grammaire
obtenue et les solutions robustes proposées.
Note publique d'information : This thesis investigates a linguistically motivated grammatical formalism for the
robust parsing of spoken utterances in the context of Man-Machine Dialogue. We propose
a framework for the spoken language processing based on Lexicalized Tree Adjoining
Grammars (LTAG). LTAG is an interesting formalism for both parsing and linguistic
descriptions. In order to adapt the formalism to spoken dialogue, we present first
a parsing algorithm that delivers derivations for all the most extended grammatical
chunks of an utterance - the connection driven parsing algorithm. The efficiency of
this algorithm is based on tabular techniques and structure sharing precompilations.
Complementary, we propose principles to capture spoken language constraints in a classical
LTAG and additional parsing repairs rules dedicated to phenomena as spoken disfluencies.
These propositions are implemented in a system called EGAL (Lexicalized Tree Grammars
Extractions) which allows an assisted specialization of a general grammar to an application
sublanguage according to a Wizard of Oz corpora. The system allows also to test various
parsing algorithms in order to evaluate the resulting grammar and our robust algorithms.