Note publique d'information : Au cours de ces dernières années, le domaine de la recherche d'information s'est élargi
à la mise en place d'applications ne visant plus uniquement à aider l'utilisateur
dans sa tâche de localisation des documents pertinents, mais cherchant à lui construire
une réponse synthétique permettant de satisfaire ses besoins en information. Dans
ce contexte, cette thèse se concentre sur la production d'une entité, appelée document
composite, représentant un aperçu des différents types d'information que l'utilisateur
pourra trouver, en rapport avec sa requête, dans le corpus interrogé. Après s'être
interrogés sur le mode d'extraction et de sélection des fragments de texte à faire
figurer dans ce document composite, l'étude réalisée nous a finalement conduits à
la mise en place d'un algorithme multi-objectifs, de recherche du sous-ensemble de
segments thématiques maximisant conjointement un critère de proximité à la requête
et un critère de représentativité des thématiques abordées par les documents considérés.
Outre la conception du document composite qui est l'objectif central de cette thèse,
les contributions réalisées concernent le découpage des documents et son évaluation,
les mesures de pertinence et de similarité des textes, l'impact que peut avoir l'individualisation
des thématiques en recherche d'information, le mode d'évaluation des systèmes utilisant
un clustering des résultats et enfin, la prise en considération de la requête dans
les processus de clustering.
Note publique d'information : In recent years, information retrieval has expanded its area to the development of
applications whose purpose is not solely to help the user to locate the relevant documents,
but also try to build a synthetic answer as response to his expressed information
needs. In this context, this thesis focuses on the production of an entity, called
composite document, representing an overview of the different types of information
that the user can find, in connection with his request, in the corpus in concern.
After being concerned about the method of extraction and selection of fragments of
text to be included in the composite document, the study has finally led to the setting
up of a multi-objective algorithm, which aims at finding the thematic segments subset
maximizing two criteria of query proximity and thematic representativeness. Beyond
the composite document conception, the realized contributions concern the thematic
segmentation and its evaluation, the relevance estimations and similarity computations,
the impact of the thematic individualization in the field of information retrieval,
the evaluation of systems presenting search results in term of a clusters set and,
at last, the ways of query consideration in texts clustering process.