Note publique d'information : Ce travail se situe dans le contexte de la recherche d'information (RI) utilisant
des techniques d'intelligence artificielle (IA) telles que l'apprentissage profond
(DL). Il s'intéresse à des tâches nécessitant l'appariement de textes, telles que
la recherche ad-hoc, le domaine du questions-réponses et l'identification des paraphrases.
L'objectif de cette thèse est de proposer de nouveaux modèles, utilisant les méthodes
de DL, pour construire des modèles d'appariement basés sur la sémantique de textes,
et permettant de pallier les problèmes de l'inadéquation du vocabulaire relatifs aux
représentations par sac de mots, ou bag of words (BoW), utilisées dans les modèles
classiques de RI. En effet, les méthodes classiques de comparaison de textes sont
basées sur la représentation BoW qui considère un texte donné comme un ensemble de
mots indépendants. Le processus d'appariement de deux séquences de texte repose sur
l'appariement exact entre les mots. La principale limite de cette approche est l'inadéquation
du vocabulaire. Ce problème apparaît lorsque les séquences de texte à apparier n'utilisent
pas le même vocabulaire, même si leurs sujets sont liés. Par exemple, la requête peut
contenir plusieurs mots qui ne sont pas nécessairement utilisés dans les documents
de la collection, notamment dans les documents pertinents. Les représentations BoW
ignorent plusieurs aspects, tels que la structure du texte et le contexte des mots.
Ces caractéristiques sont très importantes et permettent de différencier deux textes
utilisant les mêmes mots et dont les informations exprimées sont différentes. Un autre
problème dans l'appariement de texte est lié à la longueur des documents. Les parties
pertinentes peuvent être réparties de manières différentes dans les documents d'une
collection. Ceci est d'autant vrai dans les documents volumineux qui ont tendance
à couvrir un grand nombre de sujets et à inclure un vocabulaire variable. Un document
long pourrait ainsi comporter plusieurs passages pertinents qu'un modèle d'appariement
doit capturer. Contrairement aux documents longs, les documents courts sont susceptibles
de concerner un sujet spécifique et ont tendance à contenir un vocabulaire plus restreint.
L'évaluation de leur pertinence est en principe plus simple que celle des documents
plus longs. Dans cette thèse, nous avons proposé différentes contributions répondant
chacune à l'un des problèmes susmentionnés. Tout d'abord, afin de résoudre le problème
d'inadéquation du vocabulaire, nous avons utilisé des représentations distribuées
des mots (plongement lexical) pour permettre un appariement basé sur la sémantique
entre les différents mots. Ces représentations ont été utilisées dans des applications
de RI où la similarité document-requête est calculée en comparant tous les vecteurs
de termes de la requête avec tous les vecteurs de termes du document, indifféremment.
Contrairement aux modèles proposés dans l'état-de-l'art, nous avons étudié l'impact
des termes de la requête concernant leur présence/absence dans un document. Nous avons
adopté différentes stratégies d'appariement document/requête. L'intuition est que
l'absence des termes de la requête dans les documents pertinents est en soi un aspect
utile à prendre en compte dans le processus de comparaison. En effet, ces termes n'apparaissent
pas dans les documents de la collection pour deux raisons possibles : soit leurs synonymes
ont été utilisés ; soit ils ne font pas partie du contexte des documents en questions.
Note publique d'information : This work is situated in the context of information retrieval (IR) using machine learning
(ML) and deep learning (DL) techniques. It concerns different tasks requiring text
matching, such as ad-hoc research, question answering and paraphrase identification.
The objective of this thesis is to propose new approaches, using DL methods, to construct
semantic-based models for text matching, and to overcome the problems of vocabulary
mismatch related to the classical bag of word (BoW) representations used in traditional
IR models. Indeed, traditional text matching methods are based on the BoW representation,
which considers a given text as a set of independent words. The process of matching
two sequences of text is based on the exact matching between words. The main limitation
of this approach is related to the vocabulary mismatch. This problem occurs when the
text sequences to be matched do not use the same vocabulary, even if their subjects
are related. For example, the query may contain several words that are not necessarily
used in the documents of the collection, including relevant documents. BoW representations
ignore several aspects about a text sequence, such as the structure the context of
words. These characteristics are important and make it possible to differentiate between
two texts that use the same words but expressing different information. Another problem
in text matching is related to the length of documents. The relevant parts can be
distributed in different ways in the documents of a collection. This is especially
true in large documents that tend to cover a large number of topics and include variable
vocabulary. A long document could thus contain several relevant passages that a matching
model must capture. Unlike long documents, short documents are likely to be relevant
to a specific subject and tend to contain a more restricted vocabulary. Assessing
their relevance is in principle simpler than assessing the one of longer documents.
In this thesis, we have proposed different contributions, each addressing one of the
above-mentioned issues. First, in order to solve the problem of vocabulary mismatch,
we used distributed representations of words (word embedding) to allow a semantic
matching between the different words. These representations have been used in IR applications
where document/query similarity is computed by comparing all the term vectors of the
query with all the term vectors of the document, regardless. Unlike the models proposed
in the state-of-the-art, we studied the impact of query terms regarding their presence/absence
in a document. We have adopted different document/query matching strategies. The intuition
is that the absence of the query terms in the relevant documents is in itself a useful
aspect to be taken into account in the matching process. Indeed, these terms do not
appear in documents of the collection for two possible reasons: either their synonyms
have been used or they are not part of the context of the considered documents. The
methods we have proposed make it possible, on the one hand, to perform an inaccurate
matching between the document and the query, and on the other hand, to evaluate the
impact of the different terms of a query in the matching process. Although the use
of word embedding allows semantic-based matching between different text sequences,
these representations combined with classical matching models still consider the text
as a list of independent elements (bag of vectors instead of bag of words). However,
the structure of the text as well as the order of the words is important. Any change
in the structure of the text and/or the order of words alters the information expressed.
In order to solve this problem, neural models were used in text matching.