Note publique d'information : Ces dernières années, les progrès continuels des techniques de criblage et de séquençage
à haut débit ont nourri la biologie des systèmes, ouvrant la voie à l’identification
de systèmes dynamiques biologiques tels que des réseaux de régulation génique. Cependant,
l’insuffisance et la mauvaise qualité des données expérimentales se traduisent trop
souvent par des estimations incertaines des paramètres d’intérêt des systèmes étudiés
: ces incertitudes peuvent être levées en produisant de nouvelles données dans des
conditions expérimentales variées, ce qui implique un coût potentiellement élevé.
Dans cette thèse, nous proposons un nouvel algorithme d’apprentissage actif, destiné
à recommander de manière séquentielle les expériences les plus utiles à l’identification
de systèmes dynamiques biologiques modélisés par des équations différentielles. Le
problème est formulé sous la forme d’un jeu à un joueur : le joueur se voit attribuer
un budget dédié aux expérimentations, et un coût spécifique est affecté à chaque expérience
; à chaque tour, il est amené à choisir une, voire plusieurs expériences réalisées
sur le système étudié dans le but de maximiser la qualité de l’estimation, une fois
le budget épuisé. Notre approche, intitulée « ExperimentalDEsign for Network inference
» (EDEN), s’appuie sur la classe d’algorithme UCT (Upper Confidence bounds for Trees
search) qui allie la souplesse de la recherche arborescente de Monte-Carlo à l’efficacité
des algorithmes de bandits multi-bras pour parcourir l’ensemble des séquences d’expériences
possibles en privilégiant surtout celles qui sont les plus prometteuses. EDEN présente
le grand avantage d’anticiper les expériences suivantes en sélectionnant à chaque
tour des expériences sachant qu’elles seront suivies par un certain nombre d’autres
expériences. Illustrée sur deux cas d’étude, le réseau de signalisation JAK/STAT et
un des réseaux de régulation génique proposé dans la compétition internationale DREAM7,
EDEN, entièrement automatique, obtient de très bonnes performances pour un budget
limité et un large choix d’expériences (perturbations, mesures).
Note publique d'information : Continuous progress in screening and high-throughput sequencing techniques in recent
years paves the way for the identification of dynamic biological systems such as gene
regulatory networks. However, the scarcity of the experimental data often leads to
anuncertain estimation of parameters of interest. These uncertainties can be solved
by generating new data in different experimental conditions, which induces additional
costs. This thesis proposes a general active learning approach to develop tools of
sequential experimental design for the identification of dynamical biological systems.
The problem is formulated as a one-player game : the player has a budget dedicated
for his experiments, each experiment has a different cost ; at every turn, he chooses
one or more experiments to be performed on the system with the ultimate aim of maximizing
the quality of the estimate, until the available budget is exhausted. The proposed
approach called Experimental DEsign for Network inference (EDEN), is based on UCT
(Upper Confident bounds for Trees) algorithm which combines Monte-Carlo tree search
algorithms with multi-arm bandits to perform an effective exploration of the possible
sequences of experiments. A strong point of the approach is anticipation : an experiment
is selected at each round, knowing that this round will be followed by a number of
other experiments, according to the available budget. This generic approach is rolled
out in parameter estimation in nonlinear ordinary differential equations using partial
observations. EDEN is applied on two problems : signaling network and gene regulatory
network identification. Compared to the competitors, it exhibits very good results
on a DREAM7 challenge where a limited budget and a wide range of experiments (perturbations,
measurements) are available.