Note publique d'information : Cette thèse s’inscrit dans le cadre de l’apprentissage par renforcement. L’un des
principaux avantages est qu’il ne nécessite pas de connaître explicitement le comportement
attendu. Durant son apprentissage, l’agent perçoit des états, reçoit un ensemble de
retours et sélectionne des actions. Il adapte son comportement en optimisant la quantité
de retour. Néanmoins, le temps de calcul nécessaire peut vite être prohibitif. La
nécessité d’explorer son environnement en est la principale raison. Notre approche
consiste à utiliser des connaissances externes pour « guider » l’agent dans son exploration.
Ces connaissances constituent une aide pouvant s’exprimer sous forme de trajectoires
formant une base de connaissances. Elles limitent l’exploration de l’environnement
tout en permettant d’acquérir un comportement de bonne qualité. Aider un agent n’implique
pas de connaître une politique, même partielle, ni d’avoir la même perception que
l’agent. L’architecture critique-critique a été conçue pour répondre à cette problématique.
Elle combine un algorithme d’apprentissage par renforcement standard avec une aide
exprimée sous forme de potentiels, lesquels associent une valeur à chaque transition
des trajectoires. L’estimation de la valeur par l’agent et le potentiel de l’aide
sont combinés au cours de l’apprentissage. La variation de cette combinaison permet
de remettre en cause l’aide tout en garantissant une politique optimale ou proche
rapidement. Il est montré que l’algorithme proposé converge dans certaines conditions.
De plus, des travaux empiriques montrent que l’agent est capable de tirer profit d’une
aide même en dehors de ces conditions.
Note publique d'information : This thesis deals with reinforcement learning. One of the main advantage of this learning
is to not require to know explicitely the expected behavior. During its learning,
the agent percieves states, gets a set of rewards and selects actions to carry out.
The agent fits its behavior by optimizing the amount of rewards. Nevertheless, the
computing time required quickly becomes prohibitive. This is mainly due to the agent’s
need of exploring its environment. The approach considered here consists in using
external knowledge to “guide” the agent during its exploration. This knowledge constitutes
an help which can, for example, be expressed by trajectories that set up a knowledge
database. These trajectories are used to limit the exploration of the environment
while allowing the agent to build a good quality behavior. Helping an agent does neither
involve knowing the actions choose in all states, nor having the same perceptions
as the agent. The critic-critic architecture was devised to fulfill to this problematic.
It combines a standard reinforcement learning algorithm with an help given through
potentials. The potentials assiociate a value to each transition of the trajectories.
The value function estimation by the agent and the potential of the help are combined
during the training. Fitting this combine dynamically makes it possible to throw assistance
into question while guaranteing an optimal or almost optimal policy quickly. It is
formally proved that the proposed algorithm converges under certain conditions. Moreover,
empirical work show that the agent is able to benefit from an help without these conditions.