L'idée est de se baser sur des faits de neuroscience pour créer l'agent. Le modulateur de dopamine n'est pas seulement associé au système de récompense, mais aussi dans le processus d'exploration.
En appliquant ça au RL, il est possible de développer le système agent-environnement classique. Les récompenses ne viendraient pas de l'environnement, mais d'un module “Internal environnement” de l'agent qui agirait sur cet environnement.
Option : ressemble à une sous-routine. Ca consiste en :
Deux composants des options sont important :
<note important>Pourquoi utiliser le QLearning et le MDP au lieu de l'un ou l'autre ?</note>
L'expérience :
L'agent à un œil et un bras, il peut activer plusieurs objets qui produisent de la lumière ou du son autour de lui. Certain objets ont des comportements différents en fonction de l'activation ou de la désactivation des autres objets. Les objets n'ont pas la même apparence en fonction de l'éclairage (activation ou non de la lumière).
Lorsque l'agent interagi pour la première fois avec un objet, une structure permettant d'apprendre et de stocker l'option de l'objet est ajoutée. Au fur et à mesure que l'agent interagi avec l'environnement, les options sont mises à jour.