- motivation intrinsèque : action provoquée par la recherche d'une récompense.
- motivation extrinsèque : action provoquée par l'envie de faire quelque chose de bien.
L'idée est de se baser sur des faits de neuroscience pour créer l'agent. Le modulateur de dopamine n'est pas seulement associé au système de récompense, mais aussi dans le processus d'exploration.
En appliquant ça au RL, il est possible de développer le système agent-environnement classique. Les récompenses ne viendraient pas de l'environnement, mais d'un module "Internal environnement" de l'agent qui agirait sur cet environnement.
Option : ressemble à une sous-routine. Ca consiste en :
- Une politique : indique à l'agent quel comportement avoir pour atteindre un certain état
- Un ensemble d'initiation : indique comment les états peuvent être amorcés
- Une condition de fin
Deux composants des options sont important :
- Les modèles d'options : description probabiliste des effets de exécution de l'option. Cela donne la probabilité que l'option se termine sur un autre état que celui qui est prévu.
- La méthode d'apprentissage intra-option : permet l'actualisation des politiques de plusieurs options pendant que l'agent interagi avec l'environnement.
<note important>Pourquoi utiliser le QLearning et le MDP au lieu de l'un ou l'autre ?</note>
L'expérience :
L'agent à un œil et un bras, il peut activer plusieurs objets qui produisent de la lumière ou du son autour de lui. Certain objets ont des comportements différents en fonction de l'activation ou de la désactivation des autres objets. Les objets n'ont pas la même apparence en fonction de l'éclairage (activation ou non de la lumière).
Lorsque l'agent interagi pour la première fois avec un objet, une structure permettant d'apprendre et de stocker l'option de l'objet est ajoutée. Au fur et à mesure que l'agent interagi avec l'environnement, les options sont mises à jour.
Lorsque l'agent rencontre un évènement important, il aura tendance à essayer de le comprendre rapidement. Ceci va conduire à deux effets secondaires :
- L'apprentissage va améliorer la politique et l'option-model qui prédit l'évènement
- La récompense intrinsèque va diminuer, et l'agent va s'ennuyer de cet évènement (et donc en chercher d'autres)
Comme le montre la figure 4 (cf document), les évènements simple sont appris en premier. Même si leur récompense diminue, ils continuent d'arriver car ils sont nécessaire à l'apprentissage d'évènements plus complexes.
Conclusion :
Un agent qui a une collection de compétences apprises à partir de récompenses intrinsèques peut apprendre un large éventail de tâches récompensées extrinsèquement plus facilement que si l'agent n'avait pas ces compétences.