Site Tools


Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
memento-intrinsically-motivated-rl

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
memento-intrinsically-motivated-rl [2025/02/13 18:35]
47.128.58.193 old revision restored (2025/01/21 18:08)
memento-intrinsically-motivated-rl [2025/04/11 13:58] (current)
52.14.9.19 old revision restored (2025/04/02 11:06)
Line 1: Line 1:
-=====Memento sur [Singh2005]=====+=====Mémento sur [Singh2005]=====
  
    * motivation intrinsèque : action provoquée par la recherche d'une récompense.    * motivation intrinsèque : action provoquée par la recherche d'une récompense.
Line 24: Line 24:
  
 Lorsque l'agent interagi pour la première fois avec un objet, une structure permettant d'apprendre et de stocker l'option de l'objet est ajoutée. Au fur et à mesure que l'agent interagi avec l'environnement, les options sont mises à jour. Lorsque l'agent interagi pour la première fois avec un objet, une structure permettant d'apprendre et de stocker l'option de l'objet est ajoutée. Au fur et à mesure que l'agent interagi avec l'environnement, les options sont mises à jour.
 +
 +Lorsque l'agent rencontre un évènement important, il aura tendance à essayer de le comprendre rapidement. Ceci va conduire à deux effets secondaires :
 +   -L'apprentissage va améliorer la politique et l'option-model qui prédit l'évènement
 +   -La récompense intrinsèque va diminuer, et l'agent va s'ennuyer de cet évènement (et donc en chercher d'autres)
 +
 +
 +Comme le montre la figure 4 (cf document), les évènements simple sont appris en premier. Même si leur récompense diminue, ils continuent d'arriver car ils sont nécessaire à l'apprentissage d'évènements plus complexes.
 +
 +Conclusion :
 +Un agent qui a une collection de compétences apprises à partir de récompenses intrinsèques peut apprendre un large éventail de tâches récompensées extrinsèquement plus facilement  que si l'agent n'avait pas ces compétences.
  
  
memento-intrinsically-motivated-rl.1739468114.txt.gz · Last modified: 2025/02/13 18:35 by 47.128.58.193