This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
memento-intrinsically-motivated-rl [2025/06/30 22:24] 47.128.46.208 old revision restored (2025/03/04 18:16) |
memento-intrinsically-motivated-rl [2025/07/03 04:21] (current) 20.171.207.121 old revision restored (2025/06/05 05:39) |
||
---|---|---|---|
Line 6: | Line 6: | ||
L' | L' | ||
- | En appliquant ça au RL, il est possible de développer le système agent-environnement classique. Les récompenses ne viendraient pas de l' | + | En appliquant ça au RL, il est possible de développer le système agent-environnement classique. Les récompenses ne viendraient pas de l' |
+ | Option : ressemble à une sous-routine. Ca consiste en : | ||
+ | * Une politique : indique à l' | ||
+ | * Un ensemble d' | ||
+ | * Une condition de fin | ||
+ | |||
+ | Deux composants des options sont important : | ||
+ | * Les modèles d' | ||
+ | * La méthode d' | ||