Differences

This shows you the differences between two versions of the page.

--- realisation_env_grille_qlearning_sma [2025/02/28 17:07]
47.128.125.245 old revision restored (2025/02/13 18:45)
+++ realisation_env_grille_qlearning_sma [2025/04/18 13:24] (current)
47.128.124.206 old revision restored (2025/02/23 18:12)
@@ Line 34: / Line 34: @@
 Deux IL évoluent sur une grille de forme Tunnel To Goal avec un QLearning (grille ci-dessus). Les deux agents essaient d'apprendre une politique optimale, mais se court-circuitent en arrivant devant le tunnel.
-{{:reward_grille_sma_ils.png|}}
+{{:reward_grille_sma_ils.png|}}\\
 (Somme des récompenses des deux agents - l'un en violet, l'autre en marron)
 La récompense de -10 sur la collision à l'entrée du tunnel les empêche d'apprendre la politique optimale

DokuWiki