Differences

This shows you the differences between two versions of the page.

--- realisation_env_grille_qlearning_sma [2025/11/30 03:00]
47.128.116.5 old revision restored (2025/06/29 21:25)
+++ realisation_env_grille_qlearning_sma [2025/12/10 02:26] (current)
47.128.47.5 old revision restored (2025/08/20 21:31)
@@ Line 30: / Line 30: @@
 {{:grille_sma.png|}}
-==== Experience Sans collisions ====
+==== Experience Tunnel To Goal ====
-Deux ILs tentent d'atteindre l'objectif au bout de leur tunnel respectif. Leur route ne se rencontrent jamais, aucune collision n'est donc provoquée.
+Deux IL évoluent sur une grille de forme Tunnel To Goal avec un QLearning (grille ci-dessus). Les deux agents essaient d'apprendre une politique optimale, mais se court-circuitent en arrivant devant le tunnel.
-Dans ce contexte l'apprentissage classique, les deux agents devraient trouver une politique optimale comme s'ils étaient seul sur la grille.
-{{:sans_collisions_sma_grille.png|}}
+{{:reward_grille_sma_ils.png|}}\\
+(Somme des récompenses des deux agents - l'un en violet, l'autre en marron)
-On peut voir que la somme des récompenses tend vers un minimum et que les agents ne se perturbent pas.
+La récompense de -10 sur la collision à l'entrée du tunnel les empêche d'apprendre la politique optimale
-{{:sans_collision_sma_grille_ils.png|}}
+==== Experience Sans collisions ====
-(Somme des récompenses des deux agents - l'un en violet, l'autre en marron)
+Même test en prenant une grille dans laquelle il n'y a pas de collisions.
-==== Experience Tunnel To Goal ====
+{{:sans_collisions_sma_grille.png|}}
-Deux ILs évoluent sur une grille de forme Tunnel To Goal avec un QLearning (grille ci-dessous). Les deux agents essaient d'apprendre une politique optimale, mais ils devraient se court-circuiter mutuellement devant l'entrée du tunnel.
+On peut voir que la somme des récompenses tend vers un minimum et que les agents ne se perturbent pas.
-{{:grille_sma.png|}}
+{{:sans_collisions_sma_grille_ILs.png|}}
-{{:reward_grille_sma_ils.png|}}\\
 (Somme des récompenses des deux agents - l'un en violet, l'autre en marron)
-La récompense de -10 sur la collision à l'entrée du tunnel les empêche d'apprendre la politique optimale

DokuWiki

Site Tools

Differences

Page Tools