Site Tools


Hotfix release available: 2025-05-14b "Librarian". upgrade now! [56.2] (what's this?)
Hotfix release available: 2025-05-14a "Librarian". upgrade now! [56.1] (what's this?)
New release available: 2025-05-14 "Librarian". upgrade now! [56] (what's this?)
Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
realisation_env_grille_qlearning_sma

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
realisation_env_grille_qlearning_sma [2025/11/30 03:00]
47.128.116.5 old revision restored (2025/06/29 21:25)
realisation_env_grille_qlearning_sma [2025/12/10 02:26] (current)
47.128.47.5 old revision restored (2025/08/20 21:31)
Line 30: Line 30:
 {{:grille_sma.png|}} {{:grille_sma.png|}}
  
-==== Experience Sans collisions ====+==== Experience Tunnel To Goal ====
  
-Deux ILs tentent d'atteindre l'objectif au bout de leur tunnel respectifLeur route ne se rencontrent jamais, aucune collision n'est donc provoquée. +Deux IL évoluent sur une grille de forme Tunnel To Goal avec un QLearning (grille ci-dessus)Les deux agents essaient d'apprendre une politique optimale, mais se court-circuitent en arrivant devant le tunnel.
-Dans ce contexte l'apprentissage classique, les deux agents devraient trouver une politique optimale comme s'ils étaient seul sur la grille.+
  
-{{:sans_collisions_sma_grille.png|}}+{{:reward_grille_sma_ils.png|}}\\ 
 +(Somme des récompenses des deux agents - l'un en violet, l'autre en marron)
  
-On peut voir que la somme des récompenses tend vers un minimum et que les agents ne se perturbent pas.+La récompense de -10 sur la collision à l'entrée du tunnel les empêche d'apprendre la politique optimale
  
-{{:sans_collision_sma_grille_ils.png|}}+==== Experience Sans collisions ====
  
-(Somme des récompenses des deux agents - l'un en violet, l'autre en marron)+Même test en prenant une grille dans laquelle il n'y a pas de collisions.
  
-==== Experience Tunnel To Goal ====+{{:sans_collisions_sma_grille.png|}}
  
-Deux ILs évoluent sur une grille de forme Tunnel To Goal avec un QLearning (grille ci-dessous). Les deux agents essaient d'apprendre une politique optimale, mais ils devraient se court-circuiter mutuellement devant l'entrée du tunnel.+On peut voir que la somme des récompenses tend vers un minimum et que les agents ne se perturbent pas.
  
-{{:grille_sma.png|}} +{{:sans_collisions_sma_grille_ILs.png|}}
- +
- +
-{{:reward_grille_sma_ils.png|}}\\+
 (Somme des récompenses des deux agents - l'un en violet, l'autre en marron) (Somme des récompenses des deux agents - l'un en violet, l'autre en marron)
- 
-La récompense de -10 sur la collision à l'entrée du tunnel les empêche d'apprendre la politique optimale 
realisation_env_grille_qlearning_sma.1764468046.txt.gz · Last modified: 2025/11/30 03:00 by 47.128.116.5