===== Environnement grille - Qlearning - Joint state learners =====

==== Modifications apportées à la grille ====

   * Les récompenses sont accordées aux agents après qu'ils aient tous effectués une action.
   * Si des agents entrent en collision, ils ne se déplacent pas
   * Possibilité de compter le nombre de collisions

==== Expérience ====

Même conditions que pour l'environnement grille classique avec des ILs. \\
Grille type Tunnel to Goal, 2 agents.

Rappel des résultats obtenus avec des ILs : http://liris.cnrs.fr/sasem/doku.php?id=realisation_env_grille_qlearning_sma


==== Résultats avec Joint state learners ====

Les collisions disparaissent rapidement (les deux courbes se confondent car les collisions qui arrivent a un agent arrivent forcément à l'autre):

{{:rewards_collisions_grille_jsl.png|}}

Politique optimale trouvée :

{{:rewards_grille_jsl.png|}}