Site Tools


Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
realisation_env_mountainar_gym_qlearning

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
realisation_env_mountainar_gym_qlearning [2025/02/10 20:25]
47.128.23.103 old revision restored (2025/01/25 18:30)
realisation_env_mountainar_gym_qlearning [2025/04/18 10:20] (current)
47.128.111.160 old revision restored (2025/03/04 18:10)
Line 11: Line 11:
 La position de départ de la voiture est en -0.5 et sa vitesse est nulle. La position de départ de la voiture est en -0.5 et sa vitesse est nulle.
  
-A chaque mouvement l'agent reçoit une récompense de -1. \\+A chaque mouvement l'agent reçoit une récompense de -1 ou 0 s'il atteint sont objectif. \\
  
 Le but est donc de faire apprendre à la voiture comment grimper en haut de la colline le plus rapidement possible. Pour cela j'essaie d'utiliser un QLearning en discrétisant la position de la voiture.  Le but est donc de faire apprendre à la voiture comment grimper en haut de la colline le plus rapidement possible. Pour cela j'essaie d'utiliser un QLearning en discrétisant la position de la voiture. 
Line 38: Line 38:
 Il n'y a aucun apprentissage, l'algorithme a l'air même moins efficace que l'aléatoire. Il n'y a aucun apprentissage, l'algorithme a l'air même moins efficace que l'aléatoire.
  
-J'ai l'impression d'utiliser exactement le même QLearning que pour mon environnement de grille et pour lequel il y a un apprentissage. Peut être que je rate un détail stupide, je ne sais pas, mais je ne vois pas quoi faire de plus que tout ce que j'ai déjà testé.+J'ai l'impression d'utiliser exactement le même QLearning que pour mon environnement de grille et pour lequel il y a un apprentissage. Peut être que je rate un détail stupide, mais je ne vois pas où est le problème.
  
 L'environnement Pendulum me parait être le même que le MountainCar avec une dimension en plus et une action continue à choisir à chaque étape, je peux essayer de faire marcher le QLearning dessus, mais je ne vois pas pourquoi cela fonctionnerait mieux. L'environnement Pendulum me parait être le même que le MountainCar avec une dimension en plus et une action continue à choisir à chaque étape, je peux essayer de faire marcher le QLearning dessus, mais je ne vois pas pourquoi cela fonctionnerait mieux.
realisation_env_mountainar_gym_qlearning.1739215551.txt.gz · Last modified: 2025/02/10 20:25 by 47.128.23.103