Differences
This shows you the differences between two versions of the page.
Both sides previous revision
Previous revision
Next revision
|
Previous revision
|
realisation_env_mountainar_gym_qlearning [2025/02/10 20:25] 47.128.23.103 old revision restored (2025/01/25 18:30) |
realisation_env_mountainar_gym_qlearning [2025/04/18 10:20] (current) 47.128.111.160 old revision restored (2025/03/04 18:10) |
La position de départ de la voiture est en -0.5 et sa vitesse est nulle. | La position de départ de la voiture est en -0.5 et sa vitesse est nulle. |
| |
A chaque mouvement l'agent reçoit une récompense de -1. \\ | A chaque mouvement l'agent reçoit une récompense de -1 ou 0 s'il atteint sont objectif. \\ |
| |
Le but est donc de faire apprendre à la voiture comment grimper en haut de la colline le plus rapidement possible. Pour cela j'essaie d'utiliser un QLearning en discrétisant la position de la voiture. | Le but est donc de faire apprendre à la voiture comment grimper en haut de la colline le plus rapidement possible. Pour cela j'essaie d'utiliser un QLearning en discrétisant la position de la voiture. |
Il n'y a aucun apprentissage, l'algorithme a l'air même moins efficace que l'aléatoire. | Il n'y a aucun apprentissage, l'algorithme a l'air même moins efficace que l'aléatoire. |
| |
J'ai l'impression d'utiliser exactement le même QLearning que pour mon environnement de grille et pour lequel il y a un apprentissage. Peut être que je rate un détail stupide, je ne sais pas, mais je ne vois pas quoi faire de plus que tout ce que j'ai déjà testé. | J'ai l'impression d'utiliser exactement le même QLearning que pour mon environnement de grille et pour lequel il y a un apprentissage. Peut être que je rate un détail stupide, mais je ne vois pas où est le problème. |
| |
L'environnement Pendulum me parait être le même que le MountainCar avec une dimension en plus et une action continue à choisir à chaque étape, je peux essayer de faire marcher le QLearning dessus, mais je ne vois pas pourquoi cela fonctionnerait mieux. | L'environnement Pendulum me parait être le même que le MountainCar avec une dimension en plus et une action continue à choisir à chaque étape, je peux essayer de faire marcher le QLearning dessus, mais je ne vois pas pourquoi cela fonctionnerait mieux. |