Differences
This shows you the differences between two versions of the page.
| Both sides previous revision
Previous revision
Next revision
|
Previous revision
|
realisation_env_mountainar_gym_qlearning [2025/12/02 15:33] 47.128.16.77 old revision restored (2025/10/25 18:21) |
realisation_env_mountainar_gym_qlearning [2025/12/11 22:38] (current) 66.249.70.69 old revision restored (2025/10/14 00:45) |
| La position de départ de la voiture est en -0.5 et sa vitesse est nulle. | La position de départ de la voiture est en -0.5 et sa vitesse est nulle. |
| |
| A chaque mouvement l'agent reçoit une récompense de -1. \\ | A chaque mouvement l'agent reçoit une récompense de -1 ou 0 s'il atteint sont objectif. \\ |
| |
| Le but est donc de faire apprendre à la voiture comment grimper en haut de la colline le plus rapidement possible. Pour cela j'essaie d'utiliser un QLearning en discrétisant la position de la voiture. | Le but est donc de faire apprendre à la voiture comment grimper en haut de la colline le plus rapidement possible. Pour cela j'essaie d'utiliser un QLearning en discrétisant la position de la voiture. |
| Il n'y a aucun apprentissage, l'algorithme a l'air même moins efficace que l'aléatoire. | Il n'y a aucun apprentissage, l'algorithme a l'air même moins efficace que l'aléatoire. |
| |
| J'ai l'impression d'utiliser exactement le même QLearning que pour mon environnement de grille et pour lequel il y a un apprentissage. Peut être que je rate un détail stupide, je ne sais pas, mais je ne vois pas quoi faire de plus que tout ce que j'ai déjà testé. | J'ai l'impression d'utiliser exactement le même QLearning que pour mon environnement de grille et pour lequel il y a un apprentissage. Peut être que je rate un détail stupide, mais je ne vois pas où est le problème. |
| |
| L'environnement Pendulum me parait être le même que le MountainCar avec une dimension en plus et une action continue à choisir à chaque étape, je peux essayer de faire marcher le QLearning dessus, mais je ne vois pas pourquoi cela fonctionnerait mieux. | L'environnement Pendulum me parait être le même que le MountainCar avec une dimension en plus et une action continue à choisir à chaque étape, je peux essayer de faire marcher le QLearning dessus, mais je ne vois pas pourquoi cela fonctionnerait mieux. |