This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
memento-value-function-approximation [2025/06/06 13:33] 216.73.216.170 old revision restored (2025/04/17 08:35) |
memento-value-function-approximation [2025/07/03 06:14] (current) 20.171.207.121 old revision restored (2025/07/01 10:14) |
||
---|---|---|---|
Line 8: | Line 8: | ||
* Fourier | * Fourier | ||
* ... | * ... | ||
+ | |||
+ | ===Descente de gradient=== | ||
+ | |||
+ | Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états). | ||
+ | |||
+ | Le gradient de J(w) est défini sous forme matricielle, | ||
+ | |||
+ | Permet de trouver un minimum local J(w) | ||
+ | |||
+ | Objectif : Trouver le paramètre w qui minimise le carré de l' | ||
+ | |||
+ | |||
+ | Questions : | ||
+ | * Que représente Δw (une valeur, un vector, ...), et à quoi s'en sert-on ? | ||
+ | |||
+ | ===Représentation d'un état dans un vector=== | ||
+ | |||
+ | Ranger dans le vector les n valeurs du même état. | ||
+ | |||
+ | ===Fonction approximation de valeur linéaire=== | ||
+ | (Linear Value Function Approximation) | ||
+ | |||
+ | * La descente de gradient stochastique converge vers un optimum global. | ||
+ | * Actualisation = step-size * prediction error * feature value | ||
+ | |||
+ | Questions : | ||
+ | * Qu'est ce qu'on appelle une feature ? | ||
+ | |||