Differences

This shows you the differences between two versions of the page.

--- memento-value-function-approximation [2025/03/04 18:16]
47.128.51.234 old revision restored (2025/02/25 19:15)
+++ memento-value-function-approximation [2025/04/04 20:10] (current)
3.144.99.0 old revision restored (2025/03/11 17:51)
@@ Line 8: / Line 8: @@
    * Fourier
    * ...
-Définitions :
-   * Off-policy : Actualisation des valeurs à partir de l'état suivant et de l'action "gloutonne".
-   * On-policy : Actualisation des valeurs à partir de l'état suivant et de l'action de la politique courante.
 ===Algorithme du gradient===
@@ Line 56: / Line 52: @@
    * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning
    * Utilise une variante de la descente de gradient stochastique
+   *

DokuWiki