Differences

This shows you the differences between two versions of the page.

--- memento-value-function-approximation [2025/10/18 21:41]
172.245.117.29 old revision restored (2025/08/29 00:23)
+++ memento-value-function-approximation [2025/10/19 23:11] (current)
216.73.216.169 old revision restored (2025/10/19 07:57)
@@ Line 9: / Line 9: @@
    * ...
-===Algorithme du gradient===
+===Descente de gradient===
 Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états).
@@ Line 39: / Line 39: @@
 Algorithme qui trouve le paramètre w qui minimise la somme des carrés des erreurs entre la fonction approximation et la la valeur cible.
-===Stochastic Gradient Descent with Experience Replay===
-Expérience donnée sous la forme de pair <Etat, Valeur>.
-(Voir diapo 37 pour plus de détails)
-===Experience Replay in Deep Q-Network===
-   * DQN utilisent l'experience replay.
-   * Choix d'action en fonction d'une politique gloutonne.
-   * Sauvegarde les transitions en replay memomry
-   * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning
-   * Utilise une variante de la descente de gradient stochastique
-   *

DokuWiki