Site Tools


Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
memento-value-function-approximation

Problème : Lorsque le MDP devient trop important (trop d'états, trop d'actions), l'apprentissage devient lent.

Solution : Estimer la fonction de valeur avec une fonction approximation

Il existe plusieurs approximateurs :

  • Réseau de neurones
  • Arbre de décision
  • Fourier
  • ...

Définitions :

  • Off-policy : Actualisation des valeurs à partir de l'état suivant et de l'action “gloutonne”.
  • On-policy : Actualisation des valeurs à partir de l'état suivant et de l'action de la politique courante.

Algorithme du gradient

Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états).

Le gradient de J(w) est défini sous forme matricielle, voir diapo 11

Permet de trouver un minimum local J(w)

Objectif : Trouver le paramètre w qui minimise le carré de l'erreur entre la valeur approximée et la vrai valeur.

Questions :

  • Que représente Δw (une valeur, un vector, ...), et à quoi s'en sert-on ?

Représentation d'un état dans un vector

Ranger dans le vector les n valeurs du même état.

Fonction approximation de valeur linéaire

(Linear Value Function Approximation)

  • La descente de gradient stochastique converge vers un optimum global.
  • Actualisation = step-size * prediction error * feature value

Questions :

  • Qu'est ce qu'on appelle une feature ?

Least Squares Prediction

Algorithme qui trouve le paramètre w qui minimise la somme des carrés des erreurs entre la fonction approximation et la la valeur cible.

Stochastic Gradient Descent with Experience Replay

Expérience donnée sous la forme de pair <Etat, Valeur>. (Voir diapo 37 pour plus de détails)

Experience Replay in Deep Q-Network

  • DQN utilisent l'experience replay.
  • Choix d'action en fonction d'une politique gloutonne.
  • Sauvegarde les transitions en replay memomry
  • Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning
  • Utilise une variante de la descente de gradient stochastique
memento-value-function-approximation.txt · Last modified: 2024/10/26 06:32 by 47.128.56.48