Problème : Lorsque le MDP devient trop important (trop d'états, trop d'actions), l'apprentissage devient lent. Solution : Estimer la fonction de valeur avec une fonction approximation Il existe plusieurs approximateurs : * Réseau de neurones * Arbre de décision * Fourier * ... Définitions : * Off-policy : Actualisation des valeurs à partir de l'état suivant et de l'action "gloutonne". * On-policy : Actualisation des valeurs à partir de l'état suivant et de l'action de la politique courante. ===Algorithme du gradient=== Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états). Le gradient de J(w) est défini sous forme matricielle, [[http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/FA.pdf | voir diapo 11]] Permet de trouver un minimum local J(w) Objectif : Trouver le paramètre w qui minimise le carré de l'erreur entre la valeur approximée et la vrai valeur. Questions : * Que représente Δw (une valeur, un vector, ...), et à quoi s'en sert-on ? ===Représentation d'un état dans un vector=== Ranger dans le vector les n valeurs du même état. ===Fonction approximation de valeur linéaire=== (Linear Value Function Approximation) * La descente de gradient stochastique converge vers un optimum global. * Actualisation = step-size * prediction error * feature value Questions : * Qu'est ce qu'on appelle une feature ? ===Least Squares Prediction=== Algorithme qui trouve le paramètre w qui minimise la somme des carrés des erreurs entre la fonction approximation et la la valeur cible. ===Stochastic Gradient Descent with Experience Replay=== Expérience donnée sous la forme de pair . (Voir diapo 37 pour plus de détails) ===Experience Replay in Deep Q-Network=== * DQN utilisent l'experience replay. * Choix d'action en fonction d'une politique gloutonne. * Sauvegarde les transitions en replay memomry * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning * Utilise une variante de la descente de gradient stochastique