Problème : Lorsque le MDP devient trop important (trop d'états, trop d'actions), l'apprentissage devient lent. Solution : Estimer la fonction de valeur avec une fonction approximation Il existe plusieurs approximateurs : * Réseau de neurones * Arbre de décision * Fourier * ... ===Descente de gradient=== Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états). Le gradient de J(w) est défini sous forme matricielle, [[http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/FA.pdf | voir diapo 11]] Permet de trouver un minimum local J(w) Objectif : Trouver le paramètre w qui minimise le carré de l'erreur entre la valeur approximée et la vrai valeur. Questions : * Que représente Δw (une valeur, un vector, ...), et à quoi s'en sert-on ? ===Représentation d'un état dans un vector=== Ranger dans le vector les n valeurs du même état. ===Fonction approximation de valeur linéaire=== (Linear Value Function Approximation) * La descente de gradient stochastique converge vers un optimum global. * Actualisation = step-size * prediction error * feature value Questions : * Qu'est ce qu'on appelle une feature ?