Problème : Lorsque le MDP devient trop important (trop d'états, trop d'actions), l'apprentissage devient lent. Solution : Estimer la fonction de valeur avec une fonction approximation Il existe plusieurs approximateurs : * Réseau de neurones * Arbre de décision * Fourier * ... ===Descente de gradient=== Avec J(w), une fonction dérivable de paramètre w. Le gradient de J(w) est défini sous forme matricielle, [[http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/FA.pdf | voir diapo 11]] Permet de trouver un minimum local J(w)