Problème : Lorsque le MDP devient trop important (trop d'états, trop d'actions), l'apprentissage devient lent.
Solution : Estimer la fonction de valeur avec une fonction approximation
Il existe plusieurs approximateurs :
Avec J(w), une fonction dérivable de paramètre w.
Le gradient de J(w) est défini sous forme matricielle, voir diapo 11
Permet de trouver un minimum local J(w)