memento-td-gng

Mémento TD-GNG

Les 3 étapes de l'algo :

Adaptation

A chaque itération les nodes peuvent être connectées, bougées, ajoutées ou supprimées. Dans les régions avec beaucoup d'activité -> ajout de noeuds. Région avec peu d'activité -> pas de suppression de noeuds (pour ne pas perdre d'information)

Les noeuds bougent où statistiquement ils recevront une plus grande récompense.

Si une nouvelle représentation de l'état de l'environnement est perçue par l'agent

sélection du noeud le plus proche
sera la prochaine action de l'agent

Rafinnement

Pour l'ajout de noeuds, une valeur seuil est estimée (estimation des valeurs max des actions possible). Risque de blocage s'il n'y a pas assez de noeuds. Le blocage peut être évité si l'on crée de nouveaux neouds avant la saturation de la fonction action-valeur.

Comportement et apprentissage

Les tuples actions-valeurs sont les mêmes pour tous les états d'un noeud. Attention à la répartition des noeuds qui peuvent rendre impossible la résolution de certain problèmes (cf figure 1a/1b).

Si une région est activée pendant un long moment -> ajout d'un nouveau noeud.

Conclusion

TD-GNG peu sensible au bruit
Converge plus vite que TD-AVQ (sur les tests présentés dans la publication)
Moins de mémoire utilisée que TD-AVQ

“In all experiments the TD-GNG algorithm has shown to be capable of reducing the dimensionality of the problem, increasing the generalization, and reducing the convergence time of RL algorithms”

Pistes de recherche pour compléter les connaissances manquante

TD-AVQ
Markov property
Independance / Dependance of path (va probablement de paire avec le point précédent)