Differences

This shows you the differences between two versions of the page.

--- memento-td-gng [2025/12/08 07:38]
47.128.19.152 old revision restored (2025/08/29 09:10)
+++ memento-td-gng [2025/12/12 05:07] (current)
216.73.216.127 old revision restored (2025/12/07 14:18)
@@ Line 1: / Line 1: @@
 ===== Mémento TD-GNG =====
+Lien de la publication : http://liris.cnrs.fr/sasem/lib/exe/fetch.php?media=m1r2017:vieira2013tdgngoriginal.pdf
 ==== Les 3 étapes de l'algo : ====
@@ Line 5: / Line 7: @@
 === Adaptation ===
-A chaque itération les nodes peuvent être connectées, bougées, ajoutées ou supprimées. Dans les régions avec beaucoup d'activité -> ajout de noeuds. Région avec peu d'activité -> pas de suppression de noeuds (pour ne pas perdre d'information)
+A chaque itération les nodes peuvent être connectées, bougées, ajoutées ou supprimées. \\ Dans les régions avec beaucoup d'activité -> ajout de noeuds. \\  Région avec peu d'activité -> pas de suppression de noeuds (pour ne pas perdre d'information)
 Les noeuds bougent où statistiquement ils recevront une plus grande récompense.
@@ Line 12: / Line 14: @@
    * sélection du noeud le plus proche
    * sera la prochaine action de l'agent
+=== Rafinnement ===
+Pour l'ajout de noeuds, une valeur seuil est estimée (estimation  des valeurs max des actions possible). Risque de blocage s'il n'y a pas assez de noeuds. Le blocage peut être évité si l'on crée de nouveaux neouds avant la saturation de la fonction action-valeur.
+=== Comportement et apprentissage ===
+Les tuples actions-valeurs sont les mêmes pour tous les états d'un noeud. Attention à la répartition des noeuds qui peuvent rendre impossible la résolution de certain problèmes (cf figure 1a/1b).
+Si une région est activée pendant un long moment -> ajout d'un nouveau noeud.
+==== Conclusion ====
+   * TD-GNG peu sensible au bruit
+   * Converge plus vite que TD-AVQ (sur les tests présentés dans la publication)
+   * Moins de mémoire utilisée que TD-AVQ
+"In all experiments the TD-GNG algorithm has shown to be capable of reducing the dimensionality of the problem, increasing the generalization, and reducing the convergence time of RL algorithms"
+==== Pistes de recherche pour compléter les connaissances manquantes ====
+   * TD-AVQ
+   * Markov property
+   * Independance / Dependance of path (va probablement de paire avec le point précédent)

DokuWiki

Site Tools

Differences

Page Tools