Differences

This shows you the differences between two versions of the page.

--- memento-td-gng [2025/03/02 18:14]
47.128.54.180 old revision restored (2025/02/24 18:40)
+++ memento-td-gng [2025/03/11 17:50] (current)
47.128.30.75 old revision restored (2025/03/02 17:56)
@@ Line 1: / Line 1: @@
 ===== Mémento TD-GNG =====
-Lien de la publication : http://liris.cnrs.fr/sasem/lib/exe/fetch.php?media=m1r2017:vieira2013tdgngoriginal.pdf
 ==== Les 3 étapes de l'algo : ====
@@ Line 7: / Line 5: @@
 === Adaptation ===
-A chaque itération les nodes peuvent être connectées, bougées, ajoutées ou supprimées. \\ Dans les régions avec beaucoup d'activité -> ajout de noeuds. \\  Région avec peu d'activité -> pas de suppression de noeuds (pour ne pas perdre d'information)
+A chaque itération les nodes peuvent être connectées, bougées, ajoutées ou supprimées. Dans les régions avec beaucoup d'activité -> ajout de noeuds. Région avec peu d'activité -> pas de suppression de noeuds (pour ne pas perdre d'information)
 Les noeuds bougent où statistiquement ils recevront une plus grande récompense.
@@ Line 14: / Line 12: @@
    * sélection du noeud le plus proche
    * sera la prochaine action de l'agent
-=== Rafinnement ===
-Pour l'ajout de noeuds, une valeur seuil est estimée (estimation  des valeurs max des actions possible). Risque de blocage s'il n'y a pas assez de noeuds. Le blocage peut être évité si l'on crée de nouveaux neouds avant la saturation de la fonction action-valeur.
-=== Comportement et apprentissage ===
-Les tuples actions-valeurs sont les mêmes pour tous les états d'un noeud. Attention à la répartition des noeuds qui peuvent rendre impossible la résolution de certain problèmes (cf figure 1a/1b).
-Si une région est activée pendant un long moment -> ajout d'un nouveau noeud.
-==== Conclusion ====
-   * TD-GNG peu sensible au bruit
-   * Converge plus vite que TD-AVQ (sur les tests présentés dans la publication)
-   * Moins de mémoire utilisée que TD-AVQ
-"In all experiments the TD-GNG algorithm has shown to be capable of reducing the dimensionality of the problem, increasing the generalization, and reducing the convergence time of RL algorithms"
-==== Pistes de recherche pour compléter les connaissances manquantes ====
-   * TD-AVQ
-   * Markov property
-   * Independance / Dependance of path (va probablement de paire avec le point précédent)

DokuWiki

Site Tools

Differences

Page Tools