Differences

This shows you the differences between two versions of the page.

--- memento-td-gng [2025/03/04 18:43]
47.128.42.28 old revision restored (2025/02/28 17:13)
+++ memento-td-gng [2025/03/11 17:50] (current)
47.128.30.75 old revision restored (2025/03/02 17:56)
@@ Line 12: / Line 12: @@
    * sélection du noeud le plus proche
    * sera la prochaine action de l'agent
-=== Rafinnement ===
-Pour l'ajout de noeuds, une valeur seuil est estimée (estimation  des valeurs max des actions possible). Risque de blocage s'il n'y a pas assez de noeuds. Le blocage peut être évité si l'on crée de nouveaux neouds avant la saturation de la fonction action-valeur.
-=== Comportement et apprentissage ===
-Les tuples actions-valeurs sont les mêmes pour tous les états d'un noeud. Attention à la répartition des noeuds qui peuvent rendre impossible la résolution de certain problèmes (cf figure 1a/1b).
-Si une région est activée pendant un long moment -> ajout d'un nouveau noeud.
-==== Conclusion ====
-   * TD-GNG peu sensible au bruit
-   * Converge plus vite que TD-AVQ (sur les tests présentés dans la publication)
-   * Moins de mémoire utilisée que TD-AVQ
-"In all experiments the TD-GNG algorithm has shown to be capable of reducing the dimensionality of the problem, increasing the generalization, and reducing the convergence time of RL algorithms"
-==== Pistes de recherche pour compléter les connaissances manquantes ====
-   * TD-AVQ
-   * Markov property
-   * Independance / Dependance of path (va probablement de paire avec le point précédent)

DokuWiki

Site Tools

Differences

Page Tools