Site Tools


Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
memento-td-gng

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
memento-td-gng [2025/04/20 02:20]
13.59.149.79 old revision restored (2025/03/02 17:56)
memento-td-gng [2025/04/20 03:58] (current)
18.118.140.19 old revision restored (2025/04/19 22:16)
Line 12: Line 12:
    * sélection du noeud le plus proche    * sélection du noeud le plus proche
    * sera la prochaine action de l'agent     * sera la prochaine action de l'agent 
 +
 +=== Rafinnement ===
 +
 +Pour l'ajout de noeuds, une valeur seuil est estimée (estimation  des valeurs max des actions possible). Risque de blocage s'il n'y a pas assez de noeuds. Le blocage peut être évité si l'on crée de nouveaux neouds avant la saturation de la fonction action-valeur.
 +
 +=== Comportement et apprentissage ===
 +
 +Les tuples actions-valeurs sont les mêmes pour tous les états d'un noeud. Attention à la répartition des noeuds qui peuvent rendre impossible la résolution de certain problèmes (cf figure 1a/1b).
 +
 +Si une région est activée pendant un long moment -> ajout d'un nouveau noeud.
 +
 +
 +==== Conclusion ====
 +
 +   * TD-GNG peu sensible au bruit
 +   * Converge plus vite que TD-AVQ (sur les tests présentés dans la publication)
 +   * Moins de mémoire utilisée que TD-AVQ
 +
 +"In all experiments the TD-GNG algorithm has shown to be capable of reducing the dimensionality of the problem, increasing the generalization, and reducing the convergence time of RL algorithms"
 +
 +
 +
 +==== Pistes de recherche pour compléter les connaissances manquantes ====
 +
 +   * TD-AVQ
 +   * Markov property
 +   * Independance / Dependance of path (va probablement de paire avec le point précédent)
  
  
memento-td-gng.txt · Last modified: 2025/04/20 03:58 by 18.118.140.19