Site Tools


Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
memento-td-gng

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
memento-td-gng [2025/03/04 18:43]
47.128.42.28 old revision restored (2025/02/28 17:13)
memento-td-gng [2025/03/11 17:50] (current)
47.128.30.75 old revision restored (2025/03/02 17:56)
Line 12: Line 12:
    * sélection du noeud le plus proche    * sélection du noeud le plus proche
    * sera la prochaine action de l'agent     * sera la prochaine action de l'agent 
- 
-=== Rafinnement === 
- 
-Pour l'ajout de noeuds, une valeur seuil est estimée (estimation  des valeurs max des actions possible). Risque de blocage s'il n'y a pas assez de noeuds. Le blocage peut être évité si l'on crée de nouveaux neouds avant la saturation de la fonction action-valeur. 
- 
-=== Comportement et apprentissage === 
- 
-Les tuples actions-valeurs sont les mêmes pour tous les états d'un noeud. Attention à la répartition des noeuds qui peuvent rendre impossible la résolution de certain problèmes (cf figure 1a/1b). 
- 
-Si une région est activée pendant un long moment -> ajout d'un nouveau noeud. 
- 
- 
-==== Conclusion ==== 
- 
-   * TD-GNG peu sensible au bruit 
-   * Converge plus vite que TD-AVQ (sur les tests présentés dans la publication) 
-   * Moins de mémoire utilisée que TD-AVQ 
- 
-"In all experiments the TD-GNG algorithm has shown to be capable of reducing the dimensionality of the problem, increasing the generalization, and reducing the convergence time of RL algorithms" 
- 
- 
- 
-==== Pistes de recherche pour compléter les connaissances manquantes ==== 
- 
-   * TD-AVQ 
-   * Markov property 
-   * Independance / Dependance of path (va probablement de paire avec le point précédent) 
  
  
memento-td-gng.1741110238.txt.gz · Last modified: 2025/03/04 18:43 by 47.128.42.28