Site Tools


Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
memento-td-gng

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
memento-td-gng [2025/03/02 18:14]
47.128.54.180 old revision restored (2025/02/24 18:40)
memento-td-gng [2025/03/11 17:50] (current)
47.128.30.75 old revision restored (2025/03/02 17:56)
Line 1: Line 1:
 ===== Mémento TD-GNG ===== ===== Mémento TD-GNG =====
- 
-Lien de la publication : http://liris.cnrs.fr/sasem/lib/exe/fetch.php?media=m1r2017:vieira2013tdgngoriginal.pdf 
  
 ==== Les 3 étapes de l'algo : ==== ==== Les 3 étapes de l'algo : ====
Line 7: Line 5:
 === Adaptation === === Adaptation ===
  
-A chaque itération les nodes peuvent être connectées, bougées, ajoutées ou supprimées. \\ Dans les régions avec beaucoup d'activité -> ajout de noeuds. \\  Région avec peu d'activité -> pas de suppression de noeuds (pour ne pas perdre d'information)+A chaque itération les nodes peuvent être connectées, bougées, ajoutées ou supprimées. Dans les régions avec beaucoup d'activité -> ajout de noeuds. Région avec peu d'activité -> pas de suppression de noeuds (pour ne pas perdre d'information)
  
 Les noeuds bougent où statistiquement ils recevront une plus grande récompense. Les noeuds bougent où statistiquement ils recevront une plus grande récompense.
Line 14: Line 12:
    * sélection du noeud le plus proche    * sélection du noeud le plus proche
    * sera la prochaine action de l'agent     * sera la prochaine action de l'agent 
- 
-=== Rafinnement === 
- 
-Pour l'ajout de noeuds, une valeur seuil est estimée (estimation  des valeurs max des actions possible). Risque de blocage s'il n'y a pas assez de noeuds. Le blocage peut être évité si l'on crée de nouveaux neouds avant la saturation de la fonction action-valeur. 
- 
-=== Comportement et apprentissage === 
- 
-Les tuples actions-valeurs sont les mêmes pour tous les états d'un noeud. Attention à la répartition des noeuds qui peuvent rendre impossible la résolution de certain problèmes (cf figure 1a/1b). 
- 
-Si une région est activée pendant un long moment -> ajout d'un nouveau noeud. 
- 
- 
-==== Conclusion ==== 
- 
-   * TD-GNG peu sensible au bruit 
-   * Converge plus vite que TD-AVQ (sur les tests présentés dans la publication) 
-   * Moins de mémoire utilisée que TD-AVQ 
- 
-"In all experiments the TD-GNG algorithm has shown to be capable of reducing the dimensionality of the problem, increasing the generalization, and reducing the convergence time of RL algorithms" 
- 
- 
- 
-==== Pistes de recherche pour compléter les connaissances manquantes ==== 
- 
-   * TD-AVQ 
-   * Markov property 
-   * Independance / Dependance of path (va probablement de paire avec le point précédent) 
  
  
memento-td-gng.1740935676.txt.gz · Last modified: 2025/03/02 18:14 by 47.128.54.180