Site Tools


Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
memento-td-gng

Mémento TD-GNG

Les 3 étapes de l'algo :

Adaptation

A chaque itération les nodes peuvent être connectées, bougées, ajoutées ou supprimées. Dans les régions avec beaucoup d'activité -> ajout de noeuds. Région avec peu d'activité -> pas de suppression de noeuds (pour ne pas perdre d'information)

Les noeuds bougent où statistiquement ils recevront une plus grande récompense.

Si une nouvelle représentation de l'état de l'environnement est perçue par l'agent

  • sélection du noeud le plus proche
  • sera la prochaine action de l'agent

Rafinnement

Pour l'ajout de noeuds, une valeur seuil est estimée (estimation des valeurs max des actions possible). Risque de blocage s'il n'y a pas assez de noeuds. Le blocage peut être évité si l'on crée de nouveaux neouds avant la saturation de la fonction action-valeur.

Comportement et apprentissage

Les tuples actions-valeurs sont les mêmes pour tous les états d'un noeud. Attention à la répartition des noeuds qui peuvent rendre impossible la résolution de certain problèmes (cf figure 1a/1b).

Si une région est activée pendant un long moment -> ajout d'un nouveau noeud.

Conclusion

  • TD-GNG peu sensible au bruit
  • Converge plus vite que TD-AVQ (sur les tests présentés dans la publication)
  • Moins de mémoire utilisée que TD-AVQ

“In all experiments the TD-GNG algorithm has shown to be capable of reducing the dimensionality of the problem, increasing the generalization, and reducing the convergence time of RL algorithms”

Pistes de recherche pour compléter les connaissances manquante

  • TD-AVQ
  • Markov property
  • Independance / Dependance of path (va probablement de paire avec le point précédent)
memento-td-gng.txt · Last modified: 2024/10/25 20:36 by 47.128.121.229