This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
memento-td-gng [2025/12/08 07:38] 47.128.19.152 old revision restored (2025/08/29 09:10) |
memento-td-gng [2025/12/12 05:07] (current) 216.73.216.127 old revision restored (2025/12/07 14:18) |
||
|---|---|---|---|
| Line 1: | Line 1: | ||
| ===== Mémento TD-GNG ===== | ===== Mémento TD-GNG ===== | ||
| + | |||
| + | Lien de la publication : http:// | ||
| ==== Les 3 étapes de l'algo : ==== | ==== Les 3 étapes de l'algo : ==== | ||
| Line 5: | Line 7: | ||
| === Adaptation === | === Adaptation === | ||
| - | A chaque itération les nodes peuvent être connectées, | + | A chaque itération les nodes peuvent être connectées, |
| Les noeuds bougent où statistiquement ils recevront une plus grande récompense. | Les noeuds bougent où statistiquement ils recevront une plus grande récompense. | ||
| Line 12: | Line 14: | ||
| * sélection du noeud le plus proche | * sélection du noeud le plus proche | ||
| * sera la prochaine action de l' | * sera la prochaine action de l' | ||
| + | |||
| + | === Rafinnement === | ||
| + | |||
| + | Pour l' | ||
| + | |||
| + | === Comportement et apprentissage === | ||
| + | |||
| + | Les tuples actions-valeurs sont les mêmes pour tous les états d'un noeud. Attention à la répartition des noeuds qui peuvent rendre impossible la résolution de certain problèmes (cf figure 1a/1b). | ||
| + | |||
| + | Si une région est activée pendant un long moment -> ajout d'un nouveau noeud. | ||
| + | |||
| + | |||
| + | ==== Conclusion ==== | ||
| + | |||
| + | * TD-GNG peu sensible au bruit | ||
| + | * Converge plus vite que TD-AVQ (sur les tests présentés dans la publication) | ||
| + | * Moins de mémoire utilisée que TD-AVQ | ||
| + | |||
| + | "In all experiments the TD-GNG algorithm has shown to be capable of reducing the dimensionality of the problem, increasing the generalization, | ||
| + | |||
| + | |||
| + | |||
| + | ==== Pistes de recherche pour compléter les connaissances manquantes ==== | ||
| + | |||
| + | * TD-AVQ | ||
| + | * Markov property | ||
| + | * Independance / Dependance of path (va probablement de paire avec le point précédent) | ||