This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
memento-td-gng [2025/03/04 18:43] 47.128.42.28 old revision restored (2025/02/28 17:13) |
memento-td-gng [2025/03/11 17:50] (current) 47.128.30.75 old revision restored (2025/03/02 17:56) |
||
---|---|---|---|
Line 12: | Line 12: | ||
* sélection du noeud le plus proche | * sélection du noeud le plus proche | ||
* sera la prochaine action de l' | * sera la prochaine action de l' | ||
- | |||
- | === Rafinnement === | ||
- | |||
- | Pour l' | ||
- | |||
- | === Comportement et apprentissage === | ||
- | |||
- | Les tuples actions-valeurs sont les mêmes pour tous les états d'un noeud. Attention à la répartition des noeuds qui peuvent rendre impossible la résolution de certain problèmes (cf figure 1a/1b). | ||
- | |||
- | Si une région est activée pendant un long moment -> ajout d'un nouveau noeud. | ||
- | |||
- | |||
- | ==== Conclusion ==== | ||
- | |||
- | * TD-GNG peu sensible au bruit | ||
- | * Converge plus vite que TD-AVQ (sur les tests présentés dans la publication) | ||
- | * Moins de mémoire utilisée que TD-AVQ | ||
- | |||
- | "In all experiments the TD-GNG algorithm has shown to be capable of reducing the dimensionality of the problem, increasing the generalization, | ||
- | |||
- | |||
- | |||
- | ==== Pistes de recherche pour compléter les connaissances manquantes ==== | ||
- | |||
- | * TD-AVQ | ||
- | * Markov property | ||
- | * Independance / Dependance of path (va probablement de paire avec le point précédent) | ||