Differences
This shows you the differences between two versions of the page.
| Both sides previous revision
Previous revision
|
|
reflexion-gng-qc [2025/12/12 15:41] 216.73.216.127 old revision restored (2025/12/12 03:22) |
reflexion-gng-qc [2025/12/12 15:41] (current) 216.73.216.127 old revision restored (2025/12/12 05:47) |
| === Présentation des algos === | === Présentation des algos === |
| |
| Pour plus de détails, se réferrer aux articles : | Pour plus de détails, se réferrer aux mémentos : |
| * CQ-Learning : http://www.aamas-conference.org/Proceedings/aamas2010/pdf/01%20Full%20Papers/15_02_FP_0421.pdf | * CQ-Learning : http://www.aamas-conference.org/Proceedings/aamas2010/pdf/01%20Full%20Papers/15_02_FP_0421.pdf |
| * GNG : http://liris.cnrs.fr/sasem/doku.php?id=memento-td-gng | * GNG : http://liris.cnrs.fr/sasem/doku.php?id=memento-td-gng |
| Pour cela l'algo donne un ensemble d'états propre à chaque agents. Ceux-ci les développe et les trie en deux catégories "safe" et "dangerous". Un état "dangerous" est un état partagé avec un autre agent. | Pour cela l'algo donne un ensemble d'états propre à chaque agents. Ceux-ci les développe et les trie en deux catégories "safe" et "dangerous". Un état "dangerous" est un état partagé avec un autre agent. |
| |
| GNG permet de partitionner l'ensemble des états et de les regrouper par noeuds où tous les états d'un même noeud auront le même tuple <état, action> et les même Qvaleurs. Ce procédé réduit artificiellement le nombre d'états et induit une convergence plus rapide des Qvaleurs tout en limitant l'usage de la mémoire. | GNG permet de limiter le nombre d'états dont s'occupe un agent, ce qui induit une convergence plus rapide des Qvaleurs et limite l'usage de la mémoire. |
| |
| === Piste === | === Piste === |