reflexion-gng-qc

Réflexion CQLearning et GNG

Brouillon à développer / revoir / corriger / supprimer.

Présentation des algos

Pour plus de détails, se réferrer aux mémentos :

CQ-Learning : http:www.aamas-conference.org/Proceedings/aamas2010/pdf/01%20Full%20Papers/15_02_FP_0421.pdf * GNG : http:liris.cnrs.fr/sasem/doku.php?id=memento-td-gng

CQ-Learning est un algo d'apprentissage multi-agent qui a pour but la coopération entre les agents et la limitation des collisions. Pour cela l'algo donne un ensemble d'états propre à chaque agents. Ceux-ci les développe et les trie en deux catégories “safe” et “dangerous”. Un état “dangerous” est un état partagé avec un autre agent.

GNG permet de limiter le nombre d'états dont s'occupe un agent, ce qui induit une convergence plus rapide des Qvaleurs et limite l'usage de la mémoire.

Piste

CQ-Learning part du principe que les agents ont déjà une politique personnelle optimale. L'algo limite le nombre d'états des agents dans sa partie “anti-collision”, mais comme dit la phrase précédente, nous sommes déjà censé avoir une politique optimale pour chaque agent. C'est à dire qu'individuellement ils remplissent tous très bien les tâches demandées.

A priori, l'algo GNG peut donc très bien utilisé en complémentarité de CQ-Learning. Il permettrait de réduire un peu plus l'ensemble d'états pour chaque agents.

Bon voila, maintenant que j'ai écrit ces ligne ca me parait assez évident, mais ce n'était pas le cas avant...

A continuer