reflexion-discretisation-etats-inter-agents

Discrétisation commune inter-agent
- Problème
- Piste de solution

Discrétisation commune inter-agent

Problème

Utiliser un algorithme non déterministe de discrétisation peut être efficace pour qu'un agent se dirige dans un environnement. Ce n'est pas le cas lorsque plusieurs agents agissent dans le même environnement.

Dans le cas de l'algorithme du CQ-learning, les agents ont besoin d'avoir la même perception des états pour pouvoir se coordonner. Dans un grid world, les états sont uniformes et le problème ne se pose pas. Dans certains environnements (tel que le puddle world), l'environnement doit d'abord être discrétisé pour permettre à l'agent d'avancer. Si plusieurs agents se trouvent dans un environnement similaire la discrétisation ne sera pas identique aux deux agents (car algo non déterministe). Les agents essayeront alors de se coordonner avec des états qui ont des représentations différentes. Le Qlearning n'est alors plus assuré de convergé.

Piste de solution

Plusieurs cas sont possible selon les hypothèses. Qui fait la discrétisation de l'environnement ? A quel moment ?

Recherche de discrétisation commune après en avoir trouvé une individuelle

Une entité autre que les agents : discrétisation centralisée, les agents reoivent une discrétisation identique à celles des autres agents. Plus de problème pour la coordination.
L'agent lui même : discrétisation décentralisée, chacun à sa discrétisation. Cependant, même si le GNG n'est pas déterministe, discrétiser plusieurs fois le même environnement devrait donner des résultats proches (car l'espace d'entré est toujours le même et que l'on choisi de manière aléatoire / uniforme les points de l'espace d'entré pour mettre à jour les poids des noeuds, plus le nombre d'itérations est grand et plus les résultats devraient être identiques).

Si l'on part de l'hypothèse dans laquelle chaque agent a fait sa discrétisation, alors chaque agent à un résultat plus ou moins similaire à celui des autres agents. Le GNG ajoutant des noeuds toutes les x itérations, tous les agents auraient une discrétisation possédant le même nombre de noeuds.

Soit le GNG serait suffisamment précis pour que les agents possèdent une discrétisation identique, soit elles seraient trop différentes pour être exploitées.

Dans le second cas, les agents pourraient partager leur discrétisation avec les autres, il serait possible d'utiliser les neurones des discrétisations de chaque agents comme espace d'entré pour une map de kohonen. Ainsi les agents pourraient construire une discrétisation commune plus précise de leur environnement.

A cause du caractère non déterministe de la map de kohonen, cette discrétisation ne serait pas identique à chaque agent, mais pourrait être suffisamment précise pour que les différences soient transparentes pour les agents.

Table of Contents

Discrétisation commune inter-agent

Problème

Piste de solution

Recherche de discrétisation commune après en avoir trouvé une individuelle

Recherche de discrétisation commune "en ligne"