Markov game -> Système multi-agent avec plusieurs sets d'actions, la proba de transition dépend de s, a et s', récompense unique à chaque agent et une transition.
Une variante consiste à donner une récompense commune aux agents.
Comment apprendre le bon moment auquel doivent se coordonnés les agents ? Quelques ressources dispo :
Détails sur l'IDMG :
Learning Coordination States :
En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>.
Les agents ont deux ensembles d'états, un classique qui répertorie tous les états (hors joint) et un "joint" qui répertorie les états qui sont en collisions avec d'autres agents. C'est à dire accessibles par deux agents ou plus.
L'algorithme utilise alors test de Student pour détecter des changements dans la valeur d'une récompense sur un <état, action> ciblé. Deux situations peuvent arriver :
A chaque fois qu'un état est marqué, l'algorithme regarde si c'est un état joint dans lequel il faut prendre en considération les autres agents. Si c'est le cas l'actualsisation de QjValeur de l'état sera effectué avec la formule :
capture.png
Sinon pas d'actualisation.
"Generalising over coordination state" -> les joint states et joint actions sont toujours observés -> trop d'états a observer.
Il faut alors réduire l'ensemble des états en apprenant une généralisation plus haute que les états.
Comment gérer les collisions ?
Question :
Utilisation d'un réseau de neurones.
-> Entrainement en utilisant les actions préférées a1 et a2 des états s1 et s2. -> La localisation absolue est "refactore" en une distance relative entre les agents.
L'entrainement du réseau est donc fait avec les actions préférées a1 et a2, et Δ(x) et Δ(y).
Chaque agent utilise un réseau de neurone pour généraliser ses états "safe" et "dangerous".
Pour chaque échantillon, Δ(x) et Δ(y) sont déterminés et stockés avec une variable booléenne qui indique s'il y a eu collision ou non. En pratique le réseau peut servir à l'agent pour savoir s'il doit regarder un certain endroit en fonction de l'action choisie.