Markov game -> Système multi-agent avec plusieurs sets d'actions, la proba de transition dépend de s, a et s', récompense unique à chaque agent et une transition.
Une variante consiste à donner une récompense commune aux agents.
Comment apprendre le bon moment auquel doivent se coordonnés les agents ? Quelques ressources dispo :
Détails sur l'IDMG :
Learning Coordination States :