Feed forward neural network : Réseau de neurone dans lequel il n'y a pas de boucle.
Markov game -> Système multi-agent avec plusieurs sets d'actions, la proba de transition dépend de s, a et s', récompense unique à chaque agent et une transition.
Une variante consiste à donner une récompense commune aux agents.
Comment apprendre le bon moment auquel doivent se coordonnés les agents ? Quelques ressources dispo :
Détails sur l'IDMG :
Learning Coordination States :
En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>.
Les agents ont deux ensembles d'états, un classique qui répertorie tous les états (hors joint) et un “joint” qui répertorie les états qui sont en collisions avec d'autres agents. C'est à dire accessibles par deux agents ou plus.
L'algorithme utilise alors test de Student pour détecter des changements dans la valeur d'une récompense sur un <état, action> ciblé. Deux situations peuvent arriver :
A chaque fois qu'un état est marqué, l'algorithme regarde si c'est un état joint dans lequel il faut prendre en considération les autres agents. Si c'est le cas l'actualsisation de QjValeur de l'état sera effectué avec la formule :
Sinon pas d'actualisation.