Mise à jour des approximation de QValeur :
[Screenshot formule]
L'apprentissage en MAS ajoute quelques problèmes comparé au SAS. Voir autre mémento pour plus de détails.
Le “reward shaping” peut être offre la possibilité d'ajouter un domaine de connaissance dans le processus d'apprentissage pour accélerer la convergence. Voir Devlin & Kudenko dans les références. Le “potential-based reward shaping” dans un MAS ne change pas l'équilibre de Nash du jeu stochastique auquel l'agent joue.
Potentiel de l'état courant d'un agent :
[Screenshots formule]
CurrentStepInPlan étant la position de l'agent dans le plan.
Un agent k est indépendant d'un agent l si :
Des agents sont dans le même ensemble d'agent K si :
Zone d'interaction :
DEC-SIMDP :
[Un screebnshot vaut mieux qu'un long discours]
LoC :
Pour plus de détails sur le CQLearning voir ce memento.
A quoi ca sert ?
Les algos habituels marchent sur un système de récompen immadiaté, FCQLearning évite ca avec le “reward shaping”.
Devlin, S. & Kudenko, D. (In Press), Plan-based reward shaping for multi-agent reinforcement learning, in ‘Knowledge Engineering Review’