Mise à jour des approximation de QValeur :
[Screenshot formule]
Le reward shaping permet d'ajouter des recompenses aux états intermédiaire plutot que d'attendre la fin d'une tâche pouré récompenser l'agent. Ce procéder est moins gourmand en temps que l'autre méthode.
Comme donner à l'agent des récompenses manuellement peut facilement le dévier de son objectif, il existe la formule suivante pour calculer la valeur de la récompense.
Potentiel de l'état courant d'un agent :
CurrentStepInPlan étant la position de l'agent dans le plan.
L'apprentissage en MAS ajoute quelques problèmes comparé au SAS. Voir autre mémento pour plus de détails.
Le “reward shaping” offre la possibilité d'ajouter un domaine de connaissance dans le processus d'apprentissage pour accélerer la convergence. Voir Devlin & Kudenko dans les références. Le “potential-based reward shaping” dans un MAS ne change pas l'équilibre de Nash du jeu stochastique auquel l'agent joue.
Un agent k est indépendant d'un agent l si :
Des agents sont dans le même ensemble d'agent K si :
Zone d'interaction :
DEC-SIMDP :
[Un screebnshot vaut mieux qu'un long discours]
LoC :
Pour plus de détails sur le CQLearning voir ce memento.
A quoi ca sert ?
Lidée de FCQLearning est que les agents apprennent dans quel état local ils vont augmenter leur information d'état pour ajouter de l'information venant des autres agents et utiliser un système d'état plus global basé sur les tests statistiques sur les signaux de récompenses.
Comme ca, les agents apprennent seulement en utilisant les états locaux et un nombre limité d'états augmentés dans lesquels des tests statistiques indiquent que l'observation va être bénéfique.
La détection du besoin de l'augmentation d'un état se fait avec un test statistique de Friedmann (qui sert à déterminer si la différence entre deux états locaux est significative ou non).
Scénario :
Deux moyens d emettre à jour les Qvaleurs :
pour chaque état augmenté, une valeur est gardée en mémoire, indiquant à quel point est certain l'algorithme que cet état augmenté est bénéfique à la coordination. Si l'état augmenté d'un état local est visité, la valeur de confiance est augmentée. Sinon, toutes les valeurs de confiance de tous les états augmentés d'un état local sont diminuées.
La réduction est plus petite que l'augmentation pour la valeur de confiance pour donner un taux de marge d'erreur à l'algorithme.
Il n'est pas possible de prendre en compte les objectifs et sous-objectifs des agents dans une seule fonction “de façonnage” (shaping). Il faut donc en avoir plusieurs qui dépendent du contexte de l'agent. Le contexte dépendrait du sous-objectif que l'agent essaie d'accomplir.
La fonction est choisie par rapport à l'individualité de l'agent (seul ou coordination).
Devlin, S. & Kudenko, D. (In Press), Plan-based reward shaping for multi-agent reinforcement learning, in ‘Knowledge Engineering Review’