Hotfix release available: 2025-05-14b "Librarian". upgrade now! [56.2] (what's this?)
Hotfix release available: 2025-05-14a "Librarian". upgrade now! [56.1] (what's this?)
New release available: 2025-05-14 "Librarian". upgrade now! [56] (what's this?)
Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
memento-context-sensitive-reward-shaping-for-sparse-inter-action-multi-agent-systems

Context-Sensitive Reward Shaping for Sparse Inter-action Multi-Agent Systems

Définition

  • MARL = Multiagent reinforcement learning.
  • FQCLearning : Future Coordination QLearning.
  • DEC-SIMDP : Decentralized Sparse Interaction MDP.
  • LoC : Learning of Coordination.
  • FCQLearning : Future Coordination QLearning.

Single agent RL

Mise à jour des approximation de QValeur :

[Screenshot formule]

Reward shaping in MARL

L'apprentissage en MAS ajoute quelques problèmes comparé au SAS. Voir autre mémento pour plus de détails.

Le “reward shaping” peut être offre la possibilité d'ajouter un domaine de connaissance dans le processus d'apprentissage pour accélerer la convergence. Voir Devlin & Kudenko dans les références. Le “potential-based reward shaping” dans un MAS ne change pas l'équilibre de Nash du jeu stochastique auquel l'agent joue.

Potentiel de l'état courant d'un agent :

[Screenshots formule]

CurrentStepInPlan étant la position de l'agent dans le plan.

Interactions rares

Un agent k est indépendant d'un agent l si :

  • La probabilité de transition pour un état local de l'agent k ne dépend pas du <état, action> de l'agent l.
  • Il est possible de décomposer la fonction récompense tel que le signal de récompense des deux agents soit indépendant des <état, action> de l'un et de l'autre.

Des agents sont dans le même ensemble d'agent K si :

  • L'agent l appartient à l'ensemble K et l'agent k dépend de l'agent l.
  • L'agent k appartient à l'ensemble K et l'agent k dépend de l'agent l dans l'état s.

Zone d'interaction :

  • zone d'états qui sont les uns à coté des autres (il est possible de passer de l'un à l'autre et réciproquement).
  • zone accessible à plusieurs agents.

DEC-SIMDP :

[Un screebnshot vaut mieux qu'un long discours]

LoC :

  • Augmentation de l'ensemble d'actions de chaque agent avec une action de pseudo coordination.
    • Sert d'étape de perception (Par exemple partager l'emplacement d'un agent).
    • Servira à savoir si c'est OK d'ignorer les autres ou non.
  • Les pénalités de coordination sont supérieures au coup d'utilisation de l'action de pseudo coordination.

FCQLearning

Pour plus de détails sur le CQLearning voir ce memento.

A quoi ca sert ?

  • Détecter l'influence des autres agents en avance.

Les algos habituels marchent sur un système de récompen immadiaté, FCQLearning évite ca avec le “reward shaping”.

Références

Devlin, S. & Kudenko, D. (In Press), Plan-based reward shaping for multi-agent reinforcement learning, in ‘Knowledge Engineering Review’

memento-context-sensitive-reward-shaping-for-sparse-inter-action-multi-agent-systems.txt · Last modified: 2025/10/17 17:58 by 144.226.155.250