This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
memento-learning-multi-agent-state-space-representations [2025/02/21 00:02] 47.128.55.214 old revision restored (2025/01/18 22:05) |
memento-learning-multi-agent-state-space-representations [2025/04/11 02:32] (current) 3.137.200.242 old revision restored (2025/03/07 18:21) |
||
---|---|---|---|
Line 1: | Line 1: | ||
=====Learning multi-agent state space representations===== | =====Learning multi-agent state space representations===== | ||
+ | |||
+ | ==== Définitions ==== | ||
+ | |||
+ | * Feed forward neural network : Réseau de neurone dans lequel il n'y a pas de boucle. | ||
+ | * CQ-Learning : Coordination QLearning | ||
+ | ==== Quelques informations ==== | ||
+ | |||
+ | Markov game -> Système multi-agent avec plusieurs sets d' | ||
+ | |||
+ | Une variante consiste à donner une récompense commune aux agents. | ||
+ | |||
+ | |||
+ | Comment apprendre le bon moment auquel doivent se coordonnés les agents ? Quelques ressources dispo : | ||
+ | * Kok & Vlassis, Utile coordination : Learning indepedenies among cooperative agents. | ||
+ | * Spaan & Melo IDMG | ||
+ | |||
+ | Détails sur l'IDMG : | ||
+ | * Interaction Driven Markov Game | ||
+ | * Les agents peuvent connaitre la position des autres par la communication ou en les détectant avec les capteurs | ||
+ | * Plus de détails sur l' | ||
+ | |||
+ | Learning Coordination States : | ||
+ | * Identification des états dans lequel un agent devrait prendre en compte les autres agents quand il choisi une action et qu'il y a besoin de coordination sur celle-ci avec un autre agent. | ||
+ | |||
+ | ==== CQ-Learning ==== | ||
+ | |||
+ | === Gérer la coordination === | ||
+ | |||
+ | En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>. | ||
+ | |||
+ | Les agents ont deux ensembles d' | ||
+ | |||
+ | L' | ||
+ | * L' | ||
+ | - Marquage de l' | ||
+ | - Recherche de la cause du changement | ||
+ | - Paire <état, action> marquée comme " | ||
+ | - Ajout de l' | ||
+ | - Les <états, action> qui n'ont pas provoqués la collision sont marqué comme " | ||
+ | | ||
+ | |||
+ | A chaque fois qu'un état est marqué, l' | ||
+ | Si c'est le cas l' | ||
+ | |||
+ | {{: | ||
+ | |||
+ | Sinon pas d' | ||
+ | |||
+ | " | ||
+ | |||
+ | Il faut alors réduire l' | ||
+ | |||
+ | |||
+ | === Gérer les collisions === | ||
+ | |||
+ | Comment gérer les collisions ? | ||
+ | * Utiliser les connaissances rassemblées durant l' | ||
+ | * Adapter l' | ||
+ | |||
+ | * Centrée sur agent -> car la représentation est relative à l' | ||
+ | * Factored -> indique que les états sont représentés par l' | ||
+ | |||
+ | Question : | ||
+ | * Je ne vois pas à quoi sert le coté factored et de cette histoire de valeurs aléatoires. A quoi s'en sert-on ? | ||
+ | |||
+ | Utilisation d'un réseau de neurones. | ||
+ | |||
+ | -> Entrainement en utilisant les actions préférées a1 et a2 des états s1 et s2. | ||
+ | -> La localisation absolue est " | ||
+ | |||
+ | L' | ||
+ | |||
+ | Chaque agent utilise un réseau de neurone pour généraliser ses états " | ||
+ | |||
+ | Pour chaque échantillon Δ(x) et Δ(y) sont déterminés et stockés avec une variable booléenne qui indique s'il y a eu collision ou non. | ||
+ | En pratique le réseau peut servir à l' | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ |