Differences

This shows you the differences between two versions of the page.

--- memento-learning-multi-agent-state-space-representations [2025/02/12 17:36]
47.128.21.203 old revision restored (2025/01/13 02:01)
+++ memento-learning-multi-agent-state-space-representations [2025/04/11 02:32] (current)
3.137.200.242 old revision restored (2025/03/07 18:21)
@@ Line 3: / Line 3: @@
 ==== Définitions ====
-Feed forward neural network : Réseau de neurone dans lequel il n'y a pas de boucle.
+   * Feed forward neural network : Réseau de neurone dans lequel il n'y a pas de boucle.
-CQ-Learning : Coordination QLearning
+   * CQ-Learning : Coordination QLearning
 ==== Quelques informations ====
@@ Line 25: / Line 25: @@
 ==== CQ-Learning ====
+=== Gérer la coordination ===
 En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>.
@@ Line 45: / Line 47: @@
 Sinon pas d'actualisation.
+"Generalising over coordination state" -> les joint states et joint actions sont toujours observés -> trop d'états a observer.
+Il faut alors réduire l'ensemble des états en apprenant une généralisation plus haute que les états.
+=== Gérer les collisions ===
+Comment gérer les collisions ?
+   * Utiliser les connaissances rassemblées durant l'exécution
+   * Adapter l'ensemble des états vers une représentation "factorisée centrée sur les agents" (traduction approximative pour agent-centric factored)
+   * Centrée sur agent -> car la représentation est relative à l'agent et son contexte (exemple : bouge au nord)
+   * Factored -> indique que les états sont représentés par l'utilisation de set de variables aléatoire (valeurs prises dans un domaine borné).
+Question :
+   * Je ne vois pas à quoi sert le coté factored et de cette histoire de valeurs aléatoires. A quoi s'en sert-on ?
+Utilisation d'un réseau de neurones.
+-> Entrainement en utilisant les actions préférées a1 et a2 des états s1 et s2.
+-> La localisation absolue est "refactore" en une distance relative entre les agents.
+L'entrainement du réseau est donc fait avec les actions préférées a1 et a2, et Δ(x) et Δ(y).
+Chaque agent utilise un réseau de neurone pour généraliser ses états "safe" et "dangerous".
+Pour chaque échantillon Δ(x) et Δ(y) sont déterminés et stockés avec une variable booléenne qui indique s'il y a eu collision ou non.
+En pratique le réseau peut servir à l'agent pour savoir s'il doit regarder un certain endroit en fonction de l'action choisie.

DokuWiki

Site Tools

Differences

Page Tools