This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
realisation_env_grille_cqlearning_cmu_tr_ttg [2025/06/30 20:13] 47.128.97.15 old revision restored (2025/02/22 18:35) |
realisation_env_grille_cqlearning_cmu_tr_ttg [2025/07/03 14:51] (current) 216.73.216.192 old revision restored (2025/07/01 03:33) |
||
---|---|---|---|
Line 3: | Line 3: | ||
Article utilisé : http:// | Article utilisé : http:// | ||
- | Synthèse | + | ==== Présentation ==== |
+ | |||
+ | Le CQ-Learning permet la coordination d' | ||
+ | |||
+ | Les agents suivent leur politique optimale jusqu' | ||
+ | |||
+ | Etant donné que certaines parties de l' | ||
+ | |||
+ | ==== Expérience ==== | ||
+ | |||
+ | L' | ||
+ | |||
+ | |||
+ | CMU | ||
+ | {{:cmu_exemple.png? | ||
+ | |||
+ | Les cases de couleurs sont les objectifs des agents de même couleur (sauf dans le ttg où il les deux agent sont le même objectif). | ||
+ | |||
+ | Seul les résultats pour le CMU seront montrés. | ||
+ | ==== Resultats ==== | ||
+ | Les moyennes sont effectuées sur 125 itérations. | ||
+ | |||
+ | === CMU === | ||
+ | |||
+ | A la 4 000eme itération, la politique devient déterministe, | ||
+ | |||
+ | Moyenne des sommes des récompenses | ||
+ | {{: | ||
+ | |||
+ | Moyenne du nombre de collisions :\\ | ||
+ | {{: | ||
+ | |||
+ | Moyenne du nombre d' | ||
+ | {{: | ||
+ | |||
+ | Petite optimisation sur les états joints, lorsqu' |