This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
realisation_env_grille_cqlearning_cmu_tr_ttg [2025/11/29 20:56] 47.128.125.120 old revision restored (2025/11/22 04:10) |
realisation_env_grille_cqlearning_cmu_tr_ttg [2025/12/11 20:25] (current) 66.249.70.67 old revision restored (2025/10/29 23:57) |
||
|---|---|---|---|
| Line 3: | Line 3: | ||
| Article utilisé : http:// | Article utilisé : http:// | ||
| - | Synthèse : https:// | + | ==== Présentation ==== |
| + | |||
| + | Le CQ-Learning permet la coordination d' | ||
| + | |||
| + | Les agents suivent leur politique optimale jusqu' | ||
| + | |||
| + | Etant donné que certaines parties de l' | ||
| + | |||
| + | ==== Expérience ==== | ||
| + | |||
| + | L' | ||
| + | |||
| + | |||
| + | CMU | ||
| + | {{: | ||
| + | |||
| + | Les cases de couleurs sont les objectifs des agents de même couleur (sauf dans le ttg où il les deux agent sont le même objectif). | ||
| + | |||
| + | Seul les résultats pour le CMU seront montrés. | ||
| + | ==== Resultats ==== | ||
| + | |||
| + | === CMU === | ||
| + | |||
| + | A la 4 000eme itération, la politique devient déterministe, | ||
| + | |||
| + | Moyenne des sommes des récompenses :\\ | ||
| + | |||
| + | Moyenne du nombre de collisions :\\ | ||
| + | |||
| + | Moyenne du nombre d' | ||
| + | |||
| + | Petite optimisation sur les états joints, lorsqu' | ||
| + | |||
| + | Voici les stats obtenues en lançant l' | ||
| + | |||
| + | En moyenne, les agents ont besoin de 13.6 etapes\\ | ||
| + | Avec un ecart-type de | ||
| + | |||
| + | En moyenne, les agents ont 0.0 collisions \\ | ||
| + | Avec un ecart-type de 0.0 | ||
| + | |||
| + | En moyenne, les agents ont 1.7 etats joints \\ | ||
| + | Avec un ecart-type de | ||
| + | |||