DokuWiki

<p>
Problème : Lorsque le MDP devient trop important (trop d'états, trop d'actions), l'apprentissage devient lent.
</p>

<p>
Solution : Estimer la fonction de valeur avec une fonction approximation
</p>

<p>
Il existe plusieurs approximateurs :
</p>
<ul>
<li class="level1"> Réseau de neurones</li>
<li class="level1"> Arbre de décision</li>
<li class="level1"> Fourier</li>
<li class="level1"> ...</li>
</ul>

<h4>Descente de gradient</h4>
<div class="level4">

<p>
Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états).
</p>

<p>
Le gradient de J(w) est défini sous forme matricielle,  voir diapo 11
</p>

<p>
Permet de trouver un minimum local J(w)
</p>

<p>
Objectif : Trouver le paramètre w qui minimise le carré de l'erreur entre la valeur approximée et la vrai valeur.
</p>

<p>
Questions :
</p>
<ul>
<li class="level1"> Que représente Δw (une valeur, un vector, ...), et à quoi s'en sert-on ?</li>
</ul>

</div>

<h4>Représentation d'un état dans un vector</h4>
<div class="level4">

<p>
Ranger dans le vector les n valeurs du même état.
</p>

</div>

<h4>Fonction approximation de valeur linéaire</h4>
<div class="level4">

<p>
(Linear Value Function Approximation)
</p>
<ul>
<li class="level1"> La descente de gradient stochastique converge vers un optimum global.</li>
<li class="level1"> Actualisation = step-size * prediction error * feature value</li>
</ul>

<p>
Questions :
</p>
<ul>
<li class="level1"> Qu'est ce qu'on appelle une feature ?</li>
</ul>

</div>

<h4>Least Squares Prediction</h4>
<div class="level4">

<p>
Algorithme qui trouve le paramètre w qui minimise la somme des carrés des erreurs entre la fonction approximation et la la valeur cible.
</p>

</div>

Enable Complex Tables Editor Height px Turn supplementary image paste support on

Edit summary: Minor changes

Please fill all the letters into the box to prove you're human. P D S Y B Please keep this field empty:

DokuWiki

Site Tools

Page Tools