DokuWiki

You've loaded an old revision of the document! If you save it, you will create a new version with this data.

<h2>Mémento de l'état de l'art de la thèse de S. Mazac</h2>
<div class="level2">

</div>

<h5>Types d’apprentissage artificiel</h5>
<div class="level5">
<ul>
<li class="level1"> Mémorisation par cœur (rote learning) : implémentation directe du savoir et des compétences, pas d’évolution.</li>
<li class="level1"> Apprendre par instruction : transformation du savoir en représentation interne pour intégration au savoir préexistant.</li>
<li class="level1"> Apprendre par l’exemple et par entrainement : à partir d’exemples positifs ou négatifs et expérience pratique.</li>
<li class="level1"> Par analogie : extension d’un savoir d’un problème résolu vers un problème non résolu.</li>
<li class="level1"> Par découverte : faire des observations, des expériences. Construire et tester des hypothèses et théories.</li>
</ul>

</div>

<h5>Caractéristiques de l’apprentissage pour les systèmes artificiels</h5>
<div class="level5">
<ul>
<li class="level1"> Apprentissage hors ligne (offline): la période d’apprentissage est préalable et indépendante à l’éxécution du programme.</li>
<li class="level1"> Apprentissage en ligne (online): le programme apprend au cours de son activité.</li>
<li class="level1"> Apprentissage par lots (batch learning): technique intermédiaire (des phases d’apprentissages offline à intervalle de temps régulier durant l’activité).</li>
</ul>

</div>

<h3>Principaux types d’apprentissage</h3>
<div class="level3">

</div>

<h4>Apprentissage supervisé</h4>
<div class="level4">

<p>
le feedback spécifie exactement l’activité désirée de l’apprenant. L’objectif de l’apprentissage est de s’y conformer le plus possible.
Permet l'apprentissage de concepts ciblés.
Exemple : Réseaux de neurones et reconnaissance d'images
</p>

</div>

<h4>Apprentissage non supervisé</h4>
<div class="level4">

<p>
Pas de feedback explicite. L’objectif est de trouver les activités utiles et désirées sur la base du tâtonnement.
Recherche de points commun dans les données contextuellement à l'objectif fixé. Souvent basé sur le sstatistiques.
Exemple : ?
</p>

<p>
&lt;note>
Méthode simple d'app non supervisé: K-means https://home.deib.polimi.it/matteucc/Clustering/tutorial_html/kmeans.html
&lt;/note>
</p>

</div>

<h4>Apprentissage par récompense</h4>
<div class="level4">

<p>
le feedback spécifie seulement l’utilité du comportement  par  une  valeur,  l’objectif  étant  de  la  maximiser.
</p>

</div>

<h5>Apprentissage par récompense (renforcement)</h5>
<div class="level5">

<p>
Apprend un comportement par tatonnement. Recoit en entrée une perception, genère une action puis la valeur de cette action lui est passé.
Exemple : TPs Mif24 bras qui avance / robot qui sort du labyrinthe.
</p>

</div>

<h5>Apprentissage par récompense (Stochastique)</h5>
<div class="level5">

<p>
Evaluer, selectionner, faire muter et recomencer juqu'à avoir une solution.
Exemple : Algo génétique
</p>

</div>

<h3>L’apprentissage dans le cadre de l’AmI</h3>
<div class="level3">

</div>

<h4>Les techniques de classification</h4>
<div class="level4">

<p>
Efficace pour apprendre un concept ciblé dans un environnement maîtrisé.
Pas de capacité d'abstraction -> pas utilisable pour un agent autonome.
Exemple : Algorithme d'apprentissage supervisé basé sur des arbres de décisions
</p>

</div>

<h4>L’apprentissage par renforcement</h4>
<div class="level4">

<p>
Difficilement utilisable pour l'AmI, car :
</p>
<ol>
<li class="level1">discrétisation du temps est faite de manière arbitraire</li>
<li class="level1">compliqué d'interpréter le feedback venant de l'utilisateur.</li>
</ol>

<p>
Bilan : Besoin d'une approche plus globale ne se limitant pas à mettre en place des solutions pour des sous problèmes indépendants.
</p>

</div>

<h4>Exemple d’une approche globale</h4>
<div class="level4">

<p>
Triplet de capteurs (O, M, C) [Objet, Mouvement, Contextuel],
Représentations définies sur un triplet (E, C, A) [Evenement, Condition, Action],
Algo de classification -> chercher des motifs d'interactions à partir des données. Permet de construire de manière générale la régularité puis d'affiner petit à petit.
</p>

</div>

<h3>Les systèmes multi-agents</h3>
<div class="level3">

<p>
Système complexe : système qui a un effet sur son environnement et ses propres composantes.
</p>

<p>
Application des SMA :
</p>
<ul>
<li class="level1"> alternative à la résolution de problèmes centralisés</li>
<li class="level1"> la simulation (biologie, sociologie...)</li>
<li class="level1"> paradigme de programmation</li>
</ul>

<p>
Façons d'envisager l'apprentissage décentralisé des SMA :
</p>
<ul>
<li class="level1"> Un système peut être améliorer en dotant ses agents de capacités d'apprentissage qui leur sont propre.</li>
<li class="level1"> Les agents peuvent apprendre de manière distribué et interactive -> c'est le système qui apprend par l'évolution des agents.</li>
</ul>

<p>
Catégories d'apprentissage des SMA :
</p>
<ul>
<li class="level1"> apprentissage centralisé : les agents apprennent seul.</li>
<li class="level1"> apprentissage décentralisé : les agents sont impliqués dans la même activé d'apprentissage</li>
</ul>

<p>
L'apprentissage centralisé et décentralisé peuvent cohabiter.
</p>

</div>

<h4>Attribution des récompenses</h4>
<div class="level4">

<p>
Difficulté de donner des récompenses, comment savoir quels agents doivent avoir le feedback lors d'un changement au global ?
(CAP : Credit Assignement Problem)
</p>

<p>
Décomposition du problème en deux sous problèmes :
</p>
<ul>
<li class="level1"> CAP inter-agent : Rétribution des agents en fonction d'un changement de performance au niveau global.</li>
<li class="level1"> CAP intra-agent : Rétribution des inférences internes ou décisions d’un agent en fonction d’une action externe effectuée.</li>
</ul>

<p>
Une solution plus simple consiste à diviser la récompense globale entre tous les agents du système, mais ceci ne marche pas correctement dans les cas plus complexe qui nécessitent un feedback plus précis.
</p>

</div>

<h4>Caractéristiques de l’apprentissage décentralisé</h4>
<div class="level4">

<p>
Apprendre un comportement collectif total ciblé est compliqué. Il est possible de simplifier le problème en isolant les comportements appris de certains agents, en réduisant l'hétérogénéité des comportements ou en réduisant la complexité des capacité des agents.
Réduction de la complexité -> utiliser l'apprentissage par niveau (layered learning). Il faut alors décomposer automatiquement le problème et assurer une coordination des sous-comportements.
</p>

</div>

<h3>Approches neuro-inspirée</h3>
<div class="level3">

<p>
Approche connexionniste : modélise les phénomènes mentaux ou comportementaux comme des processus émergents de réseaux d’unités simples interconnectées.
</p>

<p>
L'IA actuelle (systèmes experts, solveurs logiques, ...) exécute des algos, alors que l'intelligence "réelle" consiste à comprendre.
L'ordinateur à un fonctionnement éloigné de celui du cerveau. La meilleure solution pour reproduire un système intelligent tel qu'un cerveau n'est donc pas forcément d'imiter la construction de ce dernier.
</p>

<p>
Représentation invariante : régularité constante dans l'exécution d'un tâche.
</p>

</div>

<h4>Les approches connexionnistes dans le cadre de l’AmI</h4>
<div class="level4">

<p>
Le système ACHE (Adaptive Control of Home Environments) utilise les réseaux de neurone afin de gérer les dispositifs d'une maison. Le système se base sur une représentation d'état et l'occupation des zones pour prédire l'état futur de la maison. Il agit ensuite en conséquence pour modifier l'environnement.
</p>

<p>
Problème de ce système :
</p>
<ul>
<li class="level1"> La connaissance acquise par les réseaux de neurones ne peut être utilisée que pour l'objectif défini. Si l'objectif change, le système doit tout réapprendre (Exemple : Si l'on souhaite maximiser la consommation d'énergie au lieu de la minimiser).</li>
<li class="level1"> La connaissance est difficilement interprétable (pour l'utilisateur ou d'autres systèmes).</li>
</ul>

</div>

<h4>L’intelligence comme adaptation</h4>
<div class="level4">

<p>
En psychologie -> théorie constructiviste : le sujet construit sa vision du monde en agissant sur celui-ci. L'apprentissage est alors l'adaptation de la représentation du monde du sujet.
</p>

</div>

<h4>Application en IA</h4>
<div class="level4">

<p>
L’approche traditionnelle peut être résumée comme cela :
</p>
<ol>
<li class="level1"> On part d’une tâche (connue par le concepteur)</li>
<li class="level1"> On conçoit une représentation spécifique pour cette tâche</li>
<li class="level1"> On crée un programme de résolution de la tâche qui utilise cette représentation</li>
<li class="level1"> On lance le programme sur la machine</li>
</ol>

<p>
L’approche développementale quant à elle se résume par ces étapes :
</p>
<ol>
<li class="level1"> On conçoit un corps adapté à l’environnement du robot</li>
<li class="level1"> On conçoit un programme de développement</li>
<li class="level1"> Initialement (à sa "naissance") le robot démarre le programme de développement à partir d’une représentation vierge.</li>
<li class="level1"> Le robot apprend à partir de son expérience.</li>
</ol>

<p>
Caractéristiques des programmes développementaux :
</p>
<ul>
<li class="level1"> Ils ne sont pas spécifiques à une tâche</li>
<li class="level1"> Les tâches sont globalement inconnues à priori</li>
<li class="level1"> Il s’agît d’un apprentissage en temps réel</li>
<li class="level1"> C’est un apprentissage ouvert (open-ended) : l’apprentissage d’un concept offre la possibilité d’apprendre un nouveau concept</li>
</ul>

</div>

<h4>L’apprentissage sensorimoteur</h4>
<div class="level4">

<p>
Apprentissage sensorimoteur en premier lieu. Cet apprentissage doit permettre à l'agent de trouver des régularités dans les interactions avec l'environnement (mettre en relation actions et perceptions).
</p>

</div>

<h4>Mécanismes d’apprentissage de schémas</h4>
<div class="level4">

<p>
Schema learning : technique d'apprentissage constructiviste. Les régularités y sont représentées par des schémas (structure représentant la prédiction des effets d'une action).
</p>

<p>
Schéma : Triplet (Contexte, Action, Prédiction).
</p>

<p>
Ce système représente donc les conséquences de chaque actions à partir d'un contexte.
</p>

<p>
Problème d'amorçage : comment être sur que le résultat observé est dû à l'action qui vient d'être faite ?
</p>

<p>
Solution proposée : notions d'évaluation d'un schéma -> pertinence et fiabilité
Un résultat est jugé pertinent si le résultat apparait plus souvent lorsque l'action est effectué.
</p>

<p>
Lorsque le résultat est pertinent, il faut savoir quand il est fiable. Il faut être capable de trouver les contextes permettant de distinguer les cas de succès et d'échecs.
</p>

<p>
&lt;note important>Incompris, pour plus de détail sur la fiablité, voir : Page 87, Paragraphe 3&lt;/note>
</p>

<p>
Ce type d'apprentissage doit permettre une abstraction des connaissances.
</p>

<p>
Deux solution proposées :
</p>
<ul>
<li class="level1"> Ajout d'item synthétique -> Lorqu'on ne peut pas rendre fiable un schéma, ajout de conditions nécessaires pour que celui-ci soit valide. L'item synthétique n'est pas lié aux perceptions et ne prend une valeur que rétroactivement.</li>
<li class="level1"> Actions composites -> actions formées de plusieurs schémas pour atteindre un but.</li>
</ul>

</div>

<h3>La robotique développementale</h3>
<div class="level3">

</div>

<h3>Le problème d’amorçage</h3>
<div class="level3">

<p>
Le système va apprendre incrémentalement à partir d'un état initial. Quel est-il ?
Pour faire apprendre les régularités au système, on peut se baser sur un certain point de vue comme la proximité temporelle entre deux évènements, la proximité spatiale, ou la séquentialité des évènements.
Mais quel point de vue prendre si l'on veut apprendre sur la base d'un flot de données brute ? Faut-il essayer une multitude de point de vue pour trouver des régularités ? Existe-t-il certains points de vue permettant d'apprendre toutes les régularités ?
</p>

<p>
Si l'on sait ce que l'on veut apprendre, on pourrait guider le processus de discrétisation des données pour qu'il fournisse des données plus adapté à la représentation.
En poussant ce principe un peu plus loin, il serait possible d'avoir une boucle de rétroaction entre le processus de discrétisation et l'apprentissage plus haut niveau.
</p>

</div>

Enable Complex Tables Editor Height px Turn supplementary image paste support on

Edit summary: Minor changes

Please fill all the letters into the box to prove you're human. P M H Z U Please keep this field empty:

DokuWiki

Site Tools

Page Tools