You've loaded an old revision of the document! If you save it, you will create a new version with this data.
le feedback spécifie exactement l’activité désirée de l’apprenant. L’objectif de l’apprentissage est de s’y conformer le plus possible. Permet l'apprentissage de concepts ciblés. Exemple : Réseaux de neurones et reconnaissance d'images
Pas de feedback explicite. L’objectif est de trouver les activités utiles et désirées sur la base du tâtonnement. Recherche de points commun dans les données contextuellement à l'objectif fixé. Souvent basé sur le sstatistiques. Exemple : ?
<note> Méthode simple d'app non supervisé: K-means https://home.deib.polimi.it/matteucc/Clustering/tutorial_html/kmeans.html </note>
le feedback spécifie seulement l’utilité du comportement par une valeur, l’objectif étant de la maximiser.
Apprend un comportement par tatonnement. Recoit en entrée une perception, genère une action puis la valeur de cette action lui est passé. Exemple : TPs Mif24 bras qui avance / robot qui sort du labyrinthe.
Evaluer, selectionner, faire muter et recomencer juqu'à avoir une solution. Exemple : Algo génétique
Efficace pour apprendre un concept ciblé dans un environnement maîtrisé. Pas de capacité d'abstraction -> pas utilisable pour un agent autonome. Exemple : Algorithme d'apprentissage supervisé basé sur des arbres de décisions
Difficilement utilisable pour l'AmI, car :
Bilan : Besoin d'une approche plus globale ne se limitant pas à mettre en place des solutions pour des sous problèmes indépendants.
Triplet de capteurs (O, M, C) [Objet, Mouvement, Contextuel], Représentations définies sur un triplet (E, C, A) [Evenement, Condition, Action], Algo de classification -> chercher des motifs d'interactions à partir des données. Permet de construire de manière générale la régularité puis d'affiner petit à petit.
Système complexe : système qui a un effet sur son environnement et ses propres composantes.
Application des SMA :
Façons d'envisager l'apprentissage décentralisé des SMA :
Catégories d'apprentissage des SMA :
L'apprentissage centralisé et décentralisé peuvent cohabiter.
Difficulté de donner des récompenses, comment savoir quels agents doivent avoir le feedback lors d'un changement au global ? (CAP : Credit Assignement Problem)
Décomposition du problème en deux sous problèmes :
Une solution plus simple consiste à diviser la récompense globale entre tous les agents du système, mais ceci ne marche pas correctement dans les cas plus complexe qui nécessitent un feedback plus précis.
Apprendre un comportement collectif total ciblé est compliqué. Il est possible de simplifier le problème en isolant les comportements appris de certains agents, en réduisant l'hétérogénéité des comportements ou en réduisant la complexité des capacité des agents. Réduction de la complexité -> utiliser l'apprentissage par niveau (layered learning). Il faut alors décomposer automatiquement le problème et assurer une coordination des sous-comportements.
Approche connexionniste : modélise les phénomènes mentaux ou comportementaux comme des processus émergents de réseaux d’unités simples interconnectées.
L'IA actuelle (systèmes experts, solveurs logiques, ...) exécute des algos, alors que l'intelligence "réelle" consiste à comprendre. L'ordinateur à un fonctionnement éloigné de celui du cerveau. La meilleure solution pour reproduire un système intelligent tel qu'un cerveau n'est donc pas forcément d'imiter la construction de ce dernier.
Représentation invariante : régularité constante dans l'exécution d'un tâche.
Le système ACHE (Adaptive Control of Home Environments) utilise les réseaux de neurone afin de gérer les dispositifs d'une maison. Le système se base sur une représentation d'état et l'occupation des zones pour prédire l'état futur de la maison. Il agit ensuite en conséquence pour modifier l'environnement.
Problème de ce système :
En psychologie -> théorie constructiviste : le sujet construit sa vision du monde en agissant sur celui-ci. L'apprentissage est alors l'adaptation de la représentation du monde du sujet.
L’approche traditionnelle peut être résumée comme cela :
L’approche développementale quant à elle se résume par ces étapes :
Caractéristiques des programmes développementaux :
Apprentissage sensorimoteur en premier lieu. Cet apprentissage doit permettre à l'agent de trouver des régularités dans les interactions avec l'environnement (mettre en relation actions et perceptions).
Schema learning : technique d'apprentissage constructiviste. Les régularités y sont représentées par des schémas (structure représentant la prédiction des effets d'une action).
Schéma : Triplet (Contexte, Action, Prédiction).
Ce système représente donc les conséquences de chaque actions à partir d'un contexte.
Problème d'amorçage : comment être sur que le résultat observé est dû à l'action qui vient d'être faite ?
Solution proposée : notions d'évaluation d'un schéma -> pertinence et fiabilité Un résultat est jugé pertinent si le résultat apparait plus souvent lorsque l'action est effectué.
Lorsque le résultat est pertinent, il faut savoir quand il est fiable. Il faut être capable de trouver les contextes permettant de distinguer les cas de succès et d'échecs.
<note important>Incompris, pour plus de détail sur la fiablité, voir : Page 87, Paragraphe 3</note>
Ce type d'apprentissage doit permettre une abstraction des connaissances.
Deux solution proposées :
Le système va apprendre incrémentalement à partir d'un état initial. Quel est-il ? Pour faire apprendre les régularités au système, on peut se baser sur un certain point de vue comme la proximité temporelle entre deux évènements, la proximité spatiale, ou la séquentialité des évènements. Mais quel point de vue prendre si l'on veut apprendre sur la base d'un flot de données brute ? Faut-il essayer une multitude de point de vue pour trouver des régularités ? Existe-t-il certains points de vue permettant d'apprendre toutes les régularités ?
Si l'on sait ce que l'on veut apprendre, on pourrait guider le processus de discrétisation des données pour qu'il fournisse des données plus adapté à la représentation. En poussant ce principe un peu plus loin, il serait possible d'avoir une boucle de rétroaction entre le processus de discrétisation et l'apprentissage plus haut niveau.