===== Compte-rendu de l'état de l'art de la thèse de S. Mazac ===== ==Types d’apprentissage artificiel== * Mémorisation par cœur (rote learning) : implémentation directe du savoir et des compétences, pas d’évolution. * Apprendre par instruction : transformation du savoir en représentation interne pour intégration au savoir préexistant. * Apprendre par l’exemple et par entrainement : à partir d’exemples positifs ou négatifs et expérience pratique. * Par analogie : extension d’un savoir d’un problème résolu vers un problème non résolu. * Par découverte : faire des observations, des expériences. Construire et tester des hypothèses et théories. ==Caractéristiques de l’apprentissage pour les systèmes artificiels== * Apprentissage hors ligne (offline): la période d’apprentissage est préalable et indépendante à l’éxécution du programme. * Apprentissage en ligne (online): le programme apprend au cours de son activité. * Apprentissage par lots (batch learning): technique intermédiaire (des phases d’apprentissages offline à intervalle de temps régulier durant l’activité). ====Principaux types d’apprentissage==== ===Apprentissage supervisé=== le feedback spécifie exactement l’activité désirée de l’apprenant. L’objectif de l’apprentissage est de s’y conformer le plus possible. Permet l'apprentissage de concepts ciblés. Exemple : Réseaux de neurones et reconnaissance d'images ===Apprentissage non supervisé=== Pas de feedback explicite. L’objectif est de trouver les activités utiles et désirées sur la base du tâtonnement. Recherche de points commun dans les données contextuellement à l'objectif fixé. Souvent basé sur le sstatistiques. Exemple : ? ===Apprentissage par récompense=== le feedback spécifie seulement l’utilité du comportement par une valeur, l’objectif étant de la maximiser. ==Apprentissage par récompense (renforcement)== Apprend un comportement par tatonnement. Recoit en entrée une perception, genère une action puis la valeur de cette action lui est passé. Exemple : TPs Mif24 bras qui avance / robot qui sort du labyrinthe. ==Apprentissage par récompense (Stochastique)== Evaluer, selectionner, faire muter et recomencer juqu'à avoir une solution. Exemple : Algo génétique ====L’apprentissage dans le cadre de l’AmI==== ===Les techniques de classification=== Efficace pour apprendre un concept ciblé dans un environnement maîtrisé. Pas de capacité d'abstraction -> pas utilisable pour un agent autonome. Exemple : Algorithme d'apprentissage supervisé basé sur des arbres de décisions ===L’apprentissage par renforcement=== Difficilement utilisable pour l'AmI, car : -discrétisation du temps est faite de manière arbitraire -compliqué d'interpréter le feedback venant de l'utilisateur. Bilan : Besoin d'une approche plus globale ne se limitant pas à mettre en place des solutions pour des sous problèmes indépendants. ===Exemple d’une approche globale=== Triplet de capteurs (O, M, C) [Objet, Mouvement, Contextuel], Représentations définies sur un triplet (E, C, A) [Evenement, Condition, Action], Algo de classification -> chercher des motifs d'interactions à partir des données. Permet de construire de manière générale la régularité puis d'affiner petit à petit. ====Les systèmes multi-agents==== Système complexe : système qui a un effet sur son environnement et ses propres composantes. Application des SMA : * alternative à la résolution de problèmes centralisés * la simulation (biologie, sociologie...) * paradigme de programmation Façons d'envisager l'apprentissage décentralisé des SMA : * Un système peut être améliorer en dotant ses agents de capacités d'apprentissage qui leur sont propre. * Les agents peuvent apprendre de manière distribué et interactive -> c'est le système qui apprend par l'évolution des agents. Catégories d'apprentissage des SMA : * apprentissage centralisé : les agents apprennent seul. * apprentissage décentralisé : les agents sont impliqués dans la même activé d'apprentissage L'apprentissage centralisé et décentralisé peuvent cohabiter.