This shows you the differences between two versions of the page.
Both sides previous revision Previous revision | |||
compte-rendu-etat-art-these [2025/10/16 03:45] 192.161.59.237 old revision restored (2025/10/02 01:56) |
compte-rendu-etat-art-these [2025/10/16 07:46] (current) 66.249.74.131 old revision restored (2025/08/29 16:38) |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ===== Mémento | + | ===== Compte-rendu |
- | ==Types d’apprentissage artificiel== | ||
- | * Mémorisation par cœur (rote learning) : implémentation directe du savoir et des compétences, | ||
- | * Apprendre par instruction : transformation du savoir en représentation interne pour intégration au savoir préexistant. | ||
- | * Apprendre par l’exemple et par entrainement : à partir d’exemples positifs ou négatifs et expérience pratique. | ||
- | * Par analogie : extension d’un savoir d’un problème résolu vers un problème non résolu. | ||
- | * Par découverte : faire des observations, | ||
- | |||
- | ==Caractéristiques de l’apprentissage pour les systèmes artificiels== | ||
- | * Apprentissage hors ligne (offline): la période d’apprentissage est préalable et indépendante à l’éxécution du programme. | ||
- | * Apprentissage en ligne (online): le programme apprend au cours de son activité. | ||
- | * Apprentissage par lots (batch learning): technique intermédiaire (des phases d’apprentissages offline à intervalle de temps régulier durant l’activité). | ||
- | |||
- | ====Principaux types d’apprentissage==== | ||
- | |||
- | ===Apprentissage supervisé=== | ||
- | le feedback spécifie exactement l’activité désirée de l’apprenant. L’objectif de l’apprentissage est de s’y conformer le plus possible. | ||
- | Permet l' | ||
- | Exemple : Réseaux de neurones et reconnaissance d' | ||
- | |||
- | ===Apprentissage non supervisé=== | ||
- | Pas de feedback explicite. L’objectif est de trouver les activités utiles et désirées sur la base du tâtonnement. | ||
- | Recherche de points commun dans les données contextuellement à l' | ||
- | Exemple : ? | ||
- | <note tip> | ||
- | Clustering | ||
- | </note tip> | ||
- | |||
- | ===Apprentissage par récompense=== | ||
- | le feedback spécifie seulement l’utilité du comportement | ||
- | |||
- | ==Apprentissage par récompense (renforcement)== | ||
- | Apprend un comportement par tatonnement. Recoit en entrée une perception, genère une action puis la valeur de cette action lui est passé. | ||
- | Exemple : TPs Mif24 bras qui avance / robot qui sort du labyrinthe. | ||
- | |||
- | ==Apprentissage par récompense (Stochastique)== | ||
- | Evaluer, selectionner, | ||
- | Exemple : Algo génétique | ||
- | |||
- | |||
- | ====L’apprentissage dans le cadre de l’AmI==== | ||
- | |||
- | ===Les techniques de classification=== | ||
- | Efficace pour apprendre un concept ciblé dans un environnement maîtrisé. | ||
- | Pas de capacité d' | ||
- | Exemple : Algorithme d' | ||
- | |||
- | ===L’apprentissage par renforcement=== | ||
- | Difficilement utilisable pour l'AmI, car : | ||
- | | ||
- | | ||
- | |||
- | Bilan : Besoin d'une approche plus globale ne se limitant pas à mettre en place des solutions pour des sous problèmes indépendants. | ||
- | |||
- | ===Exemple d’une approche globale=== | ||
- | Triplet de capteurs (O, M, C) [Objet, Mouvement, Contextuel], | ||
- | Représentations définies sur un triplet (E, C, A) [Evenement, Condition, Action], | ||
- | Algo de classification -> chercher des motifs d' | ||
- | |||
- | |||
- | ====Les systèmes multi-agents==== | ||
- | Système complexe : système qui a un effet sur son environnement et ses propres composantes. | ||
- | |||
- | Application des SMA : | ||
- | * alternative à la résolution de problèmes centralisés | ||
- | * la simulation (biologie, sociologie...) | ||
- | * paradigme de programmation | ||
- | |||
- | Façons d' | ||
- | * Un système peut être améliorer en dotant ses agents de capacités d' | ||
- | * Les agents peuvent apprendre de manière distribué et interactive -> c'est le système qui apprend par l' | ||
- | |||
- | Catégories d' | ||
- | * apprentissage centralisé : les agents apprennent seul. | ||
- | * apprentissage décentralisé : les agents sont impliqués dans la même activé d' | ||
- | L' | ||
- | |||
- | |||
- | |||
- | ===Attribution des récompenses=== | ||
- | |||
- | Difficulté de donner des récompenses, | ||
- | (CAP : Credit Assignement Problem) | ||
- | |||
- | Décomposition du problème en deux sous problèmes : | ||
- | * CAP inter-agent : Rétribution des agents en fonction d'un changement de performance au niveau global. | ||
- | * CAP intra-agent : Rétribution des inférences internes ou décisions d’un agent en fonction d’une action externe effectuée. | ||
- | Une solution plus simple consiste à diviser la récompense globale entre tous les agents du système, mais ceci ne marche pas correctement dans les cas plus complexe qui nécessitent un feedback plus précis. | ||
- | |||
- | ===Caractéristiques de l’apprentissage décentralisé=== | ||
- | |||
- | Apprendre un comportement collectif total ciblé est compliqué. Il est possible de simplifier le problème en isolant les comportements appris de certains agents, en réduisant l' | ||
- | Réduction de la complexité -> utiliser l' | ||
- | |||
- | ====Approches neuro-inspirée==== | ||
- | |||
- | Approche connexionniste : modélise les phénomènes mentaux ou comportementaux comme des processus émergents de réseaux d’unités simples interconnectées. | ||
- | |||
- | L'IA actuelle (systèmes experts, solveurs logiques, ...) exécute des algos, alors que l' | ||
- | L' | ||
- | |||
- | Représentation invariante : régularité constante dans l' | ||
- | |||
- | ===Les approches connexionnistes dans le cadre de l’AmI=== | ||
- | |||
- | Le système ACHE (Adaptive Control of Home Environments) utilise les réseaux de neurone afin de gérer les dispositifs d'une maison. Le système se base sur une représentation d' | ||
- | |||
- | Problème de ce système : | ||
- | * La connaissance acquise par les réseaux de neurones ne peut être utilisée que pour l' | ||
- | * La connaissance est difficilement interprétable (pour l' | ||
- | |||
- | ===L’intelligence comme adaptation=== | ||
- | |||
- | En psychologie -> théorie constructiviste : le sujet construit sa vision du monde en agissant sur celui-ci. L' | ||
- | |||
- | ===Application en IA=== | ||
- | |||
- | L’approche traditionnelle peut être résumée comme cela : | ||
- | - On part d’une tâche (connue par le concepteur) | ||
- | - On conçoit une représentation spécifique pour cette tâche | ||
- | - On crée un programme de résolution de la tâche qui utilise cette représentation | ||
- | - On lance le programme sur la machine | ||
- | L’approche développementale quant à elle se résume par ces étapes : | ||
- | - On conçoit un corps adapté à l’environnement du robot | ||
- | - On conçoit un programme de développement | ||
- | - Initialement (à sa " | ||
- | - Le robot apprend à partir de son expérience. | ||
- | |||
- | Caractéristiques des programmes développementaux : | ||
- | * Ils ne sont pas spécifiques à une tâche | ||
- | * Les tâches sont globalement inconnues à priori | ||
- | * Il s’agît d’un apprentissage en temps réel | ||
- | * C’est un apprentissage ouvert (open-ended) : l’apprentissage d’un concept offre la possibilité d’apprendre un nouveau concept | ||
- | |||
- | ===L’apprentissage sensorimoteur=== | ||
- | |||
- | Apprentissage sensorimoteur en premier lieu. Cet apprentissage doit permettre à l' | ||
- | |||
- | ===Mécanismes d’apprentissage de schémas=== | ||
- | |||
- | Schema learning : technique d' | ||
- | |||
- | Schéma : Triplet (Contexte, Action, Prédiction). | ||
- | |||
- | Ce système représente donc les conséquences de chaque actions à partir d'un contexte. | ||
- | |||
- | Problème d' | ||
- | |||
- | Solution proposée : notions d' | ||
- | Un résultat est jugé pertinent si le résultat apparait plus souvent lorsque l' | ||
- | |||
- | Lorsque le résultat est pertinent, il faut savoir quand il est fiable. Il faut être capable de trouver les contextes permettant de distinguer les cas de succès et d' | ||
- | |||
- | <note important> | ||
- | |||
- | Ce type d' | ||
- | |||
- | Deux solution proposées : | ||
- | * Ajout d'item synthétique -> Lorqu' | ||
- | * Actions composites -> actions formées de plusieurs schémas pour atteindre un but. | ||
- | |||
- | ====La robotique développementale==== | ||
- | ====Le problème d’amorçage==== | ||
- | |||
- | Le système va apprendre incrémentalement à partir d'un état initial. Quel est-il ? | ||
- | Pour faire apprendre les régularités au système, on peut se baser sur un certain point de vue comme la proximité temporelle entre deux évènements, | ||
- | Mais quel point de vue prendre si l'on veut apprendre sur la base d'un flot de données brute ? Faut-il essayer une multitude de point de vue pour trouver des régularités ? Existe-t-il certains points de vue permettant d' | ||
- | |||
- | Si l'on sait ce que l'on veut apprendre, on pourrait guider le processus de discrétisation des données pour qu'il fournisse des données plus adapté à la représentation. | ||
- | En poussant ce principe un peu plus loin, il serait possible d' | ||