This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
compte-rendu-etat-art-these [2025/12/08 12:11] 47.128.53.124 old revision restored (2025/11/05 05:58) |
compte-rendu-etat-art-these [2025/12/12 06:15] (current) 47.128.17.86 old revision restored (2025/11/20 16:42) |
||
|---|---|---|---|
| Line 1: | Line 1: | ||
| - | ===== Compte-rendu | + | ===== Mémento |
| ==Types d’apprentissage artificiel== | ==Types d’apprentissage artificiel== | ||
| Line 24: | Line 24: | ||
| Recherche de points commun dans les données contextuellement à l' | Recherche de points commun dans les données contextuellement à l' | ||
| Exemple : ? | Exemple : ? | ||
| + | |||
| + | |||
| + | < | ||
| + | * Méthode simple d'app non supervisé: K-means [[https:// | ||
| + | * Autre méthodes: cartes auto-organisées (SOM) cf. cours [[http:// | ||
| + | * Exemple de carte SOM utilisé en RL pour représenter les états: | ||
| + | * [[http:// | ||
| + | | ||
| + | </ | ||
| ===Apprentissage par récompense=== | ===Apprentissage par récompense=== | ||
| Line 73: | Line 82: | ||
| * apprentissage décentralisé : les agents sont impliqués dans la même activé d' | * apprentissage décentralisé : les agents sont impliqués dans la même activé d' | ||
| L' | L' | ||
| + | |||
| + | |||
| + | |||
| + | ===Attribution des récompenses=== | ||
| + | |||
| + | Difficulté de donner des récompenses, | ||
| + | (CAP : Credit Assignement Problem) | ||
| + | |||
| + | Décomposition du problème en deux sous problèmes : | ||
| + | * CAP inter-agent : Rétribution des agents en fonction d'un changement de performance au niveau global. | ||
| + | * CAP intra-agent : Rétribution des inférences internes ou décisions d’un agent en fonction d’une action externe effectuée. | ||
| + | Une solution plus simple consiste à diviser la récompense globale entre tous les agents du système, mais ceci ne marche pas correctement dans les cas plus complexe qui nécessitent un feedback plus précis. | ||
| + | |||
| + | ===Caractéristiques de l’apprentissage décentralisé=== | ||
| + | |||
| + | Apprendre un comportement collectif total ciblé est compliqué. Il est possible de simplifier le problème en isolant les comportements appris de certains agents, en réduisant l' | ||
| + | Réduction de la complexité -> utiliser l' | ||
| + | |||
| + | ====Approches neuro-inspirée==== | ||
| + | |||
| + | Approche connexionniste : modélise les phénomènes mentaux ou comportementaux comme des processus émergents de réseaux d’unités simples interconnectées. | ||
| + | |||
| + | L'IA actuelle (systèmes experts, solveurs logiques, ...) exécute des algos, alors que l' | ||
| + | L' | ||
| + | |||
| + | Représentation invariante : régularité constante dans l' | ||
| + | |||
| + | ===Les approches connexionnistes dans le cadre de l’AmI=== | ||
| + | |||
| + | Le système ACHE (Adaptive Control of Home Environments) utilise les réseaux de neurone afin de gérer les dispositifs d'une maison. Le système se base sur une représentation d' | ||
| + | |||
| + | Problème de ce système : | ||
| + | * La connaissance acquise par les réseaux de neurones ne peut être utilisée que pour l' | ||
| + | * La connaissance est difficilement interprétable (pour l' | ||
| + | |||
| + | ===L’intelligence comme adaptation=== | ||
| + | |||
| + | En psychologie -> théorie constructiviste : le sujet construit sa vision du monde en agissant sur celui-ci. L' | ||
| + | |||
| + | ===Application en IA=== | ||
| + | |||
| + | L’approche traditionnelle peut être résumée comme cela : | ||
| + | - On part d’une tâche (connue par le concepteur) | ||
| + | - On conçoit une représentation spécifique pour cette tâche | ||
| + | - On crée un programme de résolution de la tâche qui utilise cette représentation | ||
| + | - On lance le programme sur la machine | ||
| + | L’approche développementale quant à elle se résume par ces étapes : | ||
| + | - On conçoit un corps adapté à l’environnement du robot | ||
| + | - On conçoit un programme de développement | ||
| + | - Initialement (à sa " | ||
| + | - Le robot apprend à partir de son expérience. | ||
| + | |||
| + | Caractéristiques des programmes développementaux : | ||
| + | * Ils ne sont pas spécifiques à une tâche | ||
| + | * Les tâches sont globalement inconnues à priori | ||
| + | * Il s’agît d’un apprentissage en temps réel | ||
| + | * C’est un apprentissage ouvert (open-ended) : l’apprentissage d’un concept offre la possibilité d’apprendre un nouveau concept | ||
| + | |||
| + | ===L’apprentissage sensorimoteur=== | ||
| + | |||
| + | Apprentissage sensorimoteur en premier lieu. Cet apprentissage doit permettre à l' | ||
| + | |||
| + | ===Mécanismes d’apprentissage de schémas=== | ||
| + | |||
| + | Schema learning : technique d' | ||
| + | |||
| + | Schéma : Triplet (Contexte, Action, Prédiction). | ||
| + | |||
| + | Ce système représente donc les conséquences de chaque actions à partir d'un contexte. | ||
| + | |||
| + | Problème d' | ||
| + | |||
| + | Solution proposée : notions d' | ||
| + | Un résultat est jugé pertinent si le résultat apparait plus souvent lorsque l' | ||
| + | |||
| + | Lorsque le résultat est pertinent, il faut savoir quand il est fiable. Il faut être capable de trouver les contextes permettant de distinguer les cas de succès et d' | ||
| + | |||
| + | <note important> | ||
| + | |||
| + | Ce type d' | ||
| + | |||
| + | Deux solution proposées : | ||
| + | * Ajout d'item synthétique -> Lorqu' | ||
| + | * Actions composites -> actions formées de plusieurs schémas pour atteindre un but. | ||
| + | |||
| + | ====La robotique développementale==== | ||
| + | ====Le problème d’amorçage==== | ||
| + | |||
| + | Le système va apprendre incrémentalement à partir d'un état initial. Quel est-il ? | ||
| + | Pour faire apprendre les régularités au système, on peut se baser sur un certain point de vue comme la proximité temporelle entre deux évènements, | ||
| + | Mais quel point de vue prendre si l'on veut apprendre sur la base d'un flot de données brute ? Faut-il essayer une multitude de point de vue pour trouver des régularités ? Existe-t-il certains points de vue permettant d' | ||
| + | |||
| + | Si l'on sait ce que l'on veut apprendre, on pourrait guider le processus de discrétisation des données pour qu'il fournisse des données plus adapté à la représentation. | ||
| + | En poussant ce principe un peu plus loin, il serait possible d' | ||