inria-00496719, version 1
Apprentissage par renforcement
Journées MAS et Journée en l'honneur de Jacques Neveu (2010)
Résumé : Dans un problème d'apprentissage par renforcement, un agent évoluant dans un environnement aléatoire doit cumuler un maximum de récompenses en choisissant au fil du temps la meilleure politique, c'est-à-dire la meilleure réaction possible à ses observations. Une telle situation est modélisée par un processus de décision markovien : on suppose que la suite des états que traverse l'agent est une chaîne de Markov dont les noyaux de transitions successifs sont déterminés par les actions choisies, et on admet que la récompense reçue à chaque instant est une fonction (aléatoires) de l'état courant. Quand les propriétés probabilistes de l'environnement sont connues, la détermination de la politique optimale, qui constitue le problème dit de planification, est typiquement un problème de programmation dynamique.
- 1 : Laboratoire Traitement et Communication de l'Information [Paris] (LTCI)
- Télécom ParisTech – CNRS : UMR5141
- Collaboration : SESSION 16 : Apprentissage par renforcement
- Domaine : Mathématiques/Statistiques
Statistiques/Théorie
- inria-00496719, version 1
- http://hal.inria.fr/inria-00496719
- oai:hal.inria.fr:inria-00496719
- Contributeur : Conférence Mas2010
- Soumis le : Jeudi 1 Juillet 2010, 10:32:41
- Dernière modification le : Jeudi 1 Juillet 2010, 14:42:38