Renforcement

Apprentissage par renforcement

Description : Le cours présente les bases théoriques de l’apprentissage par renforcement ainsi que les principes des algorithmes les plus courant. Par le biais de travaux pratiques, ces éléments seront étendus à des situations plus complexes, permettant d’introduire les algorithmes les plus récents ayant, par exemple, permis à l’ordinateur de maîtriser le jeu de Go.

Contenu : L’apprentissage par renforcement est introduit en s’appuyant sur le cadre formel des Processus Décisionnels de Markov. Après avoir montré l’existence et l’unicité d’une solution sous la forme de la fonction valeur, nous aborderons les algorithmes classiques permettant de calculer cette fonction. Nous verrons ensuite comment des méthodes approchées (approximation linéaire, estimation de monte carlo, bandits, apprentissage profond) permettent de s’attaquer à des contextes plus complexes.

Prérequis : Ce cours requiert des notions élementaires d’algèbre linéaire et de théorie des probabilités. Pour les travaux pratique, une bonne connaissance de python (numpy) est nécessaire. Le dernier TP s’appuie sur une maîtrise pratique de l’apprentissage profond avec pytorch.

Acquis d’apprentissage : Comprendre les fondements théorique de l’apprentissage par renforcement. Mettre en oeuvre ces méthodes de façon adaptée en fonction des problèmes à résoudre. Aiguiser son esprit critique.

Méthodes pédagogiques : Dans la mesure du possible (taille du groupe), les cours magistraux seront les plus interactifs possibles et auront comme objectif de présenter les notions théoriques et algorithmiques qui sous-tendent l’apprentissage par renforcement. Les travaux pratiques ont pour but de vraiment se confronter aux méthodes en implémentant et testant les algorithmes pour mieux en saisir le fonctionnement et les limites.

Moyens : Cours et travaux pratiques sont assurés par Alain DUTECH, Hervé FREZZA-BUET et Jérémy FIX. Les travaux pratiques s’appuieront sur le langage python et ses bibliothèques scientifiques.

Modalités d’évaluation : Le module sera évalué par un examen écrit, où l’idée est de tester la capacité de l’étudiant à utiliser intelligemment des méthodes, à analyser les résultats d’un algorithme, etc.

Compétences évaluées :

Être opérationnel, responsable et innovant dans le monde numérique

Responsable de cours : Hervé Frezza-Buet

Identifiant Geode : 3MD4120

CM :

Intro (1.5 h)
Prog. Dynamique (1.5 h)
Apprentissage par Renforcement (1.5 h)
Méthodes approchées (1.5 h)
Difficultés classiques (1.5 h)
Apprentissage par Renforcement Profond (1.5 h)

TD :

Modéliser une Question (3.0 h)

TP :

Probl. Académiques (3.0 h)
Probl. Continus (3.0 h)
App. Renf. Profond (3.0 h)