AppStat

Apprentissage statistique

Description : L’apprentissage supervisé a pour objectif de proposer des méthodes qui, à partir d’une base d’exemples, permettent de prendre une décision portant sur un paramètre à partir d’observations, la décision devant être la meilleure possible en moyenne. Par exemple, classifier des images suivant leur contenu, c’est-à-dire décider si une image représente un chat, un chien, ou autre chose. Nous présenterons formellement le problème et étudierons les garanties de généralisation des algorithmes d’apprentissage supervisé, c’est-à-dire la qualité de prédiction de la sortie associée à une entrée non présente dans la base d’entraînement. Pour atteindre cet objectif, nous introduirons les concepts d’espace d’hypothèses ayant la capacité d’apprentissage PAC (probablement approximativement correcte), de dimension Vapnik-Chervonenkis d’un espace d’hypothèses. Nous énoncerons et démontrerons deux théorèmes fondamentaux de la théorie de l’apprentissage supervisé donnant une borne inférieure et une borne supérieure du risque réel au problème de classification binaire.

Contenu : Formalisation du problème de l’apprentissage supervisé Capacité d’apprentissage PAC et convergence uniforme Le dilemme biais-complexité La dimension VC (Vapnik-Chervonenkis) d’un espace d’hypothèse Deux théorèmes fondamentaux de l’apprentissage supervisé

Prérequis : cours de Probabilités de 1A (CIP-EDP, 1SL1000) cours de Statistique et apprentissage de ST4 (1CC5000)

Acquis d’apprentissage : A l’issue de ce cours, les élèves devront être en mesure

  • de comprendre et s’approprier des éléments de la théorie de l’apprentissage supervisé ;
  • de comprendre et s’approprier le dilemme biais-complexité d’un espace d’hypothèses ;
  • de comprendre et s’approprier les bornes bayésiennes PAC de l’apprentissage supervisé (en particulier celles du problème de classification binaire).

Méthodes pédagogiques : 10,5h de cours magistraux + 10,5h de travaux dirigés + examen écrit de 2h

Moyens : Les travaux dirigés, constitués d’exercices, permettront d’utiliser les concepts vus en cours.

Modalités d’évaluation : Examen écrit de 2h avec documents

Compétences évaluées :

  • Analyser, concevoir et réaliser des systèmes complexes

Responsable de cours : Michel Barret

Identifiant Geode : 3MD4140


CM :

  1. Modèle formel de l’apprentissage statistique supervisé (1.5 h)
  2. Capacité d’apprentissage PAC (1.5 h)
  3. Dilemme biais-complexité (1.5 h)
  4. No free lunch theorem (1.5 h)
  5. Dimension VC (1.5 h)
  6. Théorèmes fondamentaux de l’apprentissage PAC (1.5 h)
  7. Théorèmes fondamentaux de l’apprentissage PAC (1.5 h)

TD :

  1. Rappels et compléments mathématiques (1.5 h)
  2. Rappels et compléments mathématiques (1.5 h)
  3. Prédicteurs linéaires (1.5 h)
  4. Prédicteurs linéaires (1.5 h)
  5. Théorèmes fondamentaux de l’apprentissage PAC (1.5 h)
  6. Théorèmes fondamentaux de l’apprentissage PAC (1.5 h)
  7. Théorèmes fondamentaux de l’apprentissage PAC (1.5 h)