Sparse

Modèles parcimonieux

Description : Le cours introduit les principes de transformation des données et de méthodes d’optimisation présents au coeur de l’apprentisage automatique et de la science des données sous l’angle des notions de parcimonie et de robustesse, appliquées à la compression de données numériques (mp3, jpg) et à la représentation par des modèles prédictifs etc., en faisant largement appel à l’expérimentation algorithmique, à l’intuition et à l’histoire des sciences.

Contenu : Le cours présente un parcours en analyse de données et apprentissage via différents outils et méthodes parcimonieuses, visant à expliquer des observations par un nombre réduit de paramètres : métriques, descripteurs et transformations de données (normes, bases et trames de vecteurs, ondelettes) ; mise en oeuvre dans des algorithmes de compression de données (audio, image, vidéo, texte) ; extension aux modèles de prédictions (moments statistiques, régressions linéaires et polynomiales, modèles parcimonieux ou robustes).

Prérequis : Ce cours requiert des bases solides en algèbre linéaire et de son usage pour l’analyse des systèmes (quasi) linéaires et invariants en temps (de type filtrage) via l’analyse de Fourier (jusqu’à l’analyse harmonique), ainsi que de bonnes notions de probabilités empiriques (distributions statistiques, estimateurs). Pour les travaux pratiques, la connaisance d’un langage de scripting numérique (Matlab, Scilab, octave, Python, etc.) est requise.

Acquis d’apprentissage : Comprendre la motivation pratique et théorique d’algorithmes d’optimisation employés en apprentisage automatique et en science des données. Mettre en oeuvre les algorithmes afférents de façon adaptée en comprenant leur sens en regard du problème posé. Faire le lien entre les différentes méthodes et les mettre en oeuvre dans un flux de traitement de données.

Méthodes pédagogiques : Sur chaque thème abordé, les étudiants sont d’abord confrontés à un problème “jouet” pour lequel ils doivent mobilisent leurs connaissances, se poser des questions et implémenter des premiers algorithmes (par binôme). Dans un deuxième temps, après un échange sur cette première phase, des aspects théoriques, des preuves mathématiques et des outils algorithmiques sont présentés. Enfin, dans une troisème partie, les étudiants mettent en oeuvre ces acquis sur un problème plus complexe.

Moyens : Les cours et travaux de pratiques sont donnés par Laurent Duval (ESIEE-Paris, Université Paris-Est Marne-la-Vallée et IFP Energies nouvelles). Les cours et travaux pratiques sont entremélés, en utilisant des signaux, des images ou des données expérimentales allant de simples simulations à des données du monde réel.

Modalités d’évaluation : Le module sera évalué par un examen oral par groupe de deux ou trois étudiants, avec fourniture préalable d’un rapport, sur un sujet intégratif, conçu pour mobiliser différentes compétences et méthodes acquises dans le cours. Si le nombre d’étudiants le permet, une structure de type projet, permettant aux groupes de collaborer, sera proposée..

Compétences évaluées :

  • Agir, entreprendre, innover en environnement scientifique et technologique
  • Penser et agir en ingénieur éthique, responsable et intègre
  • Mener un projet, une équipe

Responsable de cours : Laurent Duval

Identifiant Geode : 3MD4020


CM :

  1. Introduction (1.0 h)
  2. Sparse regression (1.0 h)
  3. Transformations (1.0 h)
  4. Approximations for compression (1.0 h)
  5. Penalized sparse regression (1.0 h)
  6. Complements (1.0 h)

TP :

  1. Introduction (2.0 h)
  2. Sparse regression (2.0 h)
  3. Transformations (2.0 h)
  4. Approximations for compression (2.0 h)
  5. Penalized sparse regression (2.0 h)
  6. Complements (2.0 h)