NLP
Traitement automatique du langage naturel
Description : Ce cours explore les fondamentaux du traitement automatique du langage naturel (TALN), couvrant des sujets tels que les word embeddings, les modèles de langue, les réseaux de neurones récurrents et récursifs, les transformers, permettant aux étudiants de maîtriser l’analyse et la génération de texte.
Contenu : Cet enseignement introduit les principales théories linguistiques permettant de modéliser le langage naturel (ex: grammaires formelles, grammaires de dépendances, …). Il présente les différents outils de traitement automatique de langues (TAL) disponibles ainsi que modèles statistiques à la base de ceux-ci. L’accent sera notamment porté sur les méthodes d’apprentissage profond qui constituent l’état de l’art pour la plupart des tâches de TAL.
Prérequis : Maîtriser les concepts de base de l’apprentissage automatique Avoir une experience d’utilisation de librairie d’apprentissage profond (Tensorflow, pytorch, torch, …)
Acquis d’apprentissage : À la fin de ce cours, les participants auront acquis une compréhension approfondie des concepts fondamentaux du NLP. Ils seront en mesure d’appliquer des techniques de prétraitement de texte pour nettoyer et organiser des données linguistiques, ainsi que d’utiliser des modèles de langage pré-entraînés pour diverses tâches telles que la classification de texte, la génération de texte, la traduction automatique. Les apprenants seront compétents dans l’utilisation de bibliothèques populaires de traitement du langage naturel telles que NLTK, SpaCy, Transformers.
Méthodes pédagogiques : Chaque séance comprendra une partie de cours magistral (CM) au cours duquel de nouvelles notions seront introduites, suivi d’une séance de travaux pratiques (TP) sur machine. Les TP seront des applications directes des notions vues en CM. L’ensemble du matériel pédagogique (support de CM et de TP) sera fourni aux étudiants.
Modalités d’évaluation : Examen écrit de 2h, rattrapable.
Compétences évaluées :
- Être opérationnel, responsable et innovant dans le monde numérique
Responsable de cours : Joël Legrand
Identifiant Geode : 3MD4150
CM :
- Word representations (1.0 h)
- Language models (1.0 h)
- Sequence labeling (1.0 h)
- Sentence classification (1.0 h)
- Syntactic analysis: constituency parsing (1.0 h)
- Syntactic analysis and RNN (1.0 h)
- Machine translation (1.0 h)
- Machine translations with Seq2seq RNN and attention mechanisms (1.0 h)
- Le modèle transformer (1.0 h)
TP :
- Word representations (2.0 h)
- Word embeddings (2.0 h)
- Sequence labeling (2.0 h)
- LSTM (2.0 h)
- RNN language model (2.0 h)
- Sentiment analysis with RNN (2.0 h)
- Machine translation (2.0 h)
- Machine translations with Seq2seq RNN and attention mechanisms (2.0 h)
- Le modèle transformer (2.0 h)