Description
Cette formation vous permettra de maîtriser les techniques modernes de NLP pour extraire des informations précieuses, d’automatiser des tâches complexes et de développer des applications intelligentes à partir des textes.
Intra-entreprise : Sur devis
- Maîtriser les outils basiques de manipulation de données textuelles en Python (dont gestion de l’encodage et regex)
- Savoir utiliser les principales méthodes de prétraitement du texte (dont tokenisation, lemmatisation, racinisation)
- Maîtriser les principales méthodes d’analyse de données textuelles
- Comprendre le mécanisme d’attention
- Comprendre les caractéristiques principales de l’architecture Transformer et de ses variantes (GPT, BERT)
- Comprendre ce qu’est un LLM et développer un système RAG (Retrieval-Augmented Generation)
Profil des béneficiaires
Pour qui
- Toute personne ayant un profil technique et souhaitant s’initier à la manipulation et à l’exploration de données textuelles en Python
Prérequis
- Niveau intermédiaire Python / Formation « Machine Learning Tronc commun 1 – MLTC1 » validée
- Notions en apprentissage automatique (apprentissage / test)
- Notions mathématiques de base : statistiques, algèbre linéaire (notion de vecteur, produit scalaire, multiplication matrice-vecteur)
Contenu de la formation
-
1. Généralités
- Extraction de texte (dont OCR), Encodage de caractères (Unicode, UTF-8, normalisation)
- Méthodes de la classe string, Regex
-
2. Prétraitement de texte
- Tokenisation (dont WordPiece), Lemmatisation et racinisation (stemming)
-
3. Représentation vectorielle
- Bag-of-Word, TF-IDF, Métriques de similarités
- Représentations vectorielles neuronales context-free : Word2vec
-
4. Introduction de contexte dans les représentations vectorielles neuronales
- RNN, Mécanisme d’attention, Architecture Transformer
- GPT et BERT : Spécificités, Méthodes d’apprentissage (transfert learning)
-
5. Application pratique
- Développement d’un système RAG (Retrieval-Augmented Generation)
- Retriever avec BM25 puis BERT
- Génération de réponse avec un LLM
Équipe pédagogique
-
Conception :
Marie-Caroline Schaeffer
-
Formateurs :
Gaétan VINCENT
Marie-Caroline Schaeffer
-
Gaétan est ingénieur spécialisé en vision par ordinateur et Deep Learning. Depuis 2020, en tant que Data Scientist chez Probayes, il réalise des projets R&D innovants autour de sujets comme la voiture autonome ou la maintenance prédictive.
-
Marie-Caroline Schaeffer est docteur en Apprentissage Automatique appliqué à la santé. Elle travaille depuis 2017 chez Probayes en tant que Data Scientist et chef de projets sur des sujets d’apprentissage automatique et de Traitement Automatique des Langues (NLP).
- Exercices d’auto-évaluation
- Mise en situation
- Feuille de présence
- Formulaire d’évaluation de la formation
Ressources techniques et pédagogiques
- Alternance entre exposés théoriques et mises en pratique
- Études de plusieurs cas pratiques « Fil rouge »
- Utilisation des cahiers (notebooks) Jupyter pour rassembler explications et exercices pratiques dans un même document
-
Capacité d’accueil
6 à 15 personnes
Accessibilité