Archives des Probayes

Description

Cette formation vous permettra de maîtriser les techniques modernes de NLP pour extraire des informations précieuses, d’automatiser des tâches complexes et de développer des applications intelligentes à partir des textes.

Intra-entreprise : Sur devis

Objectifs de la formation

Maîtriser les outils basiques de manipulation de données textuelles en Python (dont gestion de l’encodage et regex)
Savoir utiliser les principales méthodes de prétraitement du texte (dont tokenisation, lemmatisation, racinisation)
Maîtriser les principales méthodes d’analyse de données textuelles
Comprendre le mécanisme d’attention
Comprendre les caractéristiques principales de l’architecture Transformer et de ses variantes (GPT, BERT)
Comprendre ce qu’est un LLM et développer un système RAG (Retrieval-Augmented Generation)

Profil des béneficiaires

Pour qui

Toute personne ayant un profil technique et souhaitant s’initier à la manipulation et à l’exploration de données textuelles en Python

Prérequis

Niveau intermédiaire Python / Formation « Machine Learning Tronc commun 1 – MLTC1 » validée
Notions en apprentissage automatique (apprentissage / test)
Notions mathématiques de base : statistiques, algèbre linéaire (notion de vecteur, produit scalaire, multiplication matrice-vecteur)

Contenu de la formation

1. Généralités
- Extraction de texte (dont OCR), Encodage de caractères (Unicode, UTF-8, normalisation)
- Méthodes de la classe string, Regex
2. Prétraitement de texte
- Tokenisation (dont WordPiece), Lemmatisation et racinisation (stemming)
3. Représentation vectorielle
- Bag-of-Word, TF-IDF, Métriques de similarités
- Représentations vectorielles neuronales context-free : Word2vec
4. Introduction de contexte dans les représentations vectorielles neuronales
- RNN, Mécanisme d’attention, Architecture Transformer
- GPT et BERT : Spécificités, Méthodes d’apprentissage (transfert learning)
5. Application pratique
- Développement d’un système RAG (Retrieval-Augmented Generation)
- Retriever avec BM25 puis BERT
- Génération de réponse avec un LLM

Équipe pédagogique

Conception :

Marie-Caroline Schaeffer
Formateurs :
Gaétan VINCENT
Marie-Caroline Schaeffer
Gaétan est ingénieur spécialisé en vision par ordinateur et Deep Learning. Depuis 2020, en tant que Data Scientist chez Probayes, il réalise des projets R&D innovants autour de sujets comme la voiture autonome ou la maintenance prédictive.
Marie-Caroline Schaeffer est docteur en Apprentissage Automatique appliqué à la santé. Elle travaille depuis 2017 chez Probayes en tant que Data Scientist et chef de projets sur des sujets d’apprentissage automatique et de Traitement Automatique des Langues (NLP).

Suivi de l’exécution et évaluation des résultats

Exercices d’auto-évaluation
Mise en situation
Feuille de présence
Formulaire d’évaluation de la formation

Ressources techniques et pédagogiques

Alternance entre exposés théoriques et mises en pratique
Études de plusieurs cas pratiques « Fil rouge »
Utilisation des cahiers (notebooks) Jupyter pour rassembler explications et exercices pratiques dans un même document

Capacité d’accueil

6 à 15 personnes

Accessibilité

Description

Profil des béneficiaires

Pour qui

Prérequis

Contenu de la formation

1. Généralités

2. Prétraitement de texte

3. Représentation vectorielle

4. Introduction de contexte dans les représentations vectorielles neuronales

5. Application pratique

Équipe pédagogique

Ressources techniques et pédagogiques

Capacité d’accueil