Description


Cette formation vous permettra de maîtriser les techniques modernes de NLP pour extraire des informations précieuses, d’automatiser des tâches complexes et de développer des applications intelligentes à partir des textes.

Intra-entreprise : Sur devis

Objectifs de la formation
  • Maîtriser les outils basiques de manipulation de données textuelles en Python (dont gestion de l’encodage et regex)
  • Savoir utiliser les principales méthodes de prétraitement du texte (dont tokenisation, lemmatisation, racinisation)
  • Maîtriser les principales méthodes d’analyse de données textuelles
  • Comprendre le mécanisme d’attention
  • Comprendre les caractéristiques principales de l’architecture Transformer et de ses variantes (GPT, BERT)
  • Comprendre ce qu’est un LLM et développer un système RAG (Retrieval-Augmented Generation)

Profil des béneficiaires

Pour qui

  • Toute personne ayant un profil technique et souhaitant s’initier à la manipulation et à l’exploration de données textuelles en Python

Prérequis

  • Niveau intermédiaire Python / Formation « Machine Learning Tronc commun 1 – MLTC1 » validée
  • Notions en apprentissage automatique (apprentissage / test)
  • Notions mathématiques de base : statistiques, algèbre linéaire (notion de vecteur, produit scalaire, multiplication matrice-vecteur)

Contenu de la formation

  • 1. Généralités

    • Extraction de texte (dont OCR), Encodage de caractères (Unicode, UTF-8, normalisation)
    • Méthodes de la classe string, Regex
  • 2. Prétraitement de texte

    • Tokenisation (dont WordPiece), Lemmatisation et racinisation (stemming)
  • 3. Représentation vectorielle

    • Bag-of-Word, TF-IDF, Métriques de similarités
    • Représentations vectorielles neuronales context-free : Word2vec
  • 4. Introduction de contexte dans les représentations vectorielles neuronales

    • RNN, Mécanisme d’attention, Architecture Transformer
    • GPT et BERT : Spécificités, Méthodes d’apprentissage (transfert learning)
  • 5. Application pratique

    • Développement d’un système RAG (Retrieval-Augmented Generation)
    • Retriever avec BM25 puis BERT
    • Génération de réponse avec un LLM

Équipe pédagogique

  • Conception :

    Marie-Caroline Schaeffer

  • Formateurs :
    • Gaétan VINCENT

    • Marie-Caroline Schaeffer

  • Gaétan est ingénieur spécialisé en vision par ordinateur et Deep Learning. Depuis 2020, en tant que Data Scientist chez Probayes, il réalise des projets R&D innovants autour de sujets comme la voiture autonome ou la maintenance prédictive.

  • Marie-Caroline Schaeffer est docteur en Apprentissage Automatique appliqué à la santé. Elle travaille depuis 2017 chez Probayes en tant que Data Scientist et chef de projets sur des sujets d’apprentissage automatique et de Traitement Automatique des Langues (NLP).

Suivi de l’exécution et évaluation des résultats
  • Exercices d’auto-évaluation
  • Mise en situation
  • Feuille de présence
  • Formulaire d’évaluation de la formation

Ressources techniques et pédagogiques

  • Alternance entre exposés théoriques et mises en pratique
  • Études de plusieurs cas pratiques « Fil rouge »
  • Utilisation des cahiers (notebooks) Jupyter pour rassembler explications et exercices pratiques dans un même document
  • Capacité d’accueil

    6 à 15 personnes

Accessibilité