Description
Cette formation est la troisième d’une série de formations autour de la Data Science et du langage Python. Alors que la précédente formation présentait la manipulation de données en Python, cette formation présente les principaux outils et concepts utilisés en apprentissage automatique. Elle s’articule autour de deux projets d’apprentissage automatique ou toutes les étapes habituelles sont abordées :
- Déploiement
- Analyse exploratoire des données
- Préparation des données
- Modélisation (apprentissage automatique)
Intra-entreprise : Sur devis
Objectifs de la formation
- Savoir distinguer les principales tâches d’apprentissage automatique et les algorithmes associés
- Savoir utiliser la bibliothèque scikit-learn
- Savoir mettre en place une chaîne de traitement complète
- Comprendre les protocoles de sélection de modèles
- Comprendre les enjeux du déploiement d’un algorithme d’Intelligence Artificielle
Profil des béneficiaires
Pour qui
- Data analysts souhaitant évoluer vers des problématiques de machine learning
- Développeurs Python désirant intégrer des modèles prédictifs dans leurs projets
- Ingénieurs ou scientifiques manipulant des données
- Toute personne ayant une appétence pour la data et les méthodes statistiques
Prérequis
- Maîtriser les bases du langage Python (variables, fonctions, structures de contrôle)
- Connaître les bibliothèques de manipulation et d’exploration de données courantes (ex: pandas, matplotlib, …)
- Savoir utiliser les notebooks Jupyter
- Avoir les bases mathématiques en statistiques (moyennes, médianes, écart-type), en algèbre linéaire (multiplication matrices – vecteurs).
- Lire l’anglais technique
- Ou bien avoir suivi “Python pour la data science : L’exploration de données”
Contenu de la formation
-
Cas d’étude 1 : Découverte du cas d’étude (prix de véhicule d’occasions)
- Description et compréhension du cas d’usage
- Généralités sur l’approche de problèmes par apprentissage automatique
- Choix de modélisation
-
Cas d’étude 1 : Analyses exploratoires
- Analyse exploratoire des données
- Compréhension du jeu de données
- Détection des problèmes potentiels
- Mesures correctives
- Utilisation de méthodes d’apprentissage non-supervisée pour l’exploration de données
-
Cas d’étude 1 : Modélisation pour la régression
- Les familles de modèles pour la régression(linéaire, arbres de décision, plus proches voisins, …)
- Sur-apprentissage et régularisation
- La notion d’hyper-paramètres
- Utilisation des estimateurs scikit-learn
- Mise en place des chaînes de pré-traitement (piplines)
-
Cas d’étude 1: Sélection de modèles de régression
- Les mesures de performances pour la régression
- Les techniques de validations croisées
- L’optimisation des hyper-paramètres
- Mise en pratique avec scikit-learn
-
Cas d’étude 1 : Déployer un modèle
- Les modalités de déploiement (ligne de commande, application, API)
- Démos
-
Cas d’étude 2 : Présentation du cas d’étude (attrition employés)
- Réflexion sur la collecte d’information et le cadrage des projets
- Réflexion sur les choix de modélisation multiples
-
Cas d’étude 2 : Exploration de données
- Prise en main du jeu de données
- Utilisation de méthode d’apprentissage non-supervisées pour l’exploration de données
-
Cas d’étude 2 : Modélisation pour la classification
- Transposition des familles de modèles pour la classification
- Mise en pratique avec scikit-learn
-
Cas d’étude 2 : Sélection de modèles de classification
- Les mesures de performance pour la classification
- Les techniques de validation croisée en classificatoin (notion de stratification)
-
Cas d’étude 2 : Au-delà du modèle
- Réflexion sur l’intégration des modèles d’IA dans des systèmes plus complexe
- Modèle d’IA et simulation
- Evaluation des stratégies basées sur les modèles IA (notion d’A/B testing)
- Réflexion sur les enjeux éthiques
Équipe pédagogique
-
Conception :
• David Raulo
• Alexis Mignon
-
Formateurs
• David Raulo
• Alexis Mignon
Suivi de l’exécution et évaluation des résultats
- Questionnaire de satisfaction
Ressources techniques et pédagogiques
- Serveur JupyterHub pendant la formation
- Notebooks Jupyter (version élève et formateur)
- Données d’exemple
-
Capacité d’accueil
12 personnes
Accessibilité