Formation Python pour la data science : l’apprentissage automatique (niveau 1)

Description

Cette formation est la troisième d’une série de formations autour de la Data Science et du langage Python. Alors que la précédente formation présentait la manipulation de données en Python, cette formation présente les principaux outils et concepts utilisés en apprentissage automatique. Elle s’articule autour de deux projets d’apprentissage automatique ou toutes les étapes habituelles sont abordées :

Déploiement

Analyse exploratoire des données

Préparation des données

Modélisation (apprentissage automatique)

Intra-entreprise : Sur devis

Objectifs de la formation

Savoir distinguer les principales tâches d’apprentissage automatique et les algorithmes associés
Savoir utiliser la bibliothèque scikit-learn
Savoir mettre en place une chaîne de traitement complète
Comprendre les protocoles de sélection de modèles
Comprendre les enjeux du déploiement d’un algorithme d’Intelligence Artificielle

Profil des béneficiaires

Pour qui

Data analysts souhaitant évoluer vers des problématiques de machine learning
Développeurs Python désirant intégrer des modèles prédictifs dans leurs projets
Ingénieurs ou scientifiques manipulant des données
Toute personne ayant une appétence pour la data et les méthodes statistiques

Prérequis

Maîtriser les bases du langage Python (variables, fonctions, structures de contrôle)
Connaître les bibliothèques de manipulation et d’exploration de données courantes (ex: pandas, matplotlib, …)
Savoir utiliser les notebooks Jupyter
Avoir les bases mathématiques en statistiques (moyennes, médianes, écart-type), en algèbre linéaire (multiplication matrices – vecteurs).
Lire l’anglais technique
Ou bien avoir suivi “Python pour la data science : L’exploration de données”

Contenu de la formation

Cas d’étude 1 : Découverte du cas d’étude (prix de véhicule d’occasions)
- Description et compréhension du cas d’usage
- Généralités sur l’approche de problèmes par apprentissage automatique
- Choix de modélisation
Cas d’étude 1 : Analyses exploratoires
- Analyse exploratoire des données
- Compréhension du jeu de données
- Détection des problèmes potentiels
- Mesures correctives
- Utilisation de méthodes d’apprentissage non-supervisée pour l’exploration de données
Cas d’étude 1 : Modélisation pour la régression
- Les familles de modèles pour la régression(linéaire, arbres de décision, plus proches voisins, …)
- Sur-apprentissage et régularisation
- La notion d’hyper-paramètres
- Utilisation des estimateurs scikit-learn
- Mise en place des chaînes de pré-traitement (piplines)
Cas d’étude 1: Sélection de modèles de régression
- Les mesures de performances pour la régression
- Les techniques de validations croisées
- L’optimisation des hyper-paramètres
- Mise en pratique avec scikit-learn
Cas d’étude 1 : Déployer un modèle
- Les modalités de déploiement (ligne de commande, application, API)
- Démos
Cas d’étude 2 : Présentation du cas d’étude (attrition employés)
- Réflexion sur la collecte d’information et le cadrage des projets
- Réflexion sur les choix de modélisation multiples
Cas d’étude 2 : Exploration de données
- Prise en main du jeu de données
- Utilisation de méthode d’apprentissage non-supervisées pour l’exploration de données
Cas d’étude 2 : Modélisation pour la classification
- Transposition des familles de modèles pour la classification
- Mise en pratique avec scikit-learn
Cas d’étude 2 : Sélection de modèles de classification
- Les mesures de performance pour la classification
- Les techniques de validation croisée en classificatoin (notion de stratification)
Cas d’étude 2 : Au-delà du modèle
- Réflexion sur l’intégration des modèles d’IA dans des systèmes plus complexe
- Modèle d’IA et simulation
- Evaluation des stratégies basées sur les modèles IA (notion d’A/B testing)
- Réflexion sur les enjeux éthiques

Équipe pédagogique

Conception :

• David Raulo
• Alexis Mignon
Formateurs

• David Raulo
• Alexis Mignon

Suivi de l’exécution et évaluation des résultats

Questionnaire de satisfaction

Ressources techniques et pédagogiques

Serveur JupyterHub pendant la formation
Notebooks Jupyter (version élève et formateur)
Données d’exemple

Capacité d’accueil

12 personnes

Accessibilité

Python pour la data science : l’apprentissage automatique (niveau 1)

Description

Profil des béneficiaires

Pour qui

Prérequis

Contenu de la formation

Cas d’étude 1 : Découverte du cas d’étude (prix de véhicule d’occasions)

Cas d’étude 1 : Analyses exploratoires

Cas d’étude 1 : Modélisation pour la régression

Cas d’étude 1: Sélection de modèles de régression

Cas d’étude 1 : Déployer un modèle

Cas d’étude 2 : Présentation du cas d’étude (attrition employés)

Cas d’étude 2 : Exploration de données

Cas d’étude 2 : Modélisation pour la classification

Cas d’étude 2 : Sélection de modèles de classification

Cas d’étude 2 : Au-delà du modèle

Équipe pédagogique

Ressources techniques et pédagogiques

Capacité d’accueil

Prochaines dates