Description
Cette formation est la deuxième du parcours “Python pour la Data Science”. Après une première formation dédiée aux fondamentaux de Python, elle permet de découvrir les principaux outils mobilisés pour la manipulation, l’analyse et la visualisation de données avec Python. Elle apporte ainsi les bases nécessaires pour mener une exploration de données de manière rigoureuse et produire des représentations graphiques adaptées.
La formation s’articule autour de jeu de données fils rouges qui serviront de prétexte aux différentes analyses (données de recensement et ventes immobilières).
Les concepts abordés dans cette formation sont un socle important pour la mise en pratique des techniques d’apprentissage automatique qui sont l’objet de la formation suivante.
Intra-entreprise : Sur devis
- Identifier les différentes étapes de l’exploration de données : lecture/écriture, transformation, analyse descriptive et visualisation
- Acquérir les bases de la principale bibliothèque de manipulation de données en Python : Pandas
- Distinguer les principaux types de graphiques et comprendre leurs usages en analyse descriptive
- Découvrir des outils de création de graphiques interactifs
- S’initier à la représentation de données cartographiques
Profil des béneficiaires
Pour qui
- Personnes travaillant dans l’écosystème Python est devant manipuler et visionner des données.
Prérequis
- Maîtriser les bases de Python et l’utilisation des notebooks Jupyter, ou avoir suivi la formation « Python pour la Data Science : le langage Python »
- Disposer de notions de statistiques descriptives : moyenne, médiane, écart-type, etc.
- Savoir lire de l’anglais technique
Contenu de la formation
-
1. Lecture et préparation des données
- Lecture et écriture de données dans les formats courants : CSV, Excel, etc.
- Sélection et transformation de colonnes
- Filtrage des lignes
-
2. Analyse descriptive univariée
- Production de descriptions statistiques
- Principales techniques de visualisation (histogrammes, graphiques bâton, box plots, diagrammes de densité, etc.
- Visualisation avec matplotlib, pandas, seaborn, plotly
-
3. Structuration et croisement des données
- Groupements et agrégations
- Jointures
- Tableaux croisés
-
4. Analyse descriptive multivariée
- Analyses multivariées
- Mesures d’association entre variables
- Visualisations (nuages de points, histogrammes 2d, iso-contours, boxplots)
- Réduction de dimension
-
5. Notions avancées (en fonction du temps disponible et des attentes des participants)
- Cartographie : visualisation de données géographiques
- Visualisation interactive dans le notebook avec ipywidgets
- Création de dashboards avec Voilà, Streamlit, Dash
-
Ressources techniques et pédagogiques
Équipe pédagogique
-
Conception:
David Raulo
Alexis Mignon
-
Formateurs:
Jessica Ducrocq
Camille BIGNET
Ann’Sophie Martin-Tissier
- Questionnaire de satisfaction
Ressources techniques et pédagogiques
- Alternances entre exposés théoriques et mises en pratique
- Etude de plusieurs jeux de données fils rouges
- Utilisation des notebooks Jupyter pour rassembler explications et exercices pratiques
-
Capacité d’accueil
6 à 12 personnes
Accessibilité