Formation Python pour la Data Science : Exploration de données

Description

Cette formation est la deuxième du parcours “Python pour la Data Science”. Après une première formation dédiée aux fondamentaux de Python, elle permet de découvrir les principaux outils mobilisés pour la manipulation, l’analyse et la visualisation de données avec Python. Elle apporte ainsi les bases nécessaires pour mener une exploration de données de manière rigoureuse et produire des représentations graphiques adaptées.

La formation s’articule autour de jeu de données fils rouges qui serviront de prétexte aux différentes analyses (données de recensement et ventes immobilières).

Les concepts abordés dans cette formation sont un socle important pour la mise en pratique des techniques d’apprentissage automatique qui sont l’objet de la formation suivante.

Intra-entreprise : Sur devis

Objectifs de la formation

Identifier les différentes étapes de l’exploration de données : lecture/écriture, transformation, analyse descriptive et visualisation
Acquérir les bases de la principale bibliothèque de manipulation de données en Python : Pandas
Distinguer les principaux types de graphiques et comprendre leurs usages en analyse descriptive
Découvrir des outils de création de graphiques interactifs
S’initier à la représentation de données cartographiques

Profil des béneficiaires

Pour qui

Personnes travaillant dans l’écosystème Python est devant manipuler et visionner des données.

Prérequis

Maîtriser les bases de Python et l’utilisation des notebooks Jupyter, ou avoir suivi la formation « Python pour la Data Science : le langage Python »
Disposer de notions de statistiques descriptives : moyenne, médiane, écart-type, etc.
Savoir lire de l’anglais technique

Contenu de la formation

1. Lecture et préparation des données
- Lecture et écriture de données dans les formats courants : CSV, Excel, etc.
- Sélection et transformation de colonnes
- Filtrage des lignes
2. Analyse descriptive univariée
- Production de descriptions statistiques
- Principales techniques de visualisation (histogrammes, graphiques bâton, box plots, diagrammes de densité, etc.
- Visualisation avec matplotlib, pandas, seaborn, plotly
3. Structuration et croisement des données
- Groupements et agrégations
- Jointures
- Tableaux croisés
4. Analyse descriptive multivariée
- Analyses multivariées
- Mesures d’association entre variables
- Visualisations (nuages de points, histogrammes 2d, iso-contours, boxplots)
- Réduction de dimension
5. Notions avancées (en fonction du temps disponible et des attentes des participants)
- Cartographie : visualisation de données géographiques
- Visualisation interactive dans le notebook avec ipywidgets
- Création de dashboards avec Voilà, Streamlit, Dash
Ressources techniques et pédagogiques

Équipe pédagogique

Conception:
David Raulo
Alexis Mignon
Formateurs:
Jessica Ducrocq
Camille BIGNET
Ann’Sophie Martin-Tissier

Suivi de l’exécution et évaluation des résultats

Questionnaire de satisfaction

Ressources techniques et pédagogiques

Alternances entre exposés théoriques et mises en pratique
Etude de plusieurs jeux de données fils rouges
Utilisation des notebooks Jupyter pour rassembler explications et exercices pratiques

Capacité d’accueil

6 à 12 personnes

Accessibilité

Python pour la Data Science : Exploration de données

Description

Profil des béneficiaires

Pour qui

Prérequis

Contenu de la formation

1. Lecture et préparation des données

2. Analyse descriptive univariée

3. Structuration et croisement des données

4. Analyse descriptive multivariée

5. Notions avancées (en fonction du temps disponible et des attentes des participants)

Ressources techniques et pédagogiques

Équipe pédagogique

Ressources techniques et pédagogiques

Capacité d’accueil

Prochaines dates