EDA pandas NumPy Matplotlib Seaborn : les 9 étapes clés pour passer de zéro à opérationnel

EDA pandas NumPy Matplotlib Seaborn : l'essentiel en un article — vrai code, schémas et étapes concrètes, extraits d'un cours de 44 leçons.

EDA pandas NumPy Matplotlib Seaborn : les 9 étapes clés pour passer de zéro à opérationnel

Tout le monde peut apprendre EDA pandas NumPy Matplotlib Seaborn — à condition de suivre les étapes dans le bon ordre. On a condensé un cours complet de 44 leçons en un parcours clair, avec les extraits de code les plus utiles.

tl;dr
  • Introduction a l'Analyse de Donnees
  • Introduction et installation
  • Prendre en main les DataFrames Pandas
  • Nettoyer et Preparer les Donnees
  • Statistiques Descriptives et Agregation
~$ cat ./parcours.md # EDA pandas NumPy Matplotlib Seaborn — 9 chapitres
01
Introduction à l'Analyse de Données
→ L'Analyse de Données — Le Métier du Siècle→ Chapitre 00 — Sources des données du cours
02
Introduction et installation
→ Pourquoi l'EDA et ces quatre bibliothèques ?→ Installer votre environnement de travail+ 2 autres leçons
03
Prendre en main les DataFrames Pandas
→ Créer et charger un DataFrame (CSV, Excel, JSON)→ Explorer un DataFrame — head, info, describe, shape+ 1 autres leçons
04
Nettoyer et Préparer les Données
→ Détecter et traiter les valeurs manquantes→ Supprimer les doublons et corriger les types de données+ 2 autres leçons
05
Statistiques Descriptives et Agrégation
→ Tendance centrale et dispersion — moyenne, médiane, écart-type→ Corrélation et covariance entre variables+ 1 autres leçons
06
Visualisation avec Matplotlib
→ Introduction à Matplotlib : Figure, Axes et subplots→ Graphiques essentiels : barres, lignes, dispersion+ 1 autres leçons
07
Visualisation Avancée avec Seaborn
→ Introduction à Seaborn : histplot, boxplot, violinplot→ Visualiser les relations : scatterplot et heatmap de corrélation+ 2 autres leçons
08
Analyse Exploratoire Complète
→ Méthodologie EDA : les 5 étapes d'une bonne analyse→ Détecter les outliers et les anomalies dans les données+ 1 autres leçons
🏁
Projet final (+ 1 chapitres en chemin)
→ Tu repars avec un projet concret et démontrable

Installer votre environnement de travail

NOTECe que vous allez apprendre — Choisir entre Google Colab (zéro installation, dans le navigateur) et Anaconda + Jupyter (installation locale), puis installer NumPy, Pandas, Matplotlib et Seaborn, et vérifier que tout fonctionne avec un script de test.

0. Google Colab — L'option zéro installation

Google Colaboratory (Colab) est un environnement Jupyter gratuit qui fonctionne directement dans votre navigateur, sans rien installer. Il tourne sur les serveurs de Google et inclut déjà NumPy, Pandas, Matplotlib et Seaborn préinstallés.

TIPAnalogie — Google Colab, c'est comme travailler dans un bureau équipé que Google vous prête gratuitement. Vous n'avez rien à apporter : le bureau, les outils et les bibliothèques sont déjà là. Vous ouvrez votre navigateur et vous commencez immédiatement.

Comment démarrer avec Google Colab

Vérifier les versions préinstallées dans Colab

Dans la première cellule de votre notebook Colab, copiez et exécutez ce code :

output
import numpy as np
import pandas as pd
import matplotlib
import seaborn as sns

print("NumPy     :", np.__version__)
print("Pandas    :", pd.__version__)
print("Matplotlib:", matplotlib.__version__)
print("Seaborn   :", sns.__version__)
print("\nTout est pret. Bonne analyse !")
output
# Methode 1 : Uploader un fichier depuis votre ordinateur
from google.colab import files
uploaded = files.upload()   # une fenêtre de sélection s'ouvre

import pandas as pd
import io
df = pd.read_csv(io.BytesIO(uploaded['mon_fichier.csv']))

# Methode 2 : Lire depuis Google Drive
from google.colab import drive
drive.mount('/content/drive')
df = pd.read_csv('/content/drive/MyDrive/mon_fichier.csv')

# Methode 3 : Lire directement depuis une URL publique
df = pd.read_csv('https://raw.githubusercontent.com/exemple/repo/main/data.csv')

Python seul

Anaconda (recommandé)

TIPAnalogie — Choisir entre Python seul et Anaconda, c'est comme choisir entre acheter des meubles IKEA pièce par pièce ou acheter un appartement déjà meublé. Les deux fonctionnent, mais Anaconda vous fait gagner un temps considérable au départ.

2. étape 1 — Télécharger et installer Anaconda

Téléchargement

Installation sur Windows

WARNINGWindows uniquement — Si vous ne cochez pas « Add Anaconda to PATH », utilisez toujours l'Anaconda Prompt (et non le terminal Windows ordinaire) pour lancer vos commandes conda et jupyter.

Vérification de l'installation

Ouvrez l'Anaconda Prompt (Windows) ou le Terminal (macOS/Linux) et tapez :

output
conda --version
output
# Créer un environnement nommé "eda-cours" avec Python 3.11
conda create -n eda-cours python=3.11

# Activer l'environnement
conda activate eda-cours

# Vérifier que l'environnement est actif (le nom apparaît entre parenthèses)
# (eda-cours) C:\Users\votre_nom>

Option A — Avec conda (recommandé)

output
# Installer toutes les bibliothèques en une commande
conda install numpy pandas matplotlib seaborn jupyter -y

Lancement depuis le terminal

output
# Assurez-vous que votre environnement est actif
conda activate eda-cours

# Lancer Jupyter Notebook
jupyter notebook

Chapitre 08 – Introduction aux librairies en sciences de données

NOTEObjectifs du module
  • Comprendre ce qu'est une librairie Python
  • Importer une librairie (import)
  • Importer un module précis d'une librairie (from ... import)
  • Utiliser les alias (import numpy as np)
  • Utiliser la librairie math comme premier exemple
  • Installer, mettre à jour et vérifier la config d'une librairie avec PIP

1. Qu'est-ce qu'une librairie ?

Les librairies sont des séries de modules déjà tout prêts, permettant de faire des traitements complexes en quelques lignes. Elles sont très nombreuses :

💻 Librairies CPU Standard

🌞 Librairies GPU NVIDIA RAPIDS

2. Importer une librairie — la librairie math

La librairie math est l'exemple parfait pour comprendre les imports. Elle est intégrée à Python, aucune installation n'est nécessaire.

Documentation officielle : docs.python.org/2/library/math.html

2.1 Import complet

output
import math

# Arrondir au supérieur
print(math.ceil(0.1))    # arrondi au supérieur
NOTERègle%command s'applique à une seule ligne. %%command s'applique à toute la cellule. La commande %% doit être en première ligne de la cellule.

6.1 Mesurer le temps d'exécution

CommandeDescriptionExemple
%timeMesure le temps d'une seule ligne%time sum(range(1_000_000))
%%timeMesure le temps de toute la cellulePlacer en 1ère ligne de cellule
%timeitExécute la ligne N fois, donne la moyenne%timeit sum(range(1_000_000))
%%timeitExécute la cellule N fois, donne la moyennePlacer en 1ère ligne de cellule
output
%%time
# %%time — mesure le temps TOTAL de la cellule (1 seule exécution)
import numpy as np
a = np.random.randn(1_000_000)
result = np.sort(a)
output
%timeit np.random.randn(1_000_000)
# %timeit — exécute la ligne plusieurs fois pour une mesure précise
output
%%timeit
# %%timeit — mesure précise de toute la cellule (plusieurs exécutions)
import numpy as np
a = np.random.randn(10_000)
np.sort(a)
TIPQuand utiliser quoi ?
%%time → pour mesurer rapidement une cellule (1 exécution)
%%timeit → pour un benchmark fiable (plusieurs exécutions, moyenne)
%timeit → pour comparer deux expressions sur une seule ligne

6.2 Profiling — analyser les performances en détail

output
%prun sum(range(1_000_000))
# Affiche le temps passé dans chaque fonction appelée
output
%%prun
# Profiling de toute la cellule
import numpy as np
a = np.random.randn(100_000)
b = np.sort(a)
c = np.cumsum(b)

Chapitre 08 – Pratique 2 : Pandas — Manipulation de DataFrames (CPU)

NOTEPandas
  • Ultra populaire en data science
  • Permet la manipulation de très gros tableaux de données (un genre d'Excel sous stéroïdes)
  • Enormement de fonctionnalités (filtres, retraitements, analyses…)
  • Permet de faire le pont avec d'autres librairies (ML, data viz…)

1. Créer un DataFrame

1.1 Depuis un dictionnaire

output
import pandas as pd

produitsDict = {
    'smartphone': {'prix': 1000, 'enStock': True},
    'chaussures':  {'prix': 100,  'enStock': False},
    'console':     {'prix': 400,  'enStock': True}
}
print(produitsDict)

df = pd.DataFrame(produitsDict)
df

1.2 Depuis une liste de listes

output
pays = [
    [70, 55, 85],           # Population en millions
    [0.901, 0.922, 0.936],  # IDH
    [2091, 2077, 3045]      # PIB
]
df = pd.DataFrame(pays, columns=['France', 'Angleterre', 'Allemagne'])
df

1.3 Importer un fichier CSV

output
import pandas as pd

data = pd.read_csv('metal-bands.csv', encoding='latin-1', sep=';')
data.head()

2. Premier tour de piste des données

output
data.head(3)          # 3 premières lignes
data.info()           # types, valeurs non-nulles, mémoire
data.dtypes           # type de chaque colonne
data.fans.dtypes      # type d'une colonne spécifique
data.shape            # (lignes, colonnes)
len(data)             # nombre de lignes

3. Navigation dans un DataFrame — iloc et loc

NOTERègleiloc = index numérique (position). loc = index par label (nom de ligne/colonne).

3.1 Sélectionner une ou plusieurs colonnes

output
data['band_name'].head(10)             # 1 colonne
data[['band_name', 'fans']].head(15)   # plusieurs colonnes

3.2 iloc — par position numérique

output
data.iloc[0, 0]        # ligne 0, colonne 0
data.iloc[0:5, 0]      # lignes 0-4, colonne 0
data.iloc[0, 0:5]      # ligne 0, colonnes 0-4
data.iloc[0:3, 0:5]    # bloc 3 lignes x 5 colonnes
va-plus-loin

Cet article couvre les extraits les plus utiles — le cours complet EDA pandas NumPy Matplotlib Seaborn (12 chapitres, 44 leçons, exercices corrigés et projet final) t'emmène jusqu'au bout.

./acceder-au-cours-complet cours gratuit : Maîtriser Claude Code

FAQ

Combien de temps pour apprendre EDA pandas NumPy Matplotlib Seaborn ?
Avec une progression structurée (12 chapitres, 44 leçons courtes et pratiques), on atteint un niveau opérationnel en quelques semaines à raison de 30 à 60 minutes par jour. L'important est de pratiquer chaque notion immédiatement.
Faut-il des prérequis ?
Des bases en informatique suffisent. Si tu sais utiliser un terminal et lire du code simple, tu es prêt.
Par où commencer concrètement ?
Reproduis les commandes de cet article, puis suis le cours complet EDA pandas NumPy Matplotlib Seaborn : il enchaîne les 44 leçons dans l'ordre, avec exercices et projet final.

📬 Tu veux recevoir ce type de guide chaque semaine ? Abonne-toi gratuitement — code réel, zéro blabla.