Data & Big Data

EDA pandas NumPy Matplotlib Seaborn : les 9 étapes clés pour passer de zéro à opérationnel

EDA pandas NumPy Matplotlib Seaborn : l'essentiel en un article — vrai code, schémas et étapes concrètes, extraits d'un cours de 44 leçons.

REHOUMA Haythem

11 Jun 2026 • 12 min read

Tout le monde peut apprendre EDA pandas NumPy Matplotlib Seaborn — à condition de suivre les étapes dans le bon ordre. On a condensé un cours complet de 44 leçons en un parcours clair, avec les extraits de code les plus utiles.

tl;dr

Introduction a l'Analyse de Donnees
Introduction et installation
Prendre en main les DataFrames Pandas
Nettoyer et Preparer les Donnees
Statistiques Descriptives et Agregation

~$ cat ./parcours.md # EDA pandas NumPy Matplotlib Seaborn — 9 chapitres

Introduction à l'Analyse de Données

→ L'Analyse de Données — Le Métier du Siècle→ Chapitre 00 — Sources des données du cours

Introduction et installation

→ Pourquoi l'EDA et ces quatre bibliothèques ?→ Installer votre environnement de travail+ 2 autres leçons

Prendre en main les DataFrames Pandas

→ Créer et charger un DataFrame (CSV, Excel, JSON)→ Explorer un DataFrame — head, info, describe, shape+ 1 autres leçons

Nettoyer et Préparer les Données

→ Détecter et traiter les valeurs manquantes→ Supprimer les doublons et corriger les types de données+ 2 autres leçons

Statistiques Descriptives et Agrégation

→ Tendance centrale et dispersion — moyenne, médiane, écart-type→ Corrélation et covariance entre variables+ 1 autres leçons

Visualisation avec Matplotlib

→ Introduction à Matplotlib : Figure, Axes et subplots→ Graphiques essentiels : barres, lignes, dispersion+ 1 autres leçons

Visualisation Avancée avec Seaborn

→ Introduction à Seaborn : histplot, boxplot, violinplot→ Visualiser les relations : scatterplot et heatmap de corrélation+ 2 autres leçons

Analyse Exploratoire Complète

→ Méthodologie EDA : les 5 étapes d'une bonne analyse→ Détecter les outliers et les anomalies dans les données+ 1 autres leçons

🏁

Projet final (+ 1 chapitres en chemin)

→ Tu repars avec un projet concret et démontrable

Installer votre environnement de travail

NOTECe que vous allez apprendre — Choisir entre Google Colab (zéro installation, dans le navigateur) et Anaconda + Jupyter (installation locale), puis installer NumPy, Pandas, Matplotlib et Seaborn, et vérifier que tout fonctionne avec un script de test.

0. Google Colab — L'option zéro installation

Google Colaboratory (Colab) est un environnement Jupyter gratuit qui fonctionne directement dans votre navigateur, sans rien installer. Il tourne sur les serveurs de Google et inclut déjà NumPy, Pandas, Matplotlib et Seaborn préinstallés.

TIPAnalogie — Google Colab, c'est comme travailler dans un bureau équipé que Google vous prête gratuitement. Vous n'avez rien à apporter : le bureau, les outils et les bibliothèques sont déjà là. Vous ouvrez votre navigateur et vous commencez immédiatement.

Comment démarrer avec Google Colab

Vérifier les versions préinstallées dans Colab

Dans la première cellule de votre notebook Colab, copiez et exécutez ce code :

output

import numpy as np
import pandas as pd
import matplotlib
import seaborn as sns

print("NumPy     :", np.__version__)
print("Pandas    :", pd.__version__)
print("Matplotlib:", matplotlib.__version__)
print("Seaborn   :", sns.__version__)
print("\nTout est pret. Bonne analyse !")

output

# Methode 1 : Uploader un fichier depuis votre ordinateur
from google.colab import files
uploaded = files.upload()   # une fenêtre de sélection s'ouvre

import pandas as pd
import io
df = pd.read_csv(io.BytesIO(uploaded['mon_fichier.csv']))

# Methode 2 : Lire depuis Google Drive
from google.colab import drive
drive.mount('/content/drive')
df = pd.read_csv('/content/drive/MyDrive/mon_fichier.csv')

# Methode 3 : Lire directement depuis une URL publique
df = pd.read_csv('https://raw.githubusercontent.com/exemple/repo/main/data.csv')

Python seul

Anaconda (recommandé)

TIPAnalogie — Choisir entre Python seul et Anaconda, c'est comme choisir entre acheter des meubles IKEA pièce par pièce ou acheter un appartement déjà meublé. Les deux fonctionnent, mais Anaconda vous fait gagner un temps considérable au départ.

2. étape 1 — Télécharger et installer Anaconda

Téléchargement

Installation sur Windows

WARNINGWindows uniquement — Si vous ne cochez pas « Add Anaconda to PATH », utilisez toujours l'Anaconda Prompt (et non le terminal Windows ordinaire) pour lancer vos commandes conda et jupyter.

Vérification de l'installation

Ouvrez l'Anaconda Prompt (Windows) ou le Terminal (macOS/Linux) et tapez :

output

conda --version

output

# Créer un environnement nommé "eda-cours" avec Python 3.11
conda create -n eda-cours python=3.11

# Activer l'environnement
conda activate eda-cours

# Vérifier que l'environnement est actif (le nom apparaît entre parenthèses)
# (eda-cours) C:\Users\votre_nom>

Option A — Avec conda (recommandé)

output

# Installer toutes les bibliothèques en une commande
conda install numpy pandas matplotlib seaborn jupyter -y

Lancement depuis le terminal

output

# Assurez-vous que votre environnement est actif
conda activate eda-cours

# Lancer Jupyter Notebook
jupyter notebook

Chapitre 08 – Introduction aux librairies en sciences de données

NOTEObjectifs du module

Comprendre ce qu'est une librairie Python
Importer une librairie (import)
Importer un module précis d'une librairie (from ... import)
Utiliser les alias (import numpy as np)
Utiliser la librairie math comme premier exemple
Installer, mettre à jour et vérifier la config d'une librairie avec PIP

1. Qu'est-ce qu'une librairie ?

Les librairies sont des séries de modules déjà tout prêts, permettant de faire des traitements complexes en quelques lignes. Elles sont très nombreuses :

💻 Librairies CPU Standard

🌞 Librairies GPU NVIDIA RAPIDS

2. Importer une librairie — la librairie `math`

La librairie math est l'exemple parfait pour comprendre les imports. Elle est intégrée à Python, aucune installation n'est nécessaire.

Documentation officielle : docs.python.org/2/library/math.html

2.1 Import complet

output

import math

# Arrondir au supérieur
print(math.ceil(0.1))    # arrondi au supérieur

NOTERègle — %command s'applique à une seule ligne. %%command s'applique à toute la cellule. La commande %% doit être en première ligne de la cellule.

6.1 Mesurer le temps d'exécution

Commande	Description	Exemple
`%time`	Mesure le temps d'une seule ligne	`%time sum(range(1_000_000))`
`%%time`	Mesure le temps de toute la cellule	Placer en 1ère ligne de cellule
`%timeit`	Exécute la ligne N fois, donne la moyenne	`%timeit sum(range(1_000_000))`
`%%timeit`	Exécute la cellule N fois, donne la moyenne	Placer en 1ère ligne de cellule

output

%%time
# %%time — mesure le temps TOTAL de la cellule (1 seule exécution)
import numpy as np
a = np.random.randn(1_000_000)
result = np.sort(a)

output

%timeit np.random.randn(1_000_000)
# %timeit — exécute la ligne plusieurs fois pour une mesure précise

output

%%timeit
# %%timeit — mesure précise de toute la cellule (plusieurs exécutions)
import numpy as np
a = np.random.randn(10_000)
np.sort(a)

TIPQuand utiliser quoi ?
• %%time → pour mesurer rapidement une cellule (1 exécution)
• %%timeit → pour un benchmark fiable (plusieurs exécutions, moyenne)
• %timeit → pour comparer deux expressions sur une seule ligne

6.2 Profiling — analyser les performances en détail

output

%prun sum(range(1_000_000))
# Affiche le temps passé dans chaque fonction appelée

output

%%prun
# Profiling de toute la cellule
import numpy as np
a = np.random.randn(100_000)
b = np.sort(a)
c = np.cumsum(b)

Chapitre 08 – Pratique 2 : Pandas — Manipulation de DataFrames (CPU)

NOTEPandas

Ultra populaire en data science
Permet la manipulation de très gros tableaux de données (un genre d'Excel sous stéroïdes)
Enormement de fonctionnalités (filtres, retraitements, analyses…)
Permet de faire le pont avec d'autres librairies (ML, data viz…)

1. Créer un DataFrame

1.1 Depuis un dictionnaire

output

import pandas as pd

produitsDict = {
    'smartphone': {'prix': 1000, 'enStock': True},
    'chaussures':  {'prix': 100,  'enStock': False},
    'console':     {'prix': 400,  'enStock': True}
}
print(produitsDict)

df = pd.DataFrame(produitsDict)
df

1.2 Depuis une liste de listes

output

pays = [
    [70, 55, 85],           # Population en millions
    [0.901, 0.922, 0.936],  # IDH
    [2091, 2077, 3045]      # PIB
]
df = pd.DataFrame(pays, columns=['France', 'Angleterre', 'Allemagne'])
df

1.3 Importer un fichier CSV

output

import pandas as pd

data = pd.read_csv('metal-bands.csv', encoding='latin-1', sep=';')
data.head()

2. Premier tour de piste des données

output

data.head(3)          # 3 premières lignes
data.info()           # types, valeurs non-nulles, mémoire
data.dtypes           # type de chaque colonne
data.fans.dtypes      # type d'une colonne spécifique
data.shape            # (lignes, colonnes)
len(data)             # nombre de lignes

3. Navigation dans un DataFrame — `iloc` et `loc`

NOTERègle — iloc = index numérique (position). loc = index par label (nom de ligne/colonne).

3.1 Sélectionner une ou plusieurs colonnes

output

data['band_name'].head(10)             # 1 colonne
data[['band_name', 'fans']].head(15)   # plusieurs colonnes

3.2 `iloc` — par position numérique

output

data.iloc[0, 0]        # ligne 0, colonne 0
data.iloc[0:5, 0]      # lignes 0-4, colonne 0
data.iloc[0, 0:5]      # ligne 0, colonnes 0-4
data.iloc[0:3, 0:5]    # bloc 3 lignes x 5 colonnes

va-plus-loin

Cet article couvre les extraits les plus utiles — le cours complet EDA pandas NumPy Matplotlib Seaborn (12 chapitres, 44 leçons, exercices corrigés et projet final) t'emmène jusqu'au bout.

./acceder-au-cours-complet cours gratuit : Maîtriser Claude Code

FAQ

Combien de temps pour apprendre EDA pandas NumPy Matplotlib Seaborn ?

Avec une progression structurée (12 chapitres, 44 leçons courtes et pratiques), on atteint un niveau opérationnel en quelques semaines à raison de 30 à 60 minutes par jour. L'important est de pratiquer chaque notion immédiatement.

Faut-il des prérequis ?

Des bases en informatique suffisent. Si tu sais utiliser un terminal et lire du code simple, tu es prêt.

Par où commencer concrètement ?

Reproduis les commandes de cet article, puis suis le cours complet EDA pandas NumPy Matplotlib Seaborn : il enchaîne les 44 leçons dans l'ordre, avec exercices et projet final.

./a-lire-aussi

→ AWS Data Engineering Bootcamp expliqué simplement (avec schémas et vrai code)→ Lance-toi en AWS Données Temps Réel : ton premier pas concret aujourd'hui → Python Data Science : les 9 étapes clés pour passer de zéro à opérationnel

📬 Tu veux recevoir ce type de guide chaque semaine ? Abonne-toi gratuitement — code réel, zéro blabla.

Installer votre environnement de travail

0. Google Colab — L'option zéro installation

Comment démarrer avec Google Colab

Vérifier les versions préinstallées dans Colab

Python seul

Anaconda (recommandé)

2. étape 1 — Télécharger et installer Anaconda

Téléchargement

Installation sur Windows

Vérification de l'installation

Option A — Avec conda (recommandé)

Lancement depuis le terminal

Chapitre 08 – Introduction aux librairies en sciences de données

1. Qu'est-ce qu'une librairie ?

💻 Librairies CPU Standard

🌞 Librairies GPU NVIDIA RAPIDS

2. Importer une librairie — la librairie math

2.1 Import complet

6.1 Mesurer le temps d'exécution

6.2 Profiling — analyser les performances en détail

Chapitre 08 – Pratique 2 : Pandas — Manipulation de DataFrames (CPU)

1. Créer un DataFrame

1.1 Depuis un dictionnaire

1.2 Depuis une liste de listes

1.3 Importer un fichier CSV

2. Premier tour de piste des données

3. Navigation dans un DataFrame — iloc et loc

3.1 Sélectionner une ou plusieurs colonnes

3.2 iloc — par position numérique

FAQ

Stay up to date

2. Importer une librairie — la librairie `math`

3. Navigation dans un DataFrame — `iloc` et `loc`

3.2 `iloc` — par position numérique