EDA pandas NumPy Matplotlib Seaborn : les 9 étapes clés pour passer de zéro à opérationnel
EDA pandas NumPy Matplotlib Seaborn : l'essentiel en un article — vrai code, schémas et étapes concrètes, extraits d'un cours de 44 leçons.
Tout le monde peut apprendre EDA pandas NumPy Matplotlib Seaborn — à condition de suivre les étapes dans le bon ordre. On a condensé un cours complet de 44 leçons en un parcours clair, avec les extraits de code les plus utiles.
- Introduction a l'Analyse de Donnees
- Introduction et installation
- Prendre en main les DataFrames Pandas
- Nettoyer et Preparer les Donnees
- Statistiques Descriptives et Agregation
Installer votre environnement de travail
0. Google Colab — L'option zéro installation
Google Colaboratory (Colab) est un environnement Jupyter gratuit qui fonctionne directement dans votre navigateur, sans rien installer. Il tourne sur les serveurs de Google et inclut déjà NumPy, Pandas, Matplotlib et Seaborn préinstallés.
Comment démarrer avec Google Colab
Vérifier les versions préinstallées dans Colab
Dans la première cellule de votre notebook Colab, copiez et exécutez ce code :
import numpy as np
import pandas as pd
import matplotlib
import seaborn as sns
print("NumPy :", np.__version__)
print("Pandas :", pd.__version__)
print("Matplotlib:", matplotlib.__version__)
print("Seaborn :", sns.__version__)
print("\nTout est pret. Bonne analyse !")# Methode 1 : Uploader un fichier depuis votre ordinateur
from google.colab import files
uploaded = files.upload() # une fenêtre de sélection s'ouvre
import pandas as pd
import io
df = pd.read_csv(io.BytesIO(uploaded['mon_fichier.csv']))
# Methode 2 : Lire depuis Google Drive
from google.colab import drive
drive.mount('/content/drive')
df = pd.read_csv('/content/drive/MyDrive/mon_fichier.csv')
# Methode 3 : Lire directement depuis une URL publique
df = pd.read_csv('https://raw.githubusercontent.com/exemple/repo/main/data.csv')Python seul
Anaconda (recommandé)
2. étape 1 — Télécharger et installer Anaconda
Téléchargement
Installation sur Windows
Vérification de l'installation
Ouvrez l'Anaconda Prompt (Windows) ou le Terminal (macOS/Linux) et tapez :
conda --version
# Créer un environnement nommé "eda-cours" avec Python 3.11 conda create -n eda-cours python=3.11 # Activer l'environnement conda activate eda-cours # Vérifier que l'environnement est actif (le nom apparaît entre parenthèses) # (eda-cours) C:\Users\votre_nom>
Option A — Avec conda (recommandé)
# Installer toutes les bibliothèques en une commande conda install numpy pandas matplotlib seaborn jupyter -y
Lancement depuis le terminal
# Assurez-vous que votre environnement est actif conda activate eda-cours # Lancer Jupyter Notebook jupyter notebook
Chapitre 08 – Introduction aux librairies en sciences de données
- Comprendre ce qu'est une librairie Python
- Importer une librairie (
import) - Importer un module précis d'une librairie (
from ... import) - Utiliser les alias (
import numpy as np) - Utiliser la librairie
mathcomme premier exemple - Installer, mettre à jour et vérifier la config d'une librairie avec PIP
1. Qu'est-ce qu'une librairie ?
Les librairies sont des séries de modules déjà tout prêts, permettant de faire des traitements complexes en quelques lignes. Elles sont très nombreuses :
💻 Librairies CPU Standard
🌞 Librairies GPU NVIDIA RAPIDS
2. Importer une librairie — la librairie math
La librairie math est l'exemple parfait pour comprendre les imports. Elle est intégrée à Python, aucune installation n'est nécessaire.
Documentation officielle : docs.python.org/2/library/math.html
2.1 Import complet
import math # Arrondir au supérieur print(math.ceil(0.1)) # arrondi au supérieur
%command s'applique à une seule ligne. %%command s'applique à toute la cellule. La commande %% doit être en première ligne de la cellule.6.1 Mesurer le temps d'exécution
| Commande | Description | Exemple |
|---|---|---|
%time | Mesure le temps d'une seule ligne | %time sum(range(1_000_000)) |
%%time | Mesure le temps de toute la cellule | Placer en 1ère ligne de cellule |
%timeit | Exécute la ligne N fois, donne la moyenne | %timeit sum(range(1_000_000)) |
%%timeit | Exécute la cellule N fois, donne la moyenne | Placer en 1ère ligne de cellule |
%%time # %%time — mesure le temps TOTAL de la cellule (1 seule exécution) import numpy as np a = np.random.randn(1_000_000) result = np.sort(a)
%timeit np.random.randn(1_000_000) # %timeit — exécute la ligne plusieurs fois pour une mesure précise
%%timeit # %%timeit — mesure précise de toute la cellule (plusieurs exécutions) import numpy as np a = np.random.randn(10_000) np.sort(a)
•
%%time → pour mesurer rapidement une cellule (1 exécution)•
%%timeit → pour un benchmark fiable (plusieurs exécutions, moyenne)•
%timeit → pour comparer deux expressions sur une seule ligne6.2 Profiling — analyser les performances en détail
%prun sum(range(1_000_000)) # Affiche le temps passé dans chaque fonction appelée
%%prun # Profiling de toute la cellule import numpy as np a = np.random.randn(100_000) b = np.sort(a) c = np.cumsum(b)
Chapitre 08 – Pratique 2 : Pandas — Manipulation de DataFrames (CPU)
- Ultra populaire en data science
- Permet la manipulation de très gros tableaux de données (un genre d'Excel sous stéroïdes)
- Enormement de fonctionnalités (filtres, retraitements, analyses…)
- Permet de faire le pont avec d'autres librairies (ML, data viz…)
1. Créer un DataFrame
1.1 Depuis un dictionnaire
import pandas as pd
produitsDict = {
'smartphone': {'prix': 1000, 'enStock': True},
'chaussures': {'prix': 100, 'enStock': False},
'console': {'prix': 400, 'enStock': True}
}
print(produitsDict)
df = pd.DataFrame(produitsDict)
df1.2 Depuis une liste de listes
pays = [
[70, 55, 85], # Population en millions
[0.901, 0.922, 0.936], # IDH
[2091, 2077, 3045] # PIB
]
df = pd.DataFrame(pays, columns=['France', 'Angleterre', 'Allemagne'])
df1.3 Importer un fichier CSV
import pandas as pd
data = pd.read_csv('metal-bands.csv', encoding='latin-1', sep=';')
data.head()2. Premier tour de piste des données
data.head(3) # 3 premières lignes data.info() # types, valeurs non-nulles, mémoire data.dtypes # type de chaque colonne data.fans.dtypes # type d'une colonne spécifique data.shape # (lignes, colonnes) len(data) # nombre de lignes
3. Navigation dans un DataFrame — iloc et loc
iloc = index numérique (position). loc = index par label (nom de ligne/colonne).3.1 Sélectionner une ou plusieurs colonnes
data['band_name'].head(10) # 1 colonne data[['band_name', 'fans']].head(15) # plusieurs colonnes
3.2 iloc — par position numérique
data.iloc[0, 0] # ligne 0, colonne 0 data.iloc[0:5, 0] # lignes 0-4, colonne 0 data.iloc[0, 0:5] # ligne 0, colonnes 0-4 data.iloc[0:3, 0:5] # bloc 3 lignes x 5 colonnes
Cet article couvre les extraits les plus utiles — le cours complet EDA pandas NumPy Matplotlib Seaborn (12 chapitres, 44 leçons, exercices corrigés et projet final) t'emmène jusqu'au bout.
./acceder-au-cours-complet cours gratuit : Maîtriser Claude CodeFAQ
Combien de temps pour apprendre EDA pandas NumPy Matplotlib Seaborn ?
Faut-il des prérequis ?
Par où commencer concrètement ?
📬 Tu veux recevoir ce type de guide chaque semaine ? Abonne-toi gratuitement — code réel, zéro blabla.