Data & Big Data

EDA pandas NumPy Matplotlib Seaborn: las 9 etapas clave para pasar de cero a operativo

EDA pandas NumPy Matplotlib Seaborn : lo esencial en un artículo — código real, diagramas y pasos concretos, extractos de un curso de 44 lecciones.

REHOUMA Haythem

12 Jun 2026 • 12 min read

Todo el mundo puede aprender EDA pandas NumPy Matplotlib Seaborn — siempre que siga los pasos en el orden correcto. Hemos condensado un curso completo de 44 lecciones en un recorrido claro, con los extractos de código más útiles.

tl;dr

Introducción al Análisis de Datos
Introducción e instalación
Primeros pasos con los DataFrames de Pandas
Limpiar y preparar los datos
Estadísticas descriptivas y agregación

~$ cat ./parcours.md # EDA pandas NumPy Matplotlib Seaborn — 9 capítulos

Introducción al Análisis de Datos

→ El Análisis de Datos — La Profesión del Siglo→ Capítulo 00 — Fuentes de los datos del curso

Introducción e instalación

→ ¿Por qué el EDA y estas cuatro bibliotecas?→ Instalar su entorno de trabajo+ 2 otras lecciones

Dominar los DataFrames Pandas

→ Crear y cargar un DataFrame (CSV, Excel, JSON)→ Explorar un DataFrame — head, info, describe, shape+ 1 otras lecciones

Limpiar y Preparar los Datos

→ Detectar y tratar los valores faltantes→ Eliminar duplicados y corregir los tipos de datos+ 2 otras lecciones

Estadísticas Descriptivas y Agregación

→ Tendencia central y dispersión — media, mediana, desviación estándar→ Correlación y covarianza entre variables+ 1 otras lecciones

Visualización con Matplotlib

→ Introducción a Matplotlib: Figure, Axes y subplots→ Gráficos esenciales: barras, líneas, dispersión+ 1 otras lecciones

Visualización Avanzada con Seaborn

→ Introducción a Seaborn: histplot, boxplot, violinplot→ Visualizar las relaciones: scatterplot y heatmap de correlación+ 2 otras lecciones

Análisis Exploratorio Completo

→ Metodología EDA: los 5 pasos de un buen análisis→ Detectar los outliers y las anomalías en los datos+ 1 otras lecciones

🏁

Proyecto final (+ 1 capítulos en camino)

→ Te llevas un proyecto concreto y demostrable

Instale su entorno de trabajo

NOTELo que va a aprender — Elegir entre Google Colab (instalación cero, en el navegador) y Anaconda + Jupyter (instalación local), luego instalar NumPy, Pandas, Matplotlib y Seaborn, y verificar que todo funcione con un script de prueba.

0. Google Colab — La opción de instalación cero

Google Colaboratory (Colab) es un entorno Jupyter gratuito que funciona directamente en su navegador, sin instalar nada. Se ejecuta en los servidores de Google e incluye ya NumPy, Pandas, Matplotlib y Seaborn preinstalados.

TIPAnalogía — Google Colab es como trabajar en una oficina equipada que Google le presta gratuitamente. No tiene que llevar nada: la oficina, las herramientas y las bibliotecas ya están allí. Abre su navegador y comienza inmediatamente.

Cómo empezar con Google Colab

Verificar las versiones preinstaladas en Colab

En la primera celda de su notebook Colab, copie y ejecute este código:

output

import numpy as np
import pandas as pd
import matplotlib
import seaborn as sns

print("NumPy     :", np.__version__)
print("Pandas    :", pd.__version__)
print("Matplotlib:", matplotlib.__version__)
print("Seaborn   :", sns.__version__)
print("\nTout est pret. Bonne analyse !")

output

# Método 1: Subir un archivo desde su ordenador
from google.colab import files
uploaded = files.upload()   # una ventana de selección se abre

import pandas as pd
import io
df = pd.read_csv(io.BytesIO(uploaded['mon_fichier.csv']))

# Método 2: Leer desde Google Drive
from google.colab import drive
drive.mount('/content/drive')
df = pd.read_csv('/content/drive/MyDrive/mon_fichier.csv')

# Método 3: Leer directamente desde una URL pública
df = pd.read_csv('https://raw.githubusercontent.com/exemple/repo/main/data.csv')

Python solo

Anaconda (recomendado)

TIPAnalogía — Elegir entre Python solo y Anaconda es como elegir entre comprar muebles IKEA pieza por pieza o comprar un apartamento ya amueblado. Ambos funcionan, pero Anaconda le ahorra un tiempo considerable al principio.

2. paso 1 — Descargar e instalar Anaconda

Descarga

Instalación en Windows

WARNINGSolo Windows — Si no marca « Add Anaconda to PATH », utilice siempre el Anaconda Prompt (y no el terminal de Windows normal) para ejecutar sus comandos conda y jupyter.

Verificación de la instalación

Abra el Anaconda Prompt (Windows) o el Terminal (macOS/Linux) y escriba:

output

conda --version

output

# Crear un entorno llamado "eda-cours" con Python 3.11
conda create -n eda-cours python=3.11

# Activar el entorno
conda activate eda-cours

# Verificar que el entorno está activo (el nombre aparece entre paréntesis)
# (eda-cours) C:\Users\votre_nom>

Opción A — Con conda (recomendado)

output

# Instalar todas las bibliotecas en un solo comando
conda install numpy pandas matplotlib seaborn jupyter -y

Lanzamiento desde el terminal

output

# Asegúrese de que su entorno está activo
conda activate eda-cours

# Lanzar Jupyter Notebook
jupyter notebook

Capítulo 08 – Introducción a las librerías en ciencias de datos

NOTEObjetivos del módulo

Comprender qué es una librería de Python
Importar una librería (import)
Importar un módulo concreto de una librería (from ... import)
Utilizar alias (import numpy as np)
Utilizar la librería math como primer ejemplo
Instalar, actualizar y verificar la configuración de una librería con PIP

1. ¿Qué es una librería?

Las librerías son series de módulos ya listos, que permiten realizar tratamientos complejos en pocas líneas. Son muy numerosas:

💻 Librerías CPU Standard

🌞 Librerías GPU NVIDIA RAPIDS

2. Importar una librería — la librería `math`

La librería math es el ejemplo perfecto para comprender los imports. Está integrada en Python, no se necesita ninguna instalación.

Documentación oficial : docs.python.org/2/library/math.html

2.1 Importación completa

output

import math

# Arrondir au supérieur
print(math.ceil(0.1))    # arrondi au supérieur

NOTERegla — %command se aplica a una única línea. %%command se aplica a toda la celda. El comando %% debe estar en la primera línea de la celda.

6.1 Medir el tiempo de ejecución

Comando	Descripción	Ejemplo
`%time`	Mide el tiempo de una sola línea	`%time sum(range(1_000_000))`
`%%time`	Mide el tiempo de toda la celda	Colocar en la 1.ª línea de la celda
`%timeit`	Ejecuta la línea N veces, da la media	`%timeit sum(range(1_000_000))`
`%%timeit`	Ejecuta la celda N veces, da la media	Colocar en la 1.ª línea de la celda

output

%%time
# %%time — mide el tiempo TOTAL de la celda (1 sola ejecución)
import numpy as np
a = np.random.randn(1_000_000)
result = np.sort(a)

output

%timeit np.random.randn(1_000_000)
# %timeit — ejecuta la línea varias veces para una medida precisa

output

%%timeit
# %%timeit — medida precisa de toda la celda (varias ejecuciones)
import numpy as np
a = np.random.randn(10_000)
np.sort(a)

TIPCuándo usar qué
• %%time → para medir rápidamente una celda (1 ejecución)
• %%timeit → para un benchmark fiable (varias ejecuciones, media)
• %timeit → para comparar dos expresiones en una sola línea

6.2 Profiling — analizar el rendimiento en detalle

output

%prun sum(range(1_000_000))
# Muestra el tiempo empleado en cada función llamada

output

%%prun
# Profiling de toda la celda
import numpy as np
a = np.random.randn(100_000)
b = np.sort(a)
c = np.cumsum(b)

Capítulo 08 – Práctica 2 : Pandas — Manipulación de DataFrames (CPU)

NOTEPandas

Ultra popular en ciencia de datos
Permite la manipulación de tablas de datos muy grandes (una especie de Excel con esteroides)
Enorme cantidad de funcionalidades (filtros, reprocesamientos, análisis…)
Permite hacer el puente con otras librerías (ML, data viz…)

1. Crear un DataFrame

1.1 Desde un diccionario

output

import pandas as pd

produitsDict = {
    'smartphone': {'prix': 1000, 'enStock': True},
    'chaussures':  {'prix': 100,  'enStock': False},
    'console':     {'prix': 400,  'enStock': True}
}
print(produitsDict)

df = pd.DataFrame(produitsDict)
df

1.2 Desde una lista de listas

output

pays = [
    [70, 55, 85],           # Population en millions
    [0.901, 0.922, 0.936],  # IDH
    [2091, 2077, 3045]      # PIB
]
df = pd.DataFrame(pays, columns=['France', 'Angleterre', 'Allemagne'])
df

1.3 Importar un archivo CSV

output

import pandas as pd

data = pd.read_csv('metal-bands.csv', encoding='latin-1', sep=';')
data.head()

2. Primer recorrido de los datos

output

data.head(3)          # 3 premières lignes
data.info()           # types, valeurs non-nulles, mémoire
data.dtypes           # type de chaque colonne
data.fans.dtypes      # type d'une colonne spécifique
data.shape            # (lignes, colonnes)
len(data)             # nombre de lignes

3. Navegación en un DataFrame — `iloc` y `loc`

NOTERegla — iloc = índice numérico (posición). loc = índice por etiqueta (nombre de fila/columna).

3.1 Seleccionar una o varias columnas

output

data['band_name'].head(10)             # 1 columna
data[['band_name', 'fans']].head(15)   # varias columnas

3.2 `iloc` — por posición numérica

output

data.iloc[0, 0]        # ligne 0, colonne 0
data.iloc[0:5, 0]      # lignes 0-4, colonne 0
data.iloc[0, 0:5]      # ligne 0, colonnes 0-4
data.iloc[0:3, 0:5]    # bloc 3 lignes x 5 colonnes

va-plus-loin

Este artículo cubre los extractos más útiles — el curso completo EDA pandas NumPy Matplotlib Seaborn (12 capítulos, 44 lecciones, ejercicios corregidos y proyecto final) le lleva hasta el final.

./acceder-au-cours-complet cours gratuit : Maîtriser Claude Code

FAQ

¿Cuánto tiempo se necesita para aprender EDA pandas NumPy Matplotlib Seaborn?

Con una progresión estructurada (12 capítulos, 44 lecciones cortas y prácticas), se alcanza un nivel operativo en unas semanas dedicando de 30 a 60 minutos al día. Lo importante es practicar cada concepto de inmediato.

¿Se necesitan requisitos previos?

Unos conocimientos básicos de informática bastan. Si sabe usar un terminal y leer código sencillo, está listo.

¿Por dónde empezar concretamente?

Reproduzca los comandos de este artículo y luego siga el curso completo EDA pandas NumPy Matplotlib Seaborn: encadena las 44 lecciones en orden, con ejercicios y proyecto final.

./a-lire-aussi

→ AWS Data Engineering Bootcamp explicado simplemente (con esquemas y código real)→ Láncese en AWS Datos en Tiempo Real: su primer paso concreto hoy → Python Data Science: los 9 pasos clave para pasar de cero a operativo

📬 ¿Quiere recibir este tipo de guía cada semana? Suscríbase gratis — código real, cero palabrería.

Instale su entorno de trabajo

0. Google Colab — La opción de instalación cero

Cómo empezar con Google Colab

Verificar las versiones preinstaladas en Colab

Python solo

Anaconda (recomendado)

2. paso 1 — Descargar e instalar Anaconda

Descarga

Instalación en Windows

Verificación de la instalación

Opción A — Con conda (recomendado)

Lanzamiento desde el terminal

Capítulo 08 – Introducción a las librerías en ciencias de datos

1. ¿Qué es una librería?

💻 Librerías CPU Standard

🌞 Librerías GPU NVIDIA RAPIDS

2. Importar una librería — la librería math

2.1 Importación completa

6.1 Medir el tiempo de ejecución

6.2 Profiling — analizar el rendimiento en detalle

Capítulo 08 – Práctica 2 : Pandas — Manipulación de DataFrames (CPU)

1. Crear un DataFrame

1.1 Desde un diccionario

1.2 Desde una lista de listas

1.3 Importar un archivo CSV

2. Primer recorrido de los datos

3. Navegación en un DataFrame — iloc y loc

3.1 Seleccionar una o varias columnas

3.2 iloc — por posición numérica

FAQ

Stay up to date

2. Importar una librería — la librería `math`

3. Navegación en un DataFrame — `iloc` y `loc`

3.2 `iloc` — por posición numérica