EDA pandas NumPy Matplotlib Seaborn: las 9 etapas clave para pasar de cero a operativo

EDA pandas NumPy Matplotlib Seaborn : lo esencial en un artículo — código real, diagramas y pasos concretos, extractos de un curso de 44 lecciones.

EDA pandas NumPy Matplotlib Seaborn: las 9 etapas clave para pasar de cero a operativo

Todo el mundo puede aprender EDA pandas NumPy Matplotlib Seaborn — siempre que siga los pasos en el orden correcto. Hemos condensado un curso completo de 44 lecciones en un recorrido claro, con los extractos de código más útiles.

tl;dr
  • Introducción al Análisis de Datos
  • Introducción e instalación
  • Primeros pasos con los DataFrames de Pandas
  • Limpiar y preparar los datos
  • Estadísticas descriptivas y agregación
~$ cat ./parcours.md # EDA pandas NumPy Matplotlib Seaborn — 9 capítulos
01
Introducción al Análisis de Datos
→ El Análisis de Datos — La Profesión del Siglo→ Capítulo 00 — Fuentes de los datos del curso
02
Introducción e instalación
→ ¿Por qué el EDA y estas cuatro bibliotecas?→ Instalar su entorno de trabajo+ 2 otras lecciones
03
Dominar los DataFrames Pandas
→ Crear y cargar un DataFrame (CSV, Excel, JSON)→ Explorar un DataFrame — head, info, describe, shape+ 1 otras lecciones
04
Limpiar y Preparar los Datos
→ Detectar y tratar los valores faltantes→ Eliminar duplicados y corregir los tipos de datos+ 2 otras lecciones
05
Estadísticas Descriptivas y Agregación
→ Tendencia central y dispersión — media, mediana, desviación estándar→ Correlación y covarianza entre variables+ 1 otras lecciones
06
Visualización con Matplotlib
→ Introducción a Matplotlib: Figure, Axes y subplots→ Gráficos esenciales: barras, líneas, dispersión+ 1 otras lecciones
07
Visualización Avanzada con Seaborn
→ Introducción a Seaborn: histplot, boxplot, violinplot→ Visualizar las relaciones: scatterplot y heatmap de correlación+ 2 otras lecciones
08
Análisis Exploratorio Completo
→ Metodología EDA: los 5 pasos de un buen análisis→ Detectar los outliers y las anomalías en los datos+ 1 otras lecciones
🏁
Proyecto final (+ 1 capítulos en camino)
→ Te llevas un proyecto concreto y demostrable

Instale su entorno de trabajo

NOTELo que va a aprender — Elegir entre Google Colab (instalación cero, en el navegador) y Anaconda + Jupyter (instalación local), luego instalar NumPy, Pandas, Matplotlib y Seaborn, y verificar que todo funcione con un script de prueba.

0. Google Colab — La opción de instalación cero

Google Colaboratory (Colab) es un entorno Jupyter gratuito que funciona directamente en su navegador, sin instalar nada. Se ejecuta en los servidores de Google e incluye ya NumPy, Pandas, Matplotlib y Seaborn preinstalados.

TIPAnalogía — Google Colab es como trabajar en una oficina equipada que Google le presta gratuitamente. No tiene que llevar nada: la oficina, las herramientas y las bibliotecas ya están allí. Abre su navegador y comienza inmediatamente.

Cómo empezar con Google Colab

Verificar las versiones preinstaladas en Colab

En la primera celda de su notebook Colab, copie y ejecute este código:

output
import numpy as np
import pandas as pd
import matplotlib
import seaborn as sns

print("NumPy     :", np.__version__)
print("Pandas    :", pd.__version__)
print("Matplotlib:", matplotlib.__version__)
print("Seaborn   :", sns.__version__)
print("\nTout est pret. Bonne analyse !")
output
# Método 1: Subir un archivo desde su ordenador
from google.colab import files
uploaded = files.upload()   # una ventana de selección se abre

import pandas as pd
import io
df = pd.read_csv(io.BytesIO(uploaded['mon_fichier.csv']))

# Método 2: Leer desde Google Drive
from google.colab import drive
drive.mount('/content/drive')
df = pd.read_csv('/content/drive/MyDrive/mon_fichier.csv')

# Método 3: Leer directamente desde una URL pública
df = pd.read_csv('https://raw.githubusercontent.com/exemple/repo/main/data.csv')

Python solo

Anaconda (recomendado)

TIPAnalogía — Elegir entre Python solo y Anaconda es como elegir entre comprar muebles IKEA pieza por pieza o comprar un apartamento ya amueblado. Ambos funcionan, pero Anaconda le ahorra un tiempo considerable al principio.

2. paso 1 — Descargar e instalar Anaconda

Descarga

Instalación en Windows

WARNINGSolo Windows — Si no marca « Add Anaconda to PATH », utilice siempre el Anaconda Prompt (y no el terminal de Windows normal) para ejecutar sus comandos conda y jupyter.

Verificación de la instalación

Abra el Anaconda Prompt (Windows) o el Terminal (macOS/Linux) y escriba:

output
conda --version
output
# Crear un entorno llamado "eda-cours" con Python 3.11
conda create -n eda-cours python=3.11

# Activar el entorno
conda activate eda-cours

# Verificar que el entorno está activo (el nombre aparece entre paréntesis)
# (eda-cours) C:\Users\votre_nom>

Opción A — Con conda (recomendado)

output
# Instalar todas las bibliotecas en un solo comando
conda install numpy pandas matplotlib seaborn jupyter -y

Lanzamiento desde el terminal

output
# Asegúrese de que su entorno está activo
conda activate eda-cours

# Lanzar Jupyter Notebook
jupyter notebook

Capítulo 08 – Introducción a las librerías en ciencias de datos

NOTEObjetivos del módulo
  • Comprender qué es una librería de Python
  • Importar una librería (import)
  • Importar un módulo concreto de una librería (from ... import)
  • Utilizar alias (import numpy as np)
  • Utilizar la librería math como primer ejemplo
  • Instalar, actualizar y verificar la configuración de una librería con PIP

1. ¿Qué es una librería?

Las librerías son series de módulos ya listos, que permiten realizar tratamientos complejos en pocas líneas. Son muy numerosas:

💻 Librerías CPU Standard

🌞 Librerías GPU NVIDIA RAPIDS

2. Importar una librería — la librería math

La librería math es el ejemplo perfecto para comprender los imports. Está integrada en Python, no se necesita ninguna instalación.

Documentación oficial : docs.python.org/2/library/math.html

2.1 Importación completa

output
import math

# Arrondir au supérieur
print(math.ceil(0.1))    # arrondi au supérieur
NOTERegla%command se aplica a una única línea. %%command se aplica a toda la celda. El comando %% debe estar en la primera línea de la celda.

6.1 Medir el tiempo de ejecución

ComandoDescripciónEjemplo
%timeMide el tiempo de una sola línea%time sum(range(1_000_000))
%%timeMide el tiempo de toda la celdaColocar en la 1.ª línea de la celda
%timeitEjecuta la línea N veces, da la media%timeit sum(range(1_000_000))
%%timeitEjecuta la celda N veces, da la mediaColocar en la 1.ª línea de la celda
output
%%time
# %%time — mide el tiempo TOTAL de la celda (1 sola ejecución)
import numpy as np
a = np.random.randn(1_000_000)
result = np.sort(a)
output
%timeit np.random.randn(1_000_000)
# %timeit — ejecuta la línea varias veces para una medida precisa
output
%%timeit
# %%timeit — medida precisa de toda la celda (varias ejecuciones)
import numpy as np
a = np.random.randn(10_000)
np.sort(a)
TIPCuándo usar qué
%%time → para medir rápidamente una celda (1 ejecución)
%%timeit → para un benchmark fiable (varias ejecuciones, media)
%timeit → para comparar dos expresiones en una sola línea

6.2 Profiling — analizar el rendimiento en detalle

output
%prun sum(range(1_000_000))
# Muestra el tiempo empleado en cada función llamada
output
%%prun
# Profiling de toda la celda
import numpy as np
a = np.random.randn(100_000)
b = np.sort(a)
c = np.cumsum(b)

Capítulo 08 – Práctica 2 : Pandas — Manipulación de DataFrames (CPU)

NOTEPandas
  • Ultra popular en ciencia de datos
  • Permite la manipulación de tablas de datos muy grandes (una especie de Excel con esteroides)
  • Enorme cantidad de funcionalidades (filtros, reprocesamientos, análisis…)
  • Permite hacer el puente con otras librerías (ML, data viz…)

1. Crear un DataFrame

1.1 Desde un diccionario

output
import pandas as pd

produitsDict = {
    'smartphone': {'prix': 1000, 'enStock': True},
    'chaussures':  {'prix': 100,  'enStock': False},
    'console':     {'prix': 400,  'enStock': True}
}
print(produitsDict)

df = pd.DataFrame(produitsDict)
df

1.2 Desde una lista de listas

output
pays = [
    [70, 55, 85],           # Population en millions
    [0.901, 0.922, 0.936],  # IDH
    [2091, 2077, 3045]      # PIB
]
df = pd.DataFrame(pays, columns=['France', 'Angleterre', 'Allemagne'])
df

1.3 Importar un archivo CSV

output
import pandas as pd

data = pd.read_csv('metal-bands.csv', encoding='latin-1', sep=';')
data.head()

2. Primer recorrido de los datos

output
data.head(3)          # 3 premières lignes
data.info()           # types, valeurs non-nulles, mémoire
data.dtypes           # type de chaque colonne
data.fans.dtypes      # type d'une colonne spécifique
data.shape            # (lignes, colonnes)
len(data)             # nombre de lignes

3. Navegación en un DataFrame — iloc y loc

NOTEReglailoc = índice numérico (posición). loc = índice por etiqueta (nombre de fila/columna).

3.1 Seleccionar una o varias columnas

output
data['band_name'].head(10)             # 1 columna
data[['band_name', 'fans']].head(15)   # varias columnas

3.2 iloc — por posición numérica

output
data.iloc[0, 0]        # ligne 0, colonne 0
data.iloc[0:5, 0]      # lignes 0-4, colonne 0
data.iloc[0, 0:5]      # ligne 0, colonnes 0-4
data.iloc[0:3, 0:5]    # bloc 3 lignes x 5 colonnes
va-plus-loin

Este artículo cubre los extractos más útiles — el curso completo EDA pandas NumPy Matplotlib Seaborn (12 capítulos, 44 lecciones, ejercicios corregidos y proyecto final) le lleva hasta el final.

./acceder-au-cours-complet cours gratuit : Maîtriser Claude Code

FAQ

¿Cuánto tiempo se necesita para aprender EDA pandas NumPy Matplotlib Seaborn?
Con una progresión estructurada (12 capítulos, 44 lecciones cortas y prácticas), se alcanza un nivel operativo en unas semanas dedicando de 30 a 60 minutos al día. Lo importante es practicar cada concepto de inmediato.
¿Se necesitan requisitos previos?
Unos conocimientos básicos de informática bastan. Si sabe usar un terminal y leer código sencillo, está listo.
¿Por dónde empezar concretamente?
Reproduzca los comandos de este artículo y luego siga el curso completo EDA pandas NumPy Matplotlib Seaborn: encadena las 44 lecciones en orden, con ejercicios y proyecto final.

📬 ¿Quiere recibir este tipo de guía cada semana? Suscríbase gratis — código real, cero palabrería.