EDA pandas NumPy Matplotlib Seaborn: las 9 etapas clave para pasar de cero a operativo
EDA pandas NumPy Matplotlib Seaborn : lo esencial en un artículo — código real, diagramas y pasos concretos, extractos de un curso de 44 lecciones.
Todo el mundo puede aprender EDA pandas NumPy Matplotlib Seaborn — siempre que siga los pasos en el orden correcto. Hemos condensado un curso completo de 44 lecciones en un recorrido claro, con los extractos de código más útiles.
- Introducción al Análisis de Datos
- Introducción e instalación
- Primeros pasos con los DataFrames de Pandas
- Limpiar y preparar los datos
- Estadísticas descriptivas y agregación
Instale su entorno de trabajo
0. Google Colab — La opción de instalación cero
Google Colaboratory (Colab) es un entorno Jupyter gratuito que funciona directamente en su navegador, sin instalar nada. Se ejecuta en los servidores de Google e incluye ya NumPy, Pandas, Matplotlib y Seaborn preinstalados.
Cómo empezar con Google Colab
Verificar las versiones preinstaladas en Colab
En la primera celda de su notebook Colab, copie y ejecute este código:
import numpy as np
import pandas as pd
import matplotlib
import seaborn as sns
print("NumPy :", np.__version__)
print("Pandas :", pd.__version__)
print("Matplotlib:", matplotlib.__version__)
print("Seaborn :", sns.__version__)
print("\nTout est pret. Bonne analyse !")# Método 1: Subir un archivo desde su ordenador
from google.colab import files
uploaded = files.upload() # una ventana de selección se abre
import pandas as pd
import io
df = pd.read_csv(io.BytesIO(uploaded['mon_fichier.csv']))
# Método 2: Leer desde Google Drive
from google.colab import drive
drive.mount('/content/drive')
df = pd.read_csv('/content/drive/MyDrive/mon_fichier.csv')
# Método 3: Leer directamente desde una URL pública
df = pd.read_csv('https://raw.githubusercontent.com/exemple/repo/main/data.csv')Python solo
Anaconda (recomendado)
2. paso 1 — Descargar e instalar Anaconda
Descarga
Instalación en Windows
Verificación de la instalación
Abra el Anaconda Prompt (Windows) o el Terminal (macOS/Linux) y escriba:
conda --version
# Crear un entorno llamado "eda-cours" con Python 3.11 conda create -n eda-cours python=3.11 # Activar el entorno conda activate eda-cours # Verificar que el entorno está activo (el nombre aparece entre paréntesis) # (eda-cours) C:\Users\votre_nom>
Opción A — Con conda (recomendado)
# Instalar todas las bibliotecas en un solo comando conda install numpy pandas matplotlib seaborn jupyter -y
Lanzamiento desde el terminal
# Asegúrese de que su entorno está activo conda activate eda-cours # Lanzar Jupyter Notebook jupyter notebook
Capítulo 08 – Introducción a las librerías en ciencias de datos
- Comprender qué es una librería de Python
- Importar una librería (
import) - Importar un módulo concreto de una librería (
from ... import) - Utilizar alias (
import numpy as np) - Utilizar la librería
mathcomo primer ejemplo - Instalar, actualizar y verificar la configuración de una librería con PIP
1. ¿Qué es una librería?
Las librerías son series de módulos ya listos, que permiten realizar tratamientos complejos en pocas líneas. Son muy numerosas:
💻 Librerías CPU Standard
🌞 Librerías GPU NVIDIA RAPIDS
2. Importar una librería — la librería math
La librería math es el ejemplo perfecto para comprender los imports. Está integrada en Python, no se necesita ninguna instalación.
Documentación oficial : docs.python.org/2/library/math.html
2.1 Importación completa
import math # Arrondir au supérieur print(math.ceil(0.1)) # arrondi au supérieur
%command se aplica a una única línea. %%command se aplica a toda la celda. El comando %% debe estar en la primera línea de la celda.6.1 Medir el tiempo de ejecución
| Comando | Descripción | Ejemplo |
|---|---|---|
%time | Mide el tiempo de una sola línea | %time sum(range(1_000_000)) |
%%time | Mide el tiempo de toda la celda | Colocar en la 1.ª línea de la celda |
%timeit | Ejecuta la línea N veces, da la media | %timeit sum(range(1_000_000)) |
%%timeit | Ejecuta la celda N veces, da la media | Colocar en la 1.ª línea de la celda |
%%time # %%time — mide el tiempo TOTAL de la celda (1 sola ejecución) import numpy as np a = np.random.randn(1_000_000) result = np.sort(a)
%timeit np.random.randn(1_000_000) # %timeit — ejecuta la línea varias veces para una medida precisa
%%timeit # %%timeit — medida precisa de toda la celda (varias ejecuciones) import numpy as np a = np.random.randn(10_000) np.sort(a)
•
%%time → para medir rápidamente una celda (1 ejecución)•
%%timeit → para un benchmark fiable (varias ejecuciones, media)•
%timeit → para comparar dos expresiones en una sola línea6.2 Profiling — analizar el rendimiento en detalle
%prun sum(range(1_000_000)) # Muestra el tiempo empleado en cada función llamada
%%prun # Profiling de toda la celda import numpy as np a = np.random.randn(100_000) b = np.sort(a) c = np.cumsum(b)
Capítulo 08 – Práctica 2 : Pandas — Manipulación de DataFrames (CPU)
- Ultra popular en ciencia de datos
- Permite la manipulación de tablas de datos muy grandes (una especie de Excel con esteroides)
- Enorme cantidad de funcionalidades (filtros, reprocesamientos, análisis…)
- Permite hacer el puente con otras librerías (ML, data viz…)
1. Crear un DataFrame
1.1 Desde un diccionario
import pandas as pd
produitsDict = {
'smartphone': {'prix': 1000, 'enStock': True},
'chaussures': {'prix': 100, 'enStock': False},
'console': {'prix': 400, 'enStock': True}
}
print(produitsDict)
df = pd.DataFrame(produitsDict)
df1.2 Desde una lista de listas
pays = [
[70, 55, 85], # Population en millions
[0.901, 0.922, 0.936], # IDH
[2091, 2077, 3045] # PIB
]
df = pd.DataFrame(pays, columns=['France', 'Angleterre', 'Allemagne'])
df1.3 Importar un archivo CSV
import pandas as pd
data = pd.read_csv('metal-bands.csv', encoding='latin-1', sep=';')
data.head()2. Primer recorrido de los datos
data.head(3) # 3 premières lignes data.info() # types, valeurs non-nulles, mémoire data.dtypes # type de chaque colonne data.fans.dtypes # type d'une colonne spécifique data.shape # (lignes, colonnes) len(data) # nombre de lignes
3. Navegación en un DataFrame — iloc y loc
iloc = índice numérico (posición). loc = índice por etiqueta (nombre de fila/columna).3.1 Seleccionar una o varias columnas
data['band_name'].head(10) # 1 columna data[['band_name', 'fans']].head(15) # varias columnas
3.2 iloc — por posición numérica
data.iloc[0, 0] # ligne 0, colonne 0 data.iloc[0:5, 0] # lignes 0-4, colonne 0 data.iloc[0, 0:5] # ligne 0, colonnes 0-4 data.iloc[0:3, 0:5] # bloc 3 lignes x 5 colonnes
Este artículo cubre los extractos más útiles — el curso completo EDA pandas NumPy Matplotlib Seaborn (12 capítulos, 44 lecciones, ejercicios corregidos y proyecto final) le lleva hasta el final.
./acceder-au-cours-complet cours gratuit : Maîtriser Claude CodeFAQ
¿Cuánto tiempo se necesita para aprender EDA pandas NumPy Matplotlib Seaborn?
¿Se necesitan requisitos previos?
¿Por dónde empezar concretamente?
📬 ¿Quiere recibir este tipo de guía cada semana? Suscríbase gratis — código real, cero palabrería.