Transformers Deep Learning en la práctica: el código y los comandos que realmente importan

Transformers Deep Learning: lo esencial en un artículo — código real, diagramas y pasos concretos, extractos de un curso de 43 lecciones.

Transformers Deep Learning en la práctica: el código y los comandos que realmente importan

Sin teoría interminable aquí: abrimos la terminal y practicamos. Aquí lo esencial de Transformers Deep Learning, extraído directamente de un curso completo de 43 lecciones — con código real que puedes copiar y pegar ahora.

tl;dr
  • Introducción e Instalación
  • Límites de las RNN y Motivación
  • Mecanismo de Atención
  • Arquitectura Transformer Completa
  • BERT y Familia Encoder
~$ cat ./parcours.md # Transformers Deep Learning — 10 capítulos
01
Introducción e Instalación
→ Presentación del curso y la revolución Transformer→ Instalar PyTorch y HuggingFace transformers+ 1 más lecciones
02
Límites de los RNN y Motivación
→ Límites de los RNN/LSTM en la práctica→ El problema de la paralelización+ 2 más lecciones
03
Mecanismo de Atención
→ Self-attention : intuición y ecuaciones→ Queries, Keys, Values : la trinidad mágica+ 2 más lecciones
04
Arquitectura Transformer Completa
→ Positional encoding : inyectar la noción de posición→ Encoder : arquitectura completa+ 2 más lecciones
05
BERT y Familia Encoder
→ BERT : Masked Language Modeling→ Fine-tuning BERT para clasificación+ 2 más lecciones
06
GPT y Familia Decoder
→ GPT : arquitectura decoder-only→ Pre-training causal (predicción del siguiente token)+ 2 más lecciones
07
T5 y Modelos Encoder-Decoder
→ T5 : todo como de texto-a-texto→ BART para la traducción y el resumen+ 1 más lecciones
08
Vision Transformers ViT
→ ViT : imagen como secuencia de patches→ Comparación ViT vs CNN+ 1 más lecciones
🏁
Proyecto final (+ 2 capítulos en camino)
→ Te vas con un proyecto concreto y demostrable

Instalar PyTorch y HuggingFace transformers

NOTEObjetivo — Configurar un entorno de trabajo limpio y reproducible: Python aislado, PyTorch con soporte GPU si es posible, y el ecosistema HuggingFace (transformers, datasets, tokenizers).

Objetivos pedagógicos

TIPAl finalizar este módulo
  • Crear un entorno virtual Python dedicado
  • Instalar PyTorch con o sin CUDA según tu hardware
  • Instalar transformers, datasets y accelerate
  • Verificar que la GPU se detecta correctamente
  • Comprender el rol de cada biblioteca

Por qué un entorno aislado

Las bibliotecas de deep learning evolucionan rápido y suelen entrar en conflicto (versiones de PyTorch, CUDA, numpy). Un entorno virtual aísla las dependencias de este proyecto del resto de tu sistema. Es la primera buena práctica de cualquier data scientist profesional.

HardwareComando recomendado
GPU NVIDIA (CUDA 12.x)pip install torch --index-url https://download.pytorch.org/whl/cu121
Solo CPUpip install torch
Apple Silicon (M1/M2/M3)pip install torch (backend MPS automático)
WARNINGAtención: Nunca instales «al azar» una versión de CUDA. Consulta siempre el configurador oficial en pytorch.org, ya que una coincidencia incorrecta entre la versión CUDA de PyTorch y tus drivers NVIDIA impide que la GPU se detecte.

Instalar el ecosistema HuggingFace

HuggingFace proporciona la capa de alto nivel. Estas son las tres bibliotecas esenciales y su rol:

transformers

Los modelos preentrenados (BERT, GPT, T5...) y los pipelines listos para usar.

datasets

Acceso a miles de conjuntos de datos y carga eficiente en streaming.

accelerate

Abstracción para entrenar en CPU, GPU o multi-GPU sin cambiar el código.

Preparación de datos y tokenización

NOTEObjetivo — Preparar un conjunto de datos de calidad para el fine-tuning: recolección, limpieza, formateo, tokenización y división en conjuntos de entrenamiento, validación y prueba.

Objetivos pedagógicos

TIPAl finalizar este módulo
  • Recopilar y limpiar datos textuales
  • Formatear los datos según la tarea
  • Tokenizar eficientemente
  • Dividir en train / validation / test
  • Comprender la importancia de la calidad de los datos

La calidad de los datos es lo primero

En fine-tuning, la calidad de los datos importa más que la cantidad. Mil ejemplos limpios y bien etiquetados valen más que cien mil ejemplos ruidosos. Esa es la regla de oro: garbage in, garbage out.

WARNINGAtención: Los datos mal limpiados (duplicados, HTML residual, etiquetas incoherentes) degradan fuertemente el modelo. Invierte tiempo en este paso: suele ser lo que marca la diferencia.

Limpiar los datos

Validación

Ajustar hiperparámetros, detectar sobreajuste.

Prueba

Evaluación final, nunca vista durante el entrenamiento.

TIPConsejo: Fija siempre una semilla aleatoria (seed) para que tus splits sean reproducibles. Sin ello, tus resultados variarán de una ejecución a otra.

Self-attention: intuición y ecuaciones

NOTEObjetivo — Pasar de la intuición a las ecuaciones de la self-attention: comprender formalmente cómo se calculan los pesos de atención y se usan para producir nuevas representaciones.

Objetivos pedagógicos

TIPAl finalizar este módulo
  • Escribir la ecuación de la self-attention
  • Comprender el rol del producto escalar como medida de similitud
  • Ver cómo softmax transforma puntuaciones en pesos
  • Calcular atención a mano en un mini-ejemplo
  • Implementar una self-attention simple en PyTorch

De la intuición a los números

Cada palabra se representa mediante un vector. Para medir cuánto deben influirse dos palabras, se usa el producto escalar de sus vectores: cuanto mayor sea, más «alineadas» están las palabras y más relevantes son entre sí. Ese es el bloque fundamental.

ElementoRol
Q @ K^TPuntuaciones de similitud entre cada par de palabras
/ sqrt(d_k)Normalización para estabilizar los gradientes
softmax(...)Transforma las puntuaciones en pesos que suman 1
... @ VMedia ponderada de los valores
NOTENota: Para este primer módulo se supone que Q, K y V son iguales a los embeddings de las palabras. En el módulo siguiente se verá que en realidad se obtienen mediante proyecciones lineales distintas.

El rol del softmax

El softmax convierte un vector de puntuaciones arbitrarias en una distribución de probabilidad: todos los valores se vuelven positivos y su suma es 1. Así, cada palabra reparte el 100 % de su «atención» entre todas las palabras de la frase.

va-plus-loin

Este artículo cubre los extractos más útiles — el curso completo Transformers Deep Learning (11 capítulos, 43 lecciones, ejercicios corregidos y proyecto final) te lleva hasta el final.

./acceder-al-curso-completo curso gratuito: Dominar Claude Code

FAQ

¿Cuánto tiempo se necesita para aprender Transformers Deep Learning?
Con una progresión estructurada (11 capítulos, 43 lecciones cortas y prácticas), se alcanza un nivel operativo en unas semanas dedicando 30 a 60 minutos al día. Lo importante es practicar cada concepto de inmediato.
¿Se necesitan requisitos previos?
Es mejor estar cómodo con los fundamentos del área: este contenido profundiza, con casos reales.
¿Por dónde empezar concretamente?
Reproduce los comandos de este artículo y sigue el curso completo Transformers Deep Learning: encadena las 43 lecciones en orden, con ejercicios y proyecto final.

📬 ¿Quieres recibir este tipo de guía cada semana? Suscríbete gratis — código real, cero palabrería.