Machine & Deep Learning

Transformers Deep Learning en la práctica: el código y los comandos que realmente importan

Transformers Deep Learning: lo esencial en un artículo — código real, diagramas y pasos concretos, extractos de un curso de 43 lecciones.

REHOUMA Haythem

12 Jun 2026 • 10 min read

Sin teoría interminable aquí: abrimos la terminal y practicamos. Aquí lo esencial de Transformers Deep Learning, extraído directamente de un curso completo de 43 lecciones — con código real que puedes copiar y pegar ahora.

tl;dr

Introducción e Instalación
Límites de las RNN y Motivación
Mecanismo de Atención
Arquitectura Transformer Completa
BERT y Familia Encoder

~$ cat ./parcours.md # Transformers Deep Learning — 10 capítulos

Introducción e Instalación

→ Presentación del curso y la revolución Transformer→ Instalar PyTorch y HuggingFace transformers+ 1 más lecciones

Límites de los RNN y Motivación

→ Límites de los RNN/LSTM en la práctica→ El problema de la paralelización+ 2 más lecciones

Mecanismo de Atención

→ Self-attention : intuición y ecuaciones→ Queries, Keys, Values : la trinidad mágica+ 2 más lecciones

Arquitectura Transformer Completa

→ Positional encoding : inyectar la noción de posición→ Encoder : arquitectura completa+ 2 más lecciones

BERT y Familia Encoder

→ BERT : Masked Language Modeling→ Fine-tuning BERT para clasificación+ 2 más lecciones

GPT y Familia Decoder

→ GPT : arquitectura decoder-only→ Pre-training causal (predicción del siguiente token)+ 2 más lecciones

T5 y Modelos Encoder-Decoder

→ T5 : todo como de texto-a-texto→ BART para la traducción y el resumen+ 1 más lecciones

Vision Transformers ViT

→ ViT : imagen como secuencia de patches→ Comparación ViT vs CNN+ 1 más lecciones

🏁

Proyecto final (+ 2 capítulos en camino)

→ Te vas con un proyecto concreto y demostrable

Instalar PyTorch y HuggingFace transformers

NOTEObjetivo — Configurar un entorno de trabajo limpio y reproducible: Python aislado, PyTorch con soporte GPU si es posible, y el ecosistema HuggingFace (transformers, datasets, tokenizers).

Objetivos pedagógicos

TIPAl finalizar este módulo

Crear un entorno virtual Python dedicado
Instalar PyTorch con o sin CUDA según tu hardware
Instalar transformers, datasets y accelerate
Verificar que la GPU se detecta correctamente
Comprender el rol de cada biblioteca

Por qué un entorno aislado

Las bibliotecas de deep learning evolucionan rápido y suelen entrar en conflicto (versiones de PyTorch, CUDA, numpy). Un entorno virtual aísla las dependencias de este proyecto del resto de tu sistema. Es la primera buena práctica de cualquier data scientist profesional.

Hardware	Comando recomendado
GPU NVIDIA (CUDA 12.x)	`pip install torch --index-url https://download.pytorch.org/whl/cu121`
Solo CPU	`pip install torch`
Apple Silicon (M1/M2/M3)	`pip install torch` (backend MPS automático)

WARNINGAtención: Nunca instales «al azar» una versión de CUDA. Consulta siempre el configurador oficial en pytorch.org, ya que una coincidencia incorrecta entre la versión CUDA de PyTorch y tus drivers NVIDIA impide que la GPU se detecte.

Instalar el ecosistema HuggingFace

HuggingFace proporciona la capa de alto nivel. Estas son las tres bibliotecas esenciales y su rol:

transformers

Los modelos preentrenados (BERT, GPT, T5...) y los pipelines listos para usar.

datasets

Acceso a miles de conjuntos de datos y carga eficiente en streaming.

accelerate

Abstracción para entrenar en CPU, GPU o multi-GPU sin cambiar el código.

Preparación de datos y tokenización

NOTEObjetivo — Preparar un conjunto de datos de calidad para el fine-tuning: recolección, limpieza, formateo, tokenización y división en conjuntos de entrenamiento, validación y prueba.

Objetivos pedagógicos

TIPAl finalizar este módulo

Recopilar y limpiar datos textuales
Formatear los datos según la tarea
Tokenizar eficientemente
Dividir en train / validation / test
Comprender la importancia de la calidad de los datos

La calidad de los datos es lo primero

En fine-tuning, la calidad de los datos importa más que la cantidad. Mil ejemplos limpios y bien etiquetados valen más que cien mil ejemplos ruidosos. Esa es la regla de oro: garbage in, garbage out.

WARNINGAtención: Los datos mal limpiados (duplicados, HTML residual, etiquetas incoherentes) degradan fuertemente el modelo. Invierte tiempo en este paso: suele ser lo que marca la diferencia.

Limpiar los datos

Validación

Ajustar hiperparámetros, detectar sobreajuste.

Prueba

Evaluación final, nunca vista durante el entrenamiento.

TIPConsejo: Fija siempre una semilla aleatoria (seed) para que tus splits sean reproducibles. Sin ello, tus resultados variarán de una ejecución a otra.

Self-attention: intuición y ecuaciones

NOTEObjetivo — Pasar de la intuición a las ecuaciones de la self-attention: comprender formalmente cómo se calculan los pesos de atención y se usan para producir nuevas representaciones.

Objetivos pedagógicos

TIPAl finalizar este módulo

Escribir la ecuación de la self-attention
Comprender el rol del producto escalar como medida de similitud
Ver cómo softmax transforma puntuaciones en pesos
Calcular atención a mano en un mini-ejemplo
Implementar una self-attention simple en PyTorch

De la intuición a los números

Cada palabra se representa mediante un vector. Para medir cuánto deben influirse dos palabras, se usa el producto escalar de sus vectores: cuanto mayor sea, más «alineadas» están las palabras y más relevantes son entre sí. Ese es el bloque fundamental.

Elemento	Rol
`Q @ K^T`	Puntuaciones de similitud entre cada par de palabras
`/ sqrt(d_k)`	Normalización para estabilizar los gradientes
`softmax(...)`	Transforma las puntuaciones en pesos que suman 1
`... @ V`	Media ponderada de los valores

NOTENota: Para este primer módulo se supone que Q, K y V son iguales a los embeddings de las palabras. En el módulo siguiente se verá que en realidad se obtienen mediante proyecciones lineales distintas.

El rol del softmax

El softmax convierte un vector de puntuaciones arbitrarias en una distribución de probabilidad: todos los valores se vuelven positivos y su suma es 1. Así, cada palabra reparte el 100 % de su «atención» entre todas las palabras de la frase.

va-plus-loin

Este artículo cubre los extractos más útiles — el curso completo Transformers Deep Learning (11 capítulos, 43 lecciones, ejercicios corregidos y proyecto final) te lleva hasta el final.

./acceder-al-curso-completo curso gratuito: Dominar Claude Code

FAQ

¿Cuánto tiempo se necesita para aprender Transformers Deep Learning?

Con una progresión estructurada (11 capítulos, 43 lecciones cortas y prácticas), se alcanza un nivel operativo en unas semanas dedicando 30 a 60 minutos al día. Lo importante es practicar cada concepto de inmediato.

¿Se necesitan requisitos previos?

Es mejor estar cómodo con los fundamentos del área: este contenido profundiza, con casos reales.

¿Por dónde empezar concretamente?

Reproduce los comandos de este artículo y sigue el curso completo Transformers Deep Learning: encadena las 43 lecciones en orden, con ejercicios y proyecto final.

./a-lire-aussi

→ Lánzate a Machine Learning para Principiantes: tu primer paso concreto hoy → Machine Learning Simplificado en la práctica: el código y los comandos que realmente importan → Aprendizaje Automático con Python: los 9 pasos clave para pasar de cero a operativo

📬 ¿Quieres recibir este tipo de guía cada semana? Suscríbete gratis — código real, cero palabrería.

Instalar PyTorch y HuggingFace transformers

Objetivos pedagógicos

Por qué un entorno aislado

Instalar el ecosistema HuggingFace

transformers

datasets

accelerate

Preparación de datos y tokenización

Objetivos pedagógicos

La calidad de los datos es lo primero

Limpiar los datos

Validación

Prueba

Self-attention: intuición y ecuaciones

Objetivos pedagógicos

De la intuición a los números

El rol del softmax

FAQ

Stay up to date