Fine-Tuning de LLMs explicado de forma sencilla (con diagramas y código real)
Fine Tuning LLMs: lo esencial en un artículo — código real, diagramas y pasos concretos, extractos de un curso de 37 lecciones.
Una guía que va al grano: Fine Tuning LLMs desglosada con diagramas, ejemplos concretos y comandos probados. Todo proviene de un curso estructurado de 11 capítulos — aquí lo mejor.
- Introducción e Instalación
- Fundamentos de los LLMs
- Preparación de los Datos
- Fine-Tuning Completo
- LoRA y QLoRA PEFT
Ollama e integración local
Objetivos pedagógicos
- Instalar Ollama y ejecutar un modelo preexistente
- Importar tu modelo GGUF personalizado mediante un Modelfile
- Usar la API REST de Ollama desde cualquier lenguaje
- Integrar Ollama en una app Python / Node / Rust
- Optimizar para el hardware (CPU, M2, RTX)
Instalar Ollama
Ejecutar un modelo existente
API nativa
| Hardware | Modelo | Tokens/seg |
|---|---|---|
| M2 16 GB | Mistral 7B Q4_K_M | 40 |
| M3 Max 64 GB | Mistral 7B Q4_K_M | 80 |
| M3 Max 64 GB | Llama 3 70B Q4_K_M | 10 |
| RTX 4090 24 GB | Mistral 7B Q4_K_M | 100+ |
| RTX 3060 12 GB | Mistral 7B Q4_K_M | 35 |
Casos de uso de Ollama en producción
POC interno
Hacer que los equipos de negocio descubran el modelo sin infraestructura en la nube.
App de escritorio
Incluida en Tauri / Electron / Swift app para análisis local.
Edge / on-prem
Datos sensibles que no deben salir de la red interna.
Limitaciones de Ollama
Subir tu modelo a ollama.com
Puedes compartir tu modelo personalizado en el registro público de Ollama:
Formatos Alpaca, ChatML, ShareGPT, JSONL
Objetivos pedagógicos
- Identificar los 4 formatos más usados en 2026
- Convertir un dataset entre Alpaca, ChatML y ShareGPT
- Aplicar la plantilla de chat correcta según el modelo objetivo
- Guardar tu dataset en JSONL streamable
- Detectar errores de formato antes del entrenamiento
Formato 1: Alpaca (el más sencillo)
Proveniente del proyecto Stanford Alpaca (2023). Tres campos: instruction, input (opcional) y output.
Convertir entre formatos
Alpaca → ChatML
Hugging Face lo gestiona automáticamente mediante tokenizer.apply_chat_template(). Nunca debes escribir estas plantillas a mano.
Instalar Python, PyTorch y Hugging Face
Objetivos pedagógicos
- Instalar Python 3.11 y un entorno virtual dedicado
- Elegir e instalar la versión correcta de PyTorch (CPU vs CUDA)
- Instalar la pila completa de Hugging Face con versiones compatibles
- Verificar que PyTorch detecta correctamente la GPU
- Crear tu cuenta de Hugging Face y configurar tu token
Requisitos del sistema
| Componente | Recomendado | Mínimo |
|---|---|---|
| Python | 3.11 | 3.10 |
| RAM | 32 GB | 16 GB |
| GPU NVIDIA | RTX 4090 (24 GB) | RTX 3060 (12 GB) o Colab T4 |
| Espacio en disco | 200 GB SSD | 50 GB |
| CUDA Toolkit | 12.1 | 11.8 |
bitsandbytes en Windows) todavía no admiten perfectamente Python 3.12. Quédate en 3.11 para este curso.Paso 1: Instalar Python 3.11 y un entorno virtual
Crea una carpeta de trabajo y luego un entorno virtual dedicado al curso. Esto evita cualquier conflicto con otros proyectos de Python.
GPU NVIDIA con CUDA 12.1
peft
Parameter-Efficient Fine-Tuning. Imprescindible para LoRA y QLoRA.
bitsandbytes
Cuantización de 8 bits y 4 bits. Permite QLoRA. Debe coincidir con tu versión de CUDA.
Paso 4: Crear una cuenta y un token de Hugging Face
Este artículo cubre los extractos más útiles — el curso completo Fine Tuning LLMs (11 capítulos, 37 lecciones, ejercicios resueltos y proyecto final) te lleva hasta el final.
./acceder-al-curso-completo curso gratuito: Ingeniería de promptsFAQ
¿Cuánto tiempo se necesita para aprender Fine Tuning LLMs?
¿Se necesitan requisitos previos?
¿Por dónde empezar en la práctica?
📬 ¿Quieres recibir este tipo de guía cada semana? Suscríbete gratis — código real, cero palabrería.