Fine Tuning de LLMs explicado de forma simples (com diagramas e código real)

Fine Tuning LLMs: o essencial em um artigo — código real, diagramas e etapas concretas, extraídos de um curso de 37 lições.

Fine Tuning de LLMs explicado de forma simples (com diagramas e código real)

Um guia direto ao ponto: Fine Tuning LLMs dissecado com diagramas, exemplos concretos e comandos testados. Tudo vem de um curso estruturado de 11 capítulos — aqui está o melhor.

tl;dr
  • Introdução e Instalação
  • Fundamentos dos LLMs
  • Preparação dos Dados
  • Fine-Tuning Completo
  • LoRA e QLoRA PEFT
~$ cat ./parcours.md # Fine Tuning LLMs — 9 capítulos
01
Introdução e Instalação
→ Apresentação do curso e por que fazer fine-tuning?→ Instalar Python, PyTorch e Hugging Face+ 1 mais lições
02
Fundamentos dos LLMs
→ Arquitetura Transformer em resumo→ Pré-treinamento, SFT, RLHF, DPO+ 2 mais lições
03
Preparação dos Dados
→ Coleta e limpeza dos dados→ Formatos Alpaca, ChatML, ShareGPT, JSONL+ 2 mais lições
04
Fine-Tuning Completo
→ Conceitos do full fine-tuning→ Hugging Face Trainer e TrainingArguments+ 2 mais lições
05
LoRA e QLoRA PEFT
→ Princípio de LoRA low-rank adaptation→ QLoRA quantização 4-bit e NF4+ 2 mais lições
06
Treinamento e Hiperparâmetros
→ Learning rate, batch size e épocas→ Schedulers cosine, linear, warmup+ 2 mais lições
07
Alinhamento Avançado DPO RLHF
→ DPO Direct Preference Optimization→ ORPO e KTO alternativas modernas+ 1 mais lições
08
Implantação e Inferência
→ Quantização GGUF com llama.cpp→ Servir com vLLM ou TGI (alta perf)+ 1 mais lições
🏁
Projeto final (+ 1 capítulos no caminho)
→ Você sai com um projeto concreto e demonstrável

Ollama e integração local

NOTEObjetivo — Implantar seu modelo fine-tunado via Ollama, a ferramenta mais simples para executar um LLM localmente (macOS, Windows, Linux) com uma API REST em 30 segundos.

Objetivos pedagógicos

TIPAo final deste módulo
  • Instalar o Ollama e executar um modelo pré-existente
  • Importar seu modelo GGUF customizado via um Modelfile
  • Usar a API REST do Ollama a partir de qualquer linguagem
  • Integrar o Ollama em um app Python / Node / Rust
  • Otimizar para o hardware (CPU, M2, RTX)

Instalar o Ollama

Executar um modelo existente

API nativa

HardwareModeloTokens/s
M2 16 GBMistral 7B Q4_K_M40
M3 Max 64 GBMistral 7B Q4_K_M80
M3 Max 64 GBLlama 3 70B Q4_K_M10
RTX 4090 24 GBMistral 7B Q4_K_M100+
RTX 3060 12 GBMistral 7B Q4_K_M35

Casos de uso do Ollama em produção

POC interno

Apresentar o modelo às equipes de negócio sem infraestrutura em nuvem.

Aplicativo desktop

Embutido em apps Tauri / Electron / Swift para análise local.

Edge / on-prem

Dados sensíveis que não devem sair da rede interna.

Limites do Ollama

Publicar seu modelo no ollama.com

Você pode compartilhar seu modelo customizado no registro público do Ollama:

Formatos Alpaca, ChatML, ShareGPT, JSONL

NOTEObjetivo — Conhecer os formatos padrão de datasets para fine-tuning de LLMs e saber convertê-los entre si. Compreender a importância do template de chat específico para cada modelo.

Objetivos pedagógicos

TIPAo final deste módulo
  • Identificar os 4 formatos mais usados em 2026
  • Converter um dataset entre Alpaca, ChatML e ShareGPT
  • Aplicar o template de chat correto conforme o modelo alvo
  • Salvar seu dataset em JSONL streamável
  • Detectar erros de formatação antes do treinamento

Formato 1: Alpaca (o mais simples)

Originado do projeto Stanford Alpaca (2023). Três campos: instruction, input (opcional) e output.

Converter entre formatos

Alpaca → ChatML

O Hugging Face cuida disso automaticamente via tokenizer.apply_chat_template(). Você nunca deve escrever esses templates manualmente.

Instalar Python, PyTorch e Hugging Face

NOTEObjetivo — Configurar um ambiente Python limpo para fine-tuning: Python 3.11, PyTorch com CUDA e toda a stack Hugging Face (Transformers, PEFT, Datasets, TRL).

Objetivos pedagógicos

TIPAo final deste módulo
  • Instalar Python 3.11 e um ambiente virtual dedicado
  • Escolher e instalar a versão correta do PyTorch (CPU vs CUDA)
  • Instalar a stack completa do Hugging Face com versões compatíveis
  • Verificar se a GPU é detectada corretamente pelo PyTorch
  • Criar uma conta Hugging Face e configurar seu token

Pré-requisitos de sistema

ComponenteRecomendadoMínimo
Python3.113.10
RAM32 GB16 GB
GPU NVIDIARTX 4090 (24 GB)RTX 3060 (12 GB) ou Colab T4
Espaço em disco200 GB SSD50 GB
CUDA Toolkit12.111.8
WARNINGAtenção Python 3.12: Em 2026, algumas dependências (especialmente bitsandbytes no Windows) ainda não suportam perfeitamente o Python 3.12. Fique no 3.11 para este curso.

Etapa 1: Instalar Python 3.11 e um ambiente virtual

Crie uma pasta de trabalho e um ambiente virtual dedicado ao curso. Isso evita conflitos com outros projetos Python.

GPU NVIDIA com CUDA 12.1

peft

Parameter-Efficient Fine-Tuning. Essencial para LoRA e QLoRA.

bitsandbytes

Quantização 8-bit e 4-bit. Permite o QLoRA. Deve corresponder à sua versão do CUDA.

Etapa 4: Criar uma conta e um token Hugging Face

va-plus-loin

Este artigo cobre os trechos mais úteis — o curso completo Fine Tuning LLMs (11 capítulos, 37 lições, exercícios corrigidos e projeto final) leva você até o fim.

./acceder-au-cours-complet curso gratuito: Engenharia de prompts

FAQ

Quanto tempo para aprender Fine Tuning LLMs?
Com uma progressão estruturada (11 capítulos, 37 lições curtas e práticas), você atinge um nível operacional em algumas semanas, dedicando 30 a 60 minutos por dia. O importante é praticar cada conceito imediatamente.
É preciso ter pré-requisitos?
Básicos de informática são suficientes. Se você sabe usar um terminal e ler código simples, está pronto.
Por onde começar na prática?
Reproduza os comandos deste artigo e depois siga o curso completo Fine Tuning LLMs: ele encadeia as 37 lições em ordem, com exercícios e projeto final.

📬 Quer receber este tipo de guia toda semana? Inscreva-se gratuitamente — código real, zero enrolação.