Fine Tuning de LLMs explicado de forma simples (com diagramas e código real)
Fine Tuning LLMs: o essencial em um artigo — código real, diagramas e etapas concretas, extraídos de um curso de 37 lições.
Um guia direto ao ponto: Fine Tuning LLMs dissecado com diagramas, exemplos concretos e comandos testados. Tudo vem de um curso estruturado de 11 capítulos — aqui está o melhor.
- Introdução e Instalação
- Fundamentos dos LLMs
- Preparação dos Dados
- Fine-Tuning Completo
- LoRA e QLoRA PEFT
Ollama e integração local
Objetivos pedagógicos
- Instalar o Ollama e executar um modelo pré-existente
- Importar seu modelo GGUF customizado via um Modelfile
- Usar a API REST do Ollama a partir de qualquer linguagem
- Integrar o Ollama em um app Python / Node / Rust
- Otimizar para o hardware (CPU, M2, RTX)
Instalar o Ollama
Executar um modelo existente
API nativa
| Hardware | Modelo | Tokens/s |
|---|---|---|
| M2 16 GB | Mistral 7B Q4_K_M | 40 |
| M3 Max 64 GB | Mistral 7B Q4_K_M | 80 |
| M3 Max 64 GB | Llama 3 70B Q4_K_M | 10 |
| RTX 4090 24 GB | Mistral 7B Q4_K_M | 100+ |
| RTX 3060 12 GB | Mistral 7B Q4_K_M | 35 |
Casos de uso do Ollama em produção
POC interno
Apresentar o modelo às equipes de negócio sem infraestrutura em nuvem.
Aplicativo desktop
Embutido em apps Tauri / Electron / Swift para análise local.
Edge / on-prem
Dados sensíveis que não devem sair da rede interna.
Limites do Ollama
Publicar seu modelo no ollama.com
Você pode compartilhar seu modelo customizado no registro público do Ollama:
Formatos Alpaca, ChatML, ShareGPT, JSONL
Objetivos pedagógicos
- Identificar os 4 formatos mais usados em 2026
- Converter um dataset entre Alpaca, ChatML e ShareGPT
- Aplicar o template de chat correto conforme o modelo alvo
- Salvar seu dataset em JSONL streamável
- Detectar erros de formatação antes do treinamento
Formato 1: Alpaca (o mais simples)
Originado do projeto Stanford Alpaca (2023). Três campos: instruction, input (opcional) e output.
Converter entre formatos
Alpaca → ChatML
O Hugging Face cuida disso automaticamente via tokenizer.apply_chat_template(). Você nunca deve escrever esses templates manualmente.
Instalar Python, PyTorch e Hugging Face
Objetivos pedagógicos
- Instalar Python 3.11 e um ambiente virtual dedicado
- Escolher e instalar a versão correta do PyTorch (CPU vs CUDA)
- Instalar a stack completa do Hugging Face com versões compatíveis
- Verificar se a GPU é detectada corretamente pelo PyTorch
- Criar uma conta Hugging Face e configurar seu token
Pré-requisitos de sistema
| Componente | Recomendado | Mínimo |
|---|---|---|
| Python | 3.11 | 3.10 |
| RAM | 32 GB | 16 GB |
| GPU NVIDIA | RTX 4090 (24 GB) | RTX 3060 (12 GB) ou Colab T4 |
| Espaço em disco | 200 GB SSD | 50 GB |
| CUDA Toolkit | 12.1 | 11.8 |
bitsandbytes no Windows) ainda não suportam perfeitamente o Python 3.12. Fique no 3.11 para este curso.Etapa 1: Instalar Python 3.11 e um ambiente virtual
Crie uma pasta de trabalho e um ambiente virtual dedicado ao curso. Isso evita conflitos com outros projetos Python.
GPU NVIDIA com CUDA 12.1
peft
Parameter-Efficient Fine-Tuning. Essencial para LoRA e QLoRA.
bitsandbytes
Quantização 8-bit e 4-bit. Permite o QLoRA. Deve corresponder à sua versão do CUDA.
Etapa 4: Criar uma conta e um token Hugging Face
Este artigo cobre os trechos mais úteis — o curso completo Fine Tuning LLMs (11 capítulos, 37 lições, exercícios corrigidos e projeto final) leva você até o fim.
./acceder-au-cours-complet curso gratuito: Engenharia de promptsFAQ
Quanto tempo para aprender Fine Tuning LLMs?
É preciso ter pré-requisitos?
Por onde começar na prática?
📬 Quer receber este tipo de guia toda semana? Inscreva-se gratuitamente — código real, zero enrolação.