IA & LLM

Fine Tuning de LLMs explicado de forma simples (com diagramas e código real)

Fine Tuning LLMs: o essencial em um artigo — código real, diagramas e etapas concretas, extraídos de um curso de 37 lições.

REHOUMA Haythem

12 Jun 2026 • 10 min read

Um guia direto ao ponto: Fine Tuning LLMs dissecado com diagramas, exemplos concretos e comandos testados. Tudo vem de um curso estruturado de 11 capítulos — aqui está o melhor.

tl;dr

Introdução e Instalação
Fundamentos dos LLMs
Preparação dos Dados
Fine-Tuning Completo
LoRA e QLoRA PEFT

~$ cat ./parcours.md # Fine Tuning LLMs — 9 capítulos

Introdução e Instalação

→ Apresentação do curso e por que fazer fine-tuning?→ Instalar Python, PyTorch e Hugging Face+ 1 mais lições

Fundamentos dos LLMs

→ Arquitetura Transformer em resumo→ Pré-treinamento, SFT, RLHF, DPO+ 2 mais lições

Preparação dos Dados

→ Coleta e limpeza dos dados→ Formatos Alpaca, ChatML, ShareGPT, JSONL+ 2 mais lições

Fine-Tuning Completo

→ Conceitos do full fine-tuning→ Hugging Face Trainer e TrainingArguments+ 2 mais lições

LoRA e QLoRA PEFT

→ Princípio de LoRA low-rank adaptation→ QLoRA quantização 4-bit e NF4+ 2 mais lições

Treinamento e Hiperparâmetros

→ Learning rate, batch size e épocas→ Schedulers cosine, linear, warmup+ 2 mais lições

Alinhamento Avançado DPO RLHF

→ DPO Direct Preference Optimization→ ORPO e KTO alternativas modernas+ 1 mais lições

Implantação e Inferência

→ Quantização GGUF com llama.cpp→ Servir com vLLM ou TGI (alta perf)+ 1 mais lições

🏁

Projeto final (+ 1 capítulos no caminho)

→ Você sai com um projeto concreto e demonstrável

Ollama e integração local

NOTEObjetivo — Implantar seu modelo fine-tunado via Ollama, a ferramenta mais simples para executar um LLM localmente (macOS, Windows, Linux) com uma API REST em 30 segundos.

Objetivos pedagógicos

TIPAo final deste módulo

Instalar o Ollama e executar um modelo pré-existente
Importar seu modelo GGUF customizado via um Modelfile
Usar a API REST do Ollama a partir de qualquer linguagem
Integrar o Ollama em um app Python / Node / Rust
Otimizar para o hardware (CPU, M2, RTX)

Instalar o Ollama

Executar um modelo existente

API nativa

Hardware	Modelo	Tokens/s
M2 16 GB	Mistral 7B Q4_K_M	40
M3 Max 64 GB	Mistral 7B Q4_K_M	80
M3 Max 64 GB	Llama 3 70B Q4_K_M	10
RTX 4090 24 GB	Mistral 7B Q4_K_M	100+
RTX 3060 12 GB	Mistral 7B Q4_K_M	35

Casos de uso do Ollama em produção

POC interno

Apresentar o modelo às equipes de negócio sem infraestrutura em nuvem.

Aplicativo desktop

Embutido em apps Tauri / Electron / Swift para análise local.

Edge / on-prem

Dados sensíveis que não devem sair da rede interna.

Limites do Ollama

Publicar seu modelo no ollama.com

Você pode compartilhar seu modelo customizado no registro público do Ollama:

Formatos Alpaca, ChatML, ShareGPT, JSONL

NOTEObjetivo — Conhecer os formatos padrão de datasets para fine-tuning de LLMs e saber convertê-los entre si. Compreender a importância do template de chat específico para cada modelo.

Objetivos pedagógicos

TIPAo final deste módulo

Identificar os 4 formatos mais usados em 2026
Converter um dataset entre Alpaca, ChatML e ShareGPT
Aplicar o template de chat correto conforme o modelo alvo
Salvar seu dataset em JSONL streamável
Detectar erros de formatação antes do treinamento

Formato 1: Alpaca (o mais simples)

Originado do projeto Stanford Alpaca (2023). Três campos: instruction, input (opcional) e output.

Converter entre formatos

Alpaca → ChatML

O Hugging Face cuida disso automaticamente via tokenizer.apply_chat_template(). Você nunca deve escrever esses templates manualmente.

Instalar Python, PyTorch e Hugging Face

NOTEObjetivo — Configurar um ambiente Python limpo para fine-tuning: Python 3.11, PyTorch com CUDA e toda a stack Hugging Face (Transformers, PEFT, Datasets, TRL).

Objetivos pedagógicos

TIPAo final deste módulo

Instalar Python 3.11 e um ambiente virtual dedicado
Escolher e instalar a versão correta do PyTorch (CPU vs CUDA)
Instalar a stack completa do Hugging Face com versões compatíveis
Verificar se a GPU é detectada corretamente pelo PyTorch
Criar uma conta Hugging Face e configurar seu token

Pré-requisitos de sistema

Componente	Recomendado	Mínimo
Python	3.11	3.10
RAM	32 GB	16 GB
GPU NVIDIA	RTX 4090 (24 GB)	RTX 3060 (12 GB) ou Colab T4
Espaço em disco	200 GB SSD	50 GB
CUDA Toolkit	12.1	11.8

WARNINGAtenção Python 3.12: Em 2026, algumas dependências (especialmente bitsandbytes no Windows) ainda não suportam perfeitamente o Python 3.12. Fique no 3.11 para este curso.

Etapa 1: Instalar Python 3.11 e um ambiente virtual

Crie uma pasta de trabalho e um ambiente virtual dedicado ao curso. Isso evita conflitos com outros projetos Python.

GPU NVIDIA com CUDA 12.1

peft

Parameter-Efficient Fine-Tuning. Essencial para LoRA e QLoRA.

bitsandbytes

Quantização 8-bit e 4-bit. Permite o QLoRA. Deve corresponder à sua versão do CUDA.

Etapa 4: Criar uma conta e um token Hugging Face

va-plus-loin

Este artigo cobre os trechos mais úteis — o curso completo Fine Tuning LLMs (11 capítulos, 37 lições, exercícios corrigidos e projeto final) leva você até o fim.

./acceder-au-cours-complet curso gratuito: Engenharia de prompts

FAQ

Quanto tempo para aprender Fine Tuning LLMs?

Com uma progressão estruturada (11 capítulos, 37 lições curtas e práticas), você atinge um nível operacional em algumas semanas, dedicando 30 a 60 minutos por dia. O importante é praticar cada conceito imediatamente.

É preciso ter pré-requisitos?

Básicos de informática são suficientes. Se você sabe usar um terminal e ler código simples, está pronto.

Por onde começar na prática?

Reproduza os comandos deste artigo e depois siga o curso completo Fine Tuning LLMs: ele encadeia as 37 lições em ordem, com exercícios e projeto final.

./a-lire-aussi

→ Prompts de IA Eficazes: as 9 etapas-chave para ir do zero ao operacional → Inicie-se em Engenharia de Prompts Avançada: seu primeiro passo concreto hoje → Assistentes de IA Personalizados na prática: o código e os comandos que realmente importam

📬 Quer receber este tipo de guia toda semana? Inscreva-se gratuitamente — código real, zero enrolação.

Ollama e integração local

Objetivos pedagógicos

Instalar o Ollama

Executar um modelo existente

API nativa

Casos de uso do Ollama em produção

POC interno

Aplicativo desktop

Edge / on-prem

Limites do Ollama

Publicar seu modelo no ollama.com

Formatos Alpaca, ChatML, ShareGPT, JSONL

Objetivos pedagógicos

Formato 1: Alpaca (o mais simples)

Converter entre formatos

Alpaca → ChatML

Instalar Python, PyTorch e Hugging Face

Objetivos pedagógicos

Pré-requisitos de sistema

Etapa 1: Instalar Python 3.11 e um ambiente virtual

GPU NVIDIA com CUDA 12.1

peft

bitsandbytes

Etapa 4: Criar uma conta e um token Hugging Face

FAQ

Stay up to date