Introdução aos LLMs e SLMs explicada de forma simples (com diagramas e código real)

Introdução LLMs SLMs: o essencial em um artigo — código real, diagramas e etapas concretas, extratos de um curso de 44 lições.

Introdução aos LLMs e SLMs explicada de forma simples (com diagramas e código real)

Um guia direto ao ponto: Introdução LLMs SLMs dissecado com diagramas, exemplos concretos e comandos testados. Tudo vem de um curso estruturado de 11 capítulos — aqui está o melhor.

tl;dr
  • Introdução e Instalação
  • Como Funciona um LLM
  • Arquitetura Transformer
  • Panorama dos LLMs em 2026
  • Os SLMs Small Language Models
~$ cat ./parcours.md # Introduction LLMs SLMs — 10 capítulos
01
Introdução e Instalação
→ Apresentação do curso e breve história dos LLMs→ Instalar Ollama e executar seu primeiro modelo+ 1 mais lições
02
Como Funciona um LLM
→ Tokens : como o modelo vê o texto→ Janela de contexto (context window)+ 2 mais lições
03
Arquitetura Transformer
→ O paper "Attention is All You Need" explicado de forma simples→ Encoder vs Decoder vs Encoder-Decoder+ 2 mais lições
04
Panorama dos LLMs em 2026
→ LLMs proprietários : OpenAI, Anthropic, Google→ Modelos open-weights : Llama, Mistral, Qwen, Gemma+ 2 mais lições
05
Os SLMs Small Language Models
→ SLM vs LLM : definição e limiar→ Panorama : Phi-3, Gemma, TinyLlama, Qwen-small+ 2 mais lições
06
Inferência Local Com Ollama
→ Comandos Ollama essenciais→ Quantização : Q4, Q5, Q8 explicadas+ 2 mais lições
07
Hugging Face Transformers
→ Instalação e primeiro pipeline→ AutoModel e AutoTokenizer+ 2 mais lições
08
Escolher o Modelo Certo
→ Critérios : custo, latência, privacidade, qualidade→ Matriz de decisão LLM cloud / open / SLM+ 1 mais lições
🏁
Projeto final (+ 2 capítulos no caminho)
→ Você sai com um projeto concreto e demonstrável

Instalar Ollama e executar seu primeiro modelo

NOTEObjetivo — Instalar Ollama no Windows, macOS ou Linux, baixar seu primeiro modelo e ter uma conversa completa com um LLM rodando totalmente em local na sua máquina, sem qualquer conexão com a Internet após o download inicial.

Objetivos pedagógicos

TIPAo final deste módulo
  • Instalar Ollama no seu sistema operacional
  • Verificar se o serviço está rodando corretamente
  • Baixar um modelo da biblioteca Ollama
  • Iniciar uma conversa com um modelo local
  • Entender onde os modelos são armazenados na sua máquina
  • Conhecer os comandos básicos do Ollama

Por que Ollama?

Ollama é uma ferramenta open-source que simplifica radicalmente o uso de LLMs em local. Onde antes era necessário gerenciar manualmente a quantização, os bindings de GPU e as dependências Python, o Ollama oferece um binário único e um comando tão simples quanto ollama run llama3. Tornou-se em 2026 a referência para rodar um LLM no seu laptop.

Simplicidade

Um único comando para baixar e executar um modelo. Sem configuração manual de GPU.

Multiplataforma

Windows, macOS (Apple Silicon) e Linux. Otimizado automaticamente para CPU e GPU.

API REST integrada

Ollama expõe uma API local em http://localhost:11434 para integrar em seus apps.

Instalação passo a passo

Acesse https://ollama.com/download e escolha seu sistema. A instalação leva menos de dois minutos.

Windows

TIPDica: digite /bye para sair da conversa e /? para ver todos os comandos disponíveis no modo interativo do Ollama.

Onde os modelos são armazenados?

Os modelos podem ser volumosos. Saber onde eles ficam evita surpresas desagradáveis de armazenamento.

SOLocal padrão
WindowsC:\Users\<seu-nome>\.ollama\models
macOS~/.ollama/models
Linux/usr/share/ollama/.ollama/models

Para alterar esse local (para um disco externo, por exemplo), defina a variável de ambiente OLLAMA_MODELS antes de iniciar o serviço.

API Ollama e integração Python

NOTEObjetivo — Descobrir a API local do Ollama e chamá-la a partir do Python, para integrar um LLM local em seus próprios scripts e aplicações.

Objetivos pedagógicos

TIPAo final deste módulo
  • Entender que o Ollama expõe uma API HTTP local
  • Chamar a API com curl e em Python
  • Usar a biblioteca Python oficial
  • Passar um system prompt e opções
  • Integrar um LLM local em uma aplicação

Ollama também é um servidor

Além da linha de comando, o Ollama roda em segundo plano como um servidor HTTP local, acessível em http://localhost:11434. Tudo que a CLI faz, você pode fazer por requisição HTTP, portanto em qualquer linguagem.

A ponte para o código

Do chat no terminal até a API Python, você agora sabe integrar um LLM local em qualquer programa.

Instalação e primeiro pipeline

NOTEObjetivo — Instalar a biblioteca Transformers do Hugging Face e realizar sua primeira inferência em Python com a abstração mais simples: o pipeline.

Objetivos pedagógicos

TIPAo final deste módulo
  • Instalar Transformers e suas dependências
  • Entender o que é um pipeline
  • Executar uma análise de sentimento em 3 linhas
  • Conhecer as tarefas disponíveis
  • Carregar um modelo específico em um pipeline

Hugging Face: o GitHub dos modelos

Hugging Face fornece a biblioteca Transformers, que se tornou o padrão para usar modelos open-source em Python. Ela dá acesso a centenas de milhares de modelos por meio de uma interface uniforme.

Tarefas prontas para uso

Tarefa (string)O que faz
sentiment-analysisDetermina se um texto é positivo ou negativo.
text-generationCompleta ou gera texto.
summarizationResume um texto longo.
translationTraduz de um idioma para outro.
question-answeringResponde a uma pergunta a partir de um contexto fornecido.
zero-shot-classificationClassifica um texto em categorias que você define.

Escolher um modelo específico

Para o francês ou uma necessidade específica, indique explicitamente o modelo (seu identificador Hugging Face).

WARNINGAtenção: Os pipelines de geração padrão usam modelos pequenos e antigos (como GPT-2). Não julgue a qualidade dos LLMs modernos por eles: são ferramentas pedagógicas, não modelos de produção.
va-plus-loin

Este artigo cobre os trechos mais úteis — o curso completo Introdução LLMs SLMs (11 capítulos, 44 lições, exercícios corrigidos e projeto final) leva você até o fim.

./acessar-o-curso-completo curso gratuito: Engenharia de prompts

FAQ

Quanto tempo para aprender Introdução LLMs SLMs?
Com uma progressão estruturada (11 capítulos, 44 lições curtas e práticas), você atinge um nível operacional em algumas semanas dedicando 30 a 60 minutos por dia. O importante é praticar cada conceito imediatamente.
É preciso ter pré-requisitos?
Nenhum pré-requisito: o curso começa do zero, cada conceito é introduzido antes de ser usado.
Por onde começar na prática?
Reproduza os comandos deste artigo e depois siga o curso completo Introdução LLMs SLMs: ele encadeia as 44 lições em ordem, com exercícios e projeto final.

📬 Quer receber este tipo de guia toda semana? Inscreva-se gratuitamente — código real, zero enrolação.