IA & LLM

Introdução aos LLMs e SLMs explicada de forma simples (com diagramas e código real)

Introdução LLMs SLMs: o essencial em um artigo — código real, diagramas e etapas concretas, extratos de um curso de 44 lições.

REHOUMA Haythem

12 Jun 2026 • 10 min read

Um guia direto ao ponto: Introdução LLMs SLMs dissecado com diagramas, exemplos concretos e comandos testados. Tudo vem de um curso estruturado de 11 capítulos — aqui está o melhor.

tl;dr

Introdução e Instalação
Como Funciona um LLM
Arquitetura Transformer
Panorama dos LLMs em 2026
Os SLMs Small Language Models

~$ cat ./parcours.md # Introduction LLMs SLMs — 10 capítulos

Introdução e Instalação

→ Apresentação do curso e breve história dos LLMs→ Instalar Ollama e executar seu primeiro modelo+ 1 mais lições

Como Funciona um LLM

→ Tokens : como o modelo vê o texto→ Janela de contexto (context window)+ 2 mais lições

Arquitetura Transformer

→ O paper "Attention is All You Need" explicado de forma simples→ Encoder vs Decoder vs Encoder-Decoder+ 2 mais lições

Panorama dos LLMs em 2026

→ LLMs proprietários : OpenAI, Anthropic, Google→ Modelos open-weights : Llama, Mistral, Qwen, Gemma+ 2 mais lições

Os SLMs Small Language Models

→ SLM vs LLM : definição e limiar→ Panorama : Phi-3, Gemma, TinyLlama, Qwen-small+ 2 mais lições

Inferência Local Com Ollama

→ Comandos Ollama essenciais→ Quantização : Q4, Q5, Q8 explicadas+ 2 mais lições

Hugging Face Transformers

→ Instalação e primeiro pipeline→ AutoModel e AutoTokenizer+ 2 mais lições

Escolher o Modelo Certo

→ Critérios : custo, latência, privacidade, qualidade→ Matriz de decisão LLM cloud / open / SLM+ 1 mais lições

🏁

Projeto final (+ 2 capítulos no caminho)

→ Você sai com um projeto concreto e demonstrável

Instalar Ollama e executar seu primeiro modelo

NOTEObjetivo — Instalar Ollama no Windows, macOS ou Linux, baixar seu primeiro modelo e ter uma conversa completa com um LLM rodando totalmente em local na sua máquina, sem qualquer conexão com a Internet após o download inicial.

Objetivos pedagógicos

TIPAo final deste módulo

Instalar Ollama no seu sistema operacional
Verificar se o serviço está rodando corretamente
Baixar um modelo da biblioteca Ollama
Iniciar uma conversa com um modelo local
Entender onde os modelos são armazenados na sua máquina
Conhecer os comandos básicos do Ollama

Por que Ollama?

Ollama é uma ferramenta open-source que simplifica radicalmente o uso de LLMs em local. Onde antes era necessário gerenciar manualmente a quantização, os bindings de GPU e as dependências Python, o Ollama oferece um binário único e um comando tão simples quanto ollama run llama3. Tornou-se em 2026 a referência para rodar um LLM no seu laptop.

Simplicidade

Um único comando para baixar e executar um modelo. Sem configuração manual de GPU.

Multiplataforma

Windows, macOS (Apple Silicon) e Linux. Otimizado automaticamente para CPU e GPU.

API REST integrada

Ollama expõe uma API local em http://localhost:11434 para integrar em seus apps.

Instalação passo a passo

Acesse https://ollama.com/download e escolha seu sistema. A instalação leva menos de dois minutos.

Windows

TIPDica: digite /bye para sair da conversa e /? para ver todos os comandos disponíveis no modo interativo do Ollama.

Onde os modelos são armazenados?

Os modelos podem ser volumosos. Saber onde eles ficam evita surpresas desagradáveis de armazenamento.

SO	Local padrão
Windows	`C:\Users\<seu-nome>\.ollama\models`
macOS	`~/.ollama/models`
Linux	`/usr/share/ollama/.ollama/models`

Para alterar esse local (para um disco externo, por exemplo), defina a variável de ambiente OLLAMA_MODELS antes de iniciar o serviço.

API Ollama e integração Python

NOTEObjetivo — Descobrir a API local do Ollama e chamá-la a partir do Python, para integrar um LLM local em seus próprios scripts e aplicações.

Objetivos pedagógicos

TIPAo final deste módulo

Entender que o Ollama expõe uma API HTTP local
Chamar a API com curl e em Python
Usar a biblioteca Python oficial
Passar um system prompt e opções
Integrar um LLM local em uma aplicação

Ollama também é um servidor

Além da linha de comando, o Ollama roda em segundo plano como um servidor HTTP local, acessível em http://localhost:11434. Tudo que a CLI faz, você pode fazer por requisição HTTP, portanto em qualquer linguagem.

A ponte para o código

Do chat no terminal até a API Python, você agora sabe integrar um LLM local em qualquer programa.

Instalação e primeiro pipeline

NOTEObjetivo — Instalar a biblioteca Transformers do Hugging Face e realizar sua primeira inferência em Python com a abstração mais simples: o pipeline.

Objetivos pedagógicos

TIPAo final deste módulo

Instalar Transformers e suas dependências
Entender o que é um pipeline
Executar uma análise de sentimento em 3 linhas
Conhecer as tarefas disponíveis
Carregar um modelo específico em um pipeline

Hugging Face: o GitHub dos modelos

Hugging Face fornece a biblioteca Transformers, que se tornou o padrão para usar modelos open-source em Python. Ela dá acesso a centenas de milhares de modelos por meio de uma interface uniforme.

Tarefas prontas para uso

Tarefa (string)	O que faz
`sentiment-analysis`	Determina se um texto é positivo ou negativo.
`text-generation`	Completa ou gera texto.
`summarization`	Resume um texto longo.
`translation`	Traduz de um idioma para outro.
`question-answering`	Responde a uma pergunta a partir de um contexto fornecido.
`zero-shot-classification`	Classifica um texto em categorias que você define.

Escolher um modelo específico

Para o francês ou uma necessidade específica, indique explicitamente o modelo (seu identificador Hugging Face).

WARNINGAtenção: Os pipelines de geração padrão usam modelos pequenos e antigos (como GPT-2). Não julgue a qualidade dos LLMs modernos por eles: são ferramentas pedagógicas, não modelos de produção.

va-plus-loin

Este artigo cobre os trechos mais úteis — o curso completo Introdução LLMs SLMs (11 capítulos, 44 lições, exercícios corrigidos e projeto final) leva você até o fim.

./acessar-o-curso-completo curso gratuito: Engenharia de prompts

FAQ

Quanto tempo para aprender Introdução LLMs SLMs?

Com uma progressão estruturada (11 capítulos, 44 lições curtas e práticas), você atinge um nível operacional em algumas semanas dedicando 30 a 60 minutos por dia. O importante é praticar cada conceito imediatamente.

É preciso ter pré-requisitos?

Nenhum pré-requisito: o curso começa do zero, cada conceito é introduzido antes de ser usado.

Por onde começar na prática?

Reproduza os comandos deste artigo e depois siga o curso completo Introdução LLMs SLMs: ele encadeia as 44 lições em ordem, com exercícios e projeto final.

./a-lire-aussi

→ Prompts de IA Eficazes: os 9 passos-chave para passar de zero a operacional → Lance-se em Engenharia de Prompts Avançada: seu primeiro passo concreto hoje → Fine Tuning de LLMs explicado de forma simples (com diagramas e código real)

📬 Quer receber este tipo de guia toda semana? Inscreva-se gratuitamente — código real, zero enrolação.

Instalar Ollama e executar seu primeiro modelo

Objetivos pedagógicos

Por que Ollama?

Simplicidade

Multiplataforma

API REST integrada

Instalação passo a passo

Windows

Onde os modelos são armazenados?

API Ollama e integração Python

Objetivos pedagógicos

Ollama também é um servidor

A ponte para o código

Instalação e primeiro pipeline

Objetivos pedagógicos

Hugging Face: o GitHub dos modelos

Tarefas prontas para uso

Escolher um modelo específico

FAQ

Stay up to date