Machine & Deep Learning

Aprendizado por Reforço explicado de forma simples (com diagramas e código real)

Reinforcement Learning: o essencial em um artigo — código real, diagramas e etapas concretas, extraídos de um curso de 45 lições.

REHOUMA Haythem

12 Jun 2026 • 10 min read

Um guia direto ao ponto: Reinforcement Learning dissecado com diagramas, exemplos concretos e comandos testados. Tudo vem de um curso estruturado de 16 capítulos — aqui está o melhor.

tl;dr

Introdução e Instalação
Fundamentos do Reinforcement Learning
Processo de Decisão de Markov
Q-Learning Clássico
Programação Dinâmica

~$ cat ./parcours.md # Reinforcement Learning — 15 capítulos

Introdução e Instalação

→ Apresentação do curso e por que o RL ?→ Instalar Python, Gymnasium e PyTorch+ 1 mais lições

Fundamentos do Reinforcement Learning

→ RL vs supervisionado vs não-supervisionado→ Agente, ambiente, estado, ação, recompensa+ 2 mais lições

Processo de Decisão Markoviano

→ Processo de Decisão Markoviano (MDP) explicado→ Equação de Bellman intuitiva+ 2 mais lições

Q-Learning Clássico

→ Q-Learning : intuição e fórmula→ Implementar uma Q-table em Python+ 2 mais lições

Programação dinâmica

SARSA e Variantes

→ SARSA : a prima on-policy do Q-Learning→ Q-Learning vs SARSA : quando usar o quê+ 2 mais lições

Deep Q-Networks

→ Por que uma rede neural ?→ Arquitetura DQN com PyTorch+ 2 mais lições

Métodos de Monte Carlo

→ Predição de Monte Carlo→ Controle de Monte Carlo+ 1 mais lições

🏁

Projeto final (+ 7 capítulos no caminho)

→ Você sai com um projeto concreto e demonstrável

Primeiro ambiente Gymnasium (FrozenLake)

NOTEObjetivo — Manipular concretamente seu primeiro ambiente Gymnasium. Compreender a interface universal reset / step, o conceito de episódio e fazer um agente aleatório jogar no FrozenLake.

Objetivos pedagógicos

TIPAo final deste módulo

Criar um ambiente com gym.make
Compreender os métodos reset e step
Identificar o espaço de observação e o espaço de ação
Escrever um loop de episódio completo
Executar um agente aleatório e observar sua pontuação

FrozenLake: o campo de jogo

FrozenLake é uma grade de 4x4 casas que representa um lago congelado. O agente começa na casa de partida (S), deve chegar ao presente (G) andando sobre o gelo sólido (F), evitando os buracos (H) onde cai e perde o jogo. Simples, visual, perfeito para iniciantes.

NOTENota: por padrão, FrozenLake é “escorregadio” (is_slippery=True). O agente que quer ir para a direita pode derrapar e parar em outro lugar. Isso adiciona aleatoriedade e torna o problema mais interessante. É possível desativar para começar.

A interface universal: reset e step

Todos os ambientes Gymnasium compartilham a mesma interface, o que torna a escrita de agentes muito prática. Dois métodos são suficientes.

reset()

Reinicia o ambiente ao seu estado inicial e retorna o primeiro estado. É chamado no início de cada episódio (uma partida completa).

step(action)

Executa uma ação e retorna cinco valores: o novo estado, a recompensa, se o episódio terminou, se foi truncado e informações adicionais.

WARNINGAtenção: lembre-se sempre de chamar env.close() ao final, especialmente com renderização gráfica. Caso contrário, janelas fantasmas podem permanecer abertas e consumir memória.

Visualizar o jogo

Para ver o agente jogar na tela, adicione o modo de renderização:

Resolver FrozenLake com Value Iteration

NOTEObjetivo — Colocar em prática Value Iteration no FrozenLake do início ao fim: calcular V*, extrair a política ótima, fazer o agente jogar e medir sua taxa de vitória. Seu primeiro agente que realmente vence.

Objetivos pedagógicos

TIPAo final deste módulo

Escrever Value Iteration completo para FrozenLake
Extrair a política ótima a partir de V*
Avaliar o agente em muitos episódios
Interpretar os valores e a política obtidos
Compreender o efeito do gelo escorregadio

Etapa 1: acessar o modelo do FrozenLake

FrozenLake fornece seu modelo completo via env.unwrapped.P. É um dicionário que fornece, para cada estado e cada ação, a lista de transições possíveis.

Arquitetura DQN com PyTorch

NOTEObjetivo — Construir a rede neural do DQN com PyTorch. Compreender a arquitetura (entrada, camadas ocultas, saída), o papel das funções de ativação e como a rede prevê os valores Q.

Objetivos pedagógicos

TIPAo final deste módulo

Definir uma rede com nn.Module
Escolher o tamanho de entrada e saída conforme o ambiente
Compreender o papel das camadas ocultas e de ReLU
Fazer uma previsão (forward pass)
Compreender que a saída fornece um Q por ação

A anatomia de um DQN

Um DQN para CartPole é uma rede muito simples: recebe os 4 números do estado, passa por duas camadas ocultas e produz 2 valores Q (um por ação: esquerda, direita).

va-plus-loin

Este artigo cobre os trechos mais úteis — o curso completo Reinforcement Learning (16 capítulos, 45 lições, exercícios corrigidos e projeto final) leva você até o fim.

./acceder-au-cours-complet curso gratuito: Dominando o Claude Code

FAQ

Quanto tempo leva para aprender Reinforcement Learning?

Com uma progressão estruturada (16 capítulos, 45 lições curtas e práticas), é possível atingir um nível operacional em algumas semanas dedicando 30 a 60 minutos por dia. O importante é praticar cada conceito imediatamente.

É necessário ter pré-requisitos?

É melhor estar à vontade com os fundamentos da área: este conteúdo vai em profundidade, com casos reais.

Por onde começar concretamente?

Reproduza os comandos deste artigo e depois siga o curso completo Reinforcement Learning: ele encadeia as 45 lições em ordem, com exercícios e projeto final.

./a-lire-aussi

→ Comece agora em Machine Learning para Iniciantes: seu primeiro passo concreto hoje → Machine Learning Simplificado na prática: o código e os comandos que realmente importam → Aprendizado de Máquina com Python: os 9 passos-chave para ir do zero ao operacional

📬 Quer receber este tipo de guia toda semana? Inscreva-se gratuitamente — código real, zero enrolação.

Primeiro ambiente Gymnasium (FrozenLake)

Objetivos pedagógicos

FrozenLake: o campo de jogo

A interface universal: reset e step

reset()

step(action)

Visualizar o jogo

Resolver FrozenLake com Value Iteration

Objetivos pedagógicos

Etapa 1: acessar o modelo do FrozenLake

Arquitetura DQN com PyTorch

Objetivos pedagógicos

A anatomia de um DQN

FAQ

Stay up to date