Machine & Deep Learning

Comece no Machine Learning para Iniciantes: seu primeiro passo concreto hoje

Machine Learning para Iniciantes: o essencial em um artigo — código real, diagramas e etapas concretas, extratos de um curso de 44 lições.

REHOUMA Haythem

12 Jun 2026 • 12 min read

A melhor forma de aprender Machine Learning para Iniciantes é fazendo. Este artigo te dá o pontapé inicial com trechos práticos extraídos de um curso de 44 lições — o suficiente para obter um primeiro resultado já hoje.

tl;dr

Introdução e Primeiros Passos
Aprender com Dados
As Três Grandes Famílias de ML
Classificação vs Regressão
Primeiro Modelo com Orange

~$ cat ./parcours.md # Machine Learning para Iniciantes — 10 capítulos

Introdução e Primeiros Passos

→ Apresentação do curso e o que é ML ?→ O ML ao seu redor — 10 exemplos do dia a dia+ 1 mais lições

Aprendendo com Dados

→ Dados, exemplos e rótulos→ Encontrando padrões — intuição visual+ 2 mais lições

As Três Grandes Famílias de ML

→ Aprendizado supervisionado — prever com exemplos→ Aprendizado não supervisionado — encontrar grupos+ 2 mais lições

Classificação vs Regressão

→ Classificação — categorizar coisas→ Regressão — prever um número+ 2 mais lições

Primeiro Modelo com Orange

→ Instalar Orange e tour pela interface→ Carregar um dataset Titanic e explorá-lo+ 2 mais lições

Avaliar um Modelo

→ Precisão (accuracy) — útil mas enganosa→ Matriz de confusão — ler os erros+ 2 mais lições

Sobreajuste e Subajuste

→ Underfitting — o modelo muito burro→ Overfitting — o modelo que aprende de cor+ 2 mais lições

Casos de Uso em Negócios

→ Marketing — segmentação e anti-churn→ Finanças — scoring de crédito e fraude+ 1 mais lições

🏁

Projeto final (+ 2 capítulos no caminho)

→ Você sai com um projeto concreto e demonstrável

Treinamento vs teste — por que separar?

NOTEObjetivo — Compreender por que sempre devemos separar os dados em dois conjuntos (treinamento e teste), como isso permite avaliar a verdadeira capacidade de generalização de um modelo e evitar a armadilha principal de testar nos dados de treinamento.

Objetivos pedagógicos

TIPAo final deste módulo

Compreender a diferença entre memorizar e generalizar
Conhecer as proporções clássicas de separação (80/20, 70/30)
Distinguir conjunto de treinamento, validação e teste
Compreender a validação cruzada (cross-validation)
Identificar a armadilha do 'data leakage'

A armadilha: testar nos dados de treinamento

Imagine um estudante que se prepara para um exame. O professor lhe dá 50 exercícios com suas correções e diz "estude-os bem". No dia do exame, o professor coloca os mesmos 50 exercícios. O estudante pode tirar 100% sem entender nada: ele apenas memorizou.

É exatamente o que acontece se você testar um modelo de ML nos dados com os quais ele foi treinado. Um modelo superparametrizado pode "decorar" os exemplos e obter 100% no treinamento, sendo totalmente inútil em dados novos.

WARNINGRegra absoluta: os dados usados para treinar um modelo nunca devem servir para avaliá-lo. Sem separação, suas métricas são enganosas.

A solução: o train/test split

A solução é simples: dividimos o dataset em 2 partes aleatoriamente antes do treinamento.

Conjunto de treinamento (train)

70 a 80% dos dados. Serve para treinar o modelo. É o "caderno de exercícios com correções" que o estudante estuda.

Conjunto de teste (test)

20 a 30% dos dados. Serve para avaliar o modelo após o treinamento. É o exame final com exercícios nunca vistos.

Conjunto	Proporção	Função
Train	60–70%	Treinar os parâmetros do modelo
Validation	15–20%	Ajustar hiperparâmetros, comparar vários modelos
Test	15–20%	Avaliação final, uma única vez, no final

Por que 3 conjuntos? Porque se você ajustar seu modelo olhando os resultados do teste, acaba "superotimizando" para aquele teste específico: ele se torna uma forma de treinamento indireto.

TIPRegra de ouro: o conjunto de teste só deve ser tocado uma única vez, no final do projeto, para gerar o número oficial. Todas as experimentações intermediárias são feitas no conjunto de validação.

A validação cruzada (k-fold cross-validation)

Problema do simples train/test split: o resultado depende de quais dados caíram no teste. Um sorteio ruim = métrica pessimista ou otimista.

A validação cruzada com k dobras resolve isso fazendo a média de vários splits:

O data leakage: a armadilha invisível

O data leakage (vazamento de dados) é o erro mais sutil e mais frequente. Ele ocorre quando informações do teste "vazam" para o treinamento, gerando resultados artificialmente bons na validação, mas catastróficos em produção.

Exemplos típicos

Como evitá-lo

WARNINGSintoma característico: modelo com 99% na validação, 60% em produção. Quase sempre é data leakage.

Visualizar o modelo e suas previsões

NOTEObjetivo — Visualizar a árvore de decisão treinada e observar suas previsões em novos passageiros, para entender concretamente o que o modelo aprendeu.

Objetivos pedagógicos

TIPAo final deste módulo

Visualizar uma árvore com o widget Tree Viewer
Ler as regras aprendidas pelo modelo
Fazer previsões com o widget Predictions
Completar o primeiro fluxo de trabalho completo

Ver a árvore: o widget Tree Viewer

A grande vantagem da árvore de decisão é que podemos ver ela. O widget Tree Viewer desenha a árvore ramo por ramo, com suas perguntas e respostas.

TIPDica: essa transparência é um grande trunfo. Em contexto profissional, poder explicar por que o modelo decide é muitas vezes tão importante quanto sua precisão.

Fazer previsões: o widget Predictions

Para aplicar o modelo a novos casos, usamos o widget Predictions. Ele recebe duas entradas: o modelo treinado e os dados a prever.

Encontrar padrões — intuição visual

NOTEObjetivo — Compreender intuitivamente o que é um 'pattern' (padrão recorrente) nos dados, como uma máquina pode detectá-los visualmente e por que essa detecção permite depois fazer previsões em novos casos.

Objetivos pedagógicos

TIPAo final deste módulo

Definir o que é um pattern em ML
Visualizar um pattern em um gráfico de dispersão
Compreender a noção de fronteira de decisão
Distinguir um pattern simples (linear) de um pattern complexo (não linear)
Entender a ligação entre pattern detectado e generalização

O que é um pattern?

Um pattern (em português: padrão recorrente) é uma regularidade estatística nos dados. É isso que a máquina busca detectar para poder fazer previsões.

NOTEO desafio fundamental: se o modelo encontrar um pattern verdadeiro (que se repete na realidade), ele pode reutilizá-lo em novos dados. Isso é o que chamamos de generalização: aplicar o que foi aprendido a casos nunca vistos.

Visualização: um gráfico de dispersão e sua fronteira

A forma mais simples de visualizar um pattern: um gráfico com 2 features. Vamos imaginar um dataset de flores com 2 características (comprimento da pétala, largura da pétala) e 2 espécies (A e B).

TIPEssa é a essência do ML supervisionado: encontrar uma fronteira (ou uma função) que separe ou preveja corretamente os exemplos observados, esperando que ela funcione também nos exemplos futuros.

Patterns lineares vs não lineares

Todos os patterns não têm a mesma complexidade.

Pattern linear

A fronteira é uma linha reta (ou um plano em 3D, um hiperplano em N dimensões).

Exemplo: "quanto maior a dose de açúcar, maior o risco de diabetes" (relação direta).

Algoritmos adequados: regressão linear, regressão logística, SVM linear.

Pattern não linear

A fronteira é curva, em espiral, em formas complexas.

Exemplo: "o risco de câncer aumenta com a idade, mas também depende de combinações complexas (genética, estilo de vida)".

Algoritmos adequados: árvores de decisão, florestas aleatórias, redes neurais, XGBoost.

WARNINGArmadilha clássica: usar um modelo linear em um problema não linear = subajuste (o modelo é simples demais). Inversamente, usar um modelo muito complexo em um problema simples = sobreajuste (o modelo aprende ruído). Veremos isso em detalhes no capítulo 06.

O pattern não é a regra definitiva: apenas uma aproximação

Importante: um pattern de ML nunca é uma regra absoluta. É uma tendência estatística. O modelo fornece probabilidades, não certezas.

Pattern detectado	Casos em que funciona	Casos em que falha
"E-mail com 'ganhe 1M€' = spam"	95% dos casos	Loteria oficial realmente ganha
"Jovem + saldo baixo = cancela"	70% dos casos	Estudante que permanece cliente 30 anos
"Pixels vermelhos redondos = maçã"	80% dos casos	Tomate, morango, bola

É por isso que todo modelo de ML é avaliado por métricas (precisão, recall etc.). Não buscamos a perfeição, mas a melhor performance possível — sabendo que sempre haverá erros.

Por que a dimensão muda tudo: a maldição da dimensionalidade

Quando temos 2 features, podemos desenhar um gráfico 2D e ver os patterns. Com 3 features, ainda é possível (3D). Mas na prática, os datasets costumam ter 10, 100, às vezes 1000 features. Visualizar torna-se impossível.

va-plus-loin

Este artigo cobre os trechos mais úteis — o curso completo Machine Learning para Iniciantes (11 capítulos, 44 lições, exercícios corrigidos e projeto final) leva você até o fim.

./acessar-o-curso-completo curso gratuito: Dominando o Claude Code

FAQ

Quanto tempo leva para aprender Machine Learning para Iniciantes?

Com uma progressão estruturada (11 capítulos, 44 lições curtas e práticas), você atinge um nível operacional em algumas semanas dedicando 30 a 60 minutos por dia. O importante é praticar cada conceito imediatamente.

É preciso ter pré-requisitos?

Nenhum pré-requisito: o curso começa do zero, cada conceito é introduzido antes de ser usado.

Por onde começar na prática?

Reproduza os comandos deste artigo e depois siga o curso completo Machine Learning para Iniciantes: ele encadeia as 44 lições em ordem, com exercícios e projeto final.

./leia-também

→ Machine Learning Simplificado na prática: o código e os comandos que realmente importam → Aprendizado de Máquina em Python: os 9 passos essenciais para ir do zero ao operacional → Comece agora com Python scikit-learn: seu primeiro passo concreto hoje

📬 Quer receber este tipo de guia toda semana? Inscreva-se gratuitamente — código real, zero enrolação.

Treinamento vs teste — por que separar?

Objetivos pedagógicos

A armadilha: testar nos dados de treinamento

A solução: o train/test split

Conjunto de treinamento (train)

Conjunto de teste (test)

A validação cruzada (k-fold cross-validation)

O data leakage: a armadilha invisível

Exemplos típicos

Como evitá-lo

Visualizar o modelo e suas previsões

Objetivos pedagógicos

Ver a árvore: o widget Tree Viewer

Fazer previsões: o widget Predictions

Encontrar padrões — intuição visual

Objetivos pedagógicos

O que é um pattern?

Visualização: um gráfico de dispersão e sua fronteira

Patterns lineares vs não lineares

Pattern linear

Pattern não linear

O pattern não é a regra definitiva: apenas uma aproximação

Por que a dimensão muda tudo: a maldição da dimensionalidade

FAQ

Stay up to date