Data & Big Data

EDA pandas NumPy Matplotlib Seaborn: as 9 etapas-chave para passar de zero a operacional

EDA pandas NumPy Matplotlib Seaborn: o essencial em um artigo — código real, diagramas e etapas concretas, extraídos de um curso de 44 lições.

REHOUMA Haythem

12 Jun 2026 • 12 min read

Todo mundo pode aprender EDA pandas NumPy Matplotlib Seaborn — desde que siga as etapas na ordem correta. Condensamos um curso completo de 44 lições em um percurso claro, com os trechos de código mais úteis.

tl;dr

Introdução à Análise de Dados
Introdução e instalação
Conhecendo os DataFrames Pandas
Limpar e Preparar os Dados
Estatísticas Descritivas e Agregação

~$ cat ./parcours.md # EDA pandas NumPy Matplotlib Seaborn — 9 capítulos

Introdução à Análise de Dados

→ A Análise de Dados — A Profissão do Século→ Capítulo 00 — Fontes dos dados do curso

Introdução e instalação

→ Por que a EDA e essas quatro bibliotecas?→ Instale seu ambiente de trabalho+ 2 mais lições

Dominando os DataFrames Pandas

→ Criar e carregar um DataFrame (CSV, Excel, JSON)→ Explorar um DataFrame — head, info, describe, shape+ 1 mais lições

Limpar e Preparar os Dados

→ Detectar e tratar os valores ausentes→ Remover duplicatas e corrigir os tipos de dados+ 2 mais lições

Estatísticas Descritivas e Agregação

→ Tendência central e dispersão — média, mediana, desvio padrão→ Correlação e covariância entre variáveis+ 1 mais lições

Visualização com Matplotlib

→ Introdução ao Matplotlib: Figure, Axes e subplots→ Gráficos essenciais: barras, linhas, dispersão+ 1 mais lições

Visualização Avançada com Seaborn

→ Introdução ao Seaborn: histplot, boxplot, violinplot→ Visualizar as relações: scatterplot e heatmap de correlação+ 2 mais lições

Análise Exploratória Completa

→ Metodologia EDA: as 5 etapas de uma boa análise→ Detectar os outliers e as anomalias nos dados+ 1 mais lições

🏁

Projeto final (+ 1 capítulos no caminho)

→ Você sai com um projeto concreto e demonstrável

Instalar seu ambiente de trabalho

NOTEO que você vai aprender — Escolher entre Google Colab (instalação zero, no navegador) e Anaconda + Jupyter (instalação local), depois instalar NumPy, Pandas, Matplotlib e Seaborn, e verificar que tudo funciona com um script de teste.

0. Google Colab — A opção instalação zero

Google Colaboratory (Colab) é um ambiente Jupyter gratuito que funciona diretamente no seu navegador, sem instalar nada. Ele roda nos servidores do Google e já inclui NumPy, Pandas, Matplotlib e Seaborn pré-instalados.

TIPAnalogia — Google Colab é como trabalhar em um escritório equipado que o Google empresta gratuitamente. Você não precisa trazer nada: a mesa, as ferramentas e as bibliotecas já estão lá. Você abre seu navegador e começa imediatamente.

Como começar com Google Colab

Verificar as versões pré-instaladas no Colab

Na primeira célula do seu notebook Colab, copie e execute este código:

output

import numpy as np
import pandas as pd
import matplotlib
import seaborn as sns

print("NumPy     :", np.__version__)
print("Pandas    :", pd.__version__)
print("Matplotlib:", matplotlib.__version__)
print("Seaborn   :", sns.__version__)
print("\nTudo pronto. Boa análise!")

output

# Método 1 : Fazer upload de um arquivo do seu computador
from google.colab import files
uploaded = files.upload()   # uma janela de seleção se abre

import pandas as pd
import io
df = pd.read_csv(io.BytesIO(uploaded['mon_fichier.csv']))

# Método 2 : Ler do Google Drive
from google.colab import drive
drive.mount('/content/drive')
df = pd.read_csv('/content/drive/MyDrive/mon_fichier.csv')

# Método 3 : Ler diretamente de uma URL pública
df = pd.read_csv('https://raw.githubusercontent.com/exemple/repo/main/data.csv')

Python sozinho

Anaconda (recomendado)

TIPAnalogia — Escolher entre Python sozinho e Anaconda é como escolher entre comprar móveis IKEA peça por peça ou comprar um apartamento já mobiliado. Os dois funcionam, mas o Anaconda faz você ganhar um tempo considerável no início.

2. etapa 1 — Baixar e instalar o Anaconda

Download

Instalação no Windows

WARNINGApenas Windows — Se você não marcar « Add Anaconda to PATH », use sempre o Anaconda Prompt (e não o terminal Windows comum) para executar seus comandos conda e jupyter.

Verificação da instalação

Abra o Anaconda Prompt (Windows) ou o Terminal (macOS/Linux) e digite:

output

conda --version

output

# Criar um ambiente chamado "eda-cours" com Python 3.11
conda create -n eda-cours python=3.11

# Ativar o ambiente
conda activate eda-cours

# Verificar que o ambiente está ativo (o nome aparece entre parênteses)
# (eda-cours) C:\Users\votre_nom>

Opção A — Com conda (recomendado)

output

# Instalar todas as bibliotecas em um único comando
conda install numpy pandas matplotlib seaborn jupyter -y

Lançamento pelo terminal

output

# Certifique-se de que seu ambiente está ativo
conda activate eda-cours

# Iniciar o Jupyter Notebook
jupyter notebook

Capítulo 08 – Introdução às bibliotecas em ciências de dados

NOTEObjetivos do módulo

Compreender o que é uma biblioteca Python
Importar uma biblioteca (import)
Importar um módulo específico de uma biblioteca (from ... import)
Usar aliases (import numpy as np)
Usar a biblioteca math como primeiro exemplo
Instalar, atualizar e verificar a configuração de uma biblioteca com PIP

1. O que é uma biblioteca?

As bibliotecas são séries de módulos já prontos, permitindo realizar processamentos complexos em poucas linhas. Elas são muito numerosas:

💻 Bibliotecas CPU Padrão

🌞 Bibliotecas GPU NVIDIA RAPIDS

2. Importar uma biblioteca — a biblioteca `math`

A biblioteca math é o exemplo perfeito para entender os imports. Ela é integrada ao Python, nenhuma instalação é necessária.

Documentação oficial : docs.python.org/2/library/math.html

2.1 Import completo

output

import math

# Arredondar para cima
print(math.ceil(0.1))    # arredonda para cima

NOTERegra — %command se aplica a uma única linha. %%command se aplica a toda a célula. O comando %% deve estar na primeira linha da célula.

6.1 Medir o tempo de execução

Comando	Descrição	Exemplo
`%time`	Mede o tempo de uma única linha	`%time sum(range(1_000_000))`
`%%time`	Mede o tempo de toda a célula	Colocar na 1ª linha da célula
`%timeit`	Executa a linha N vezes, dá a média	`%timeit sum(range(1_000_000))`
`%%timeit`	Executa a célula N vezes, dá a média	Colocar na 1ª linha da célula

output

%%time
# %%time — mede o tempo TOTAL da célula (1 única execução)
import numpy as np
a = np.random.randn(1_000_000)
result = np.sort(a)

output

%timeit np.random.randn(1_000_000)
# %timeit — executa a linha várias vezes para uma medição precisa

output

%%timeit
# %%timeit — medição precisa de toda a célula (várias execuções)
import numpy as np
a = np.random.randn(10_000)
np.sort(a)

TIPQuando usar o quê?
• %%time → para medir rapidamente uma célula (1 execução)
• %%timeit → para um benchmark confiável (várias execuções, média)
• %timeit → para comparar duas expressões em uma única linha

6.2 Profiling — analisar o desempenho em detalhe

output

%prun sum(range(1_000_000))
# Exibe o tempo gasto em cada função chamada

output

%%prun
# Profiling de toda a célula
import numpy as np
a = np.random.randn(100_000)
b = np.sort(a)
c = np.cumsum(b)

Capítulo 08 – Prática 2 : Pandas — Manipulação de DataFrames (CPU)

NOTEPandas

Ultra popular em data science
Permite a manipulação de tabelas de dados muito grandes (um tipo de Excel turbinado)
Enorme quantidade de funcionalidades (filtros, reprocessamentos, análises…)
Permite fazer a ponte com outras bibliotecas (ML, data viz…)

1. Criar um DataFrame

1.1 A partir de um dicionário

output

import pandas as pd

produitsDict = {
    'smartphone': {'prix': 1000, 'enStock': True},
    'chaussures':  {'prix': 100,  'enStock': False},
    'console':     {'prix': 400,  'enStock': True}
}
print(produitsDict)

df = pd.DataFrame(produitsDict)
df

1.2 A partir de uma lista de listas

output

pays = [
    [70, 55, 85],           # Population en millions
    [0.901, 0.922, 0.936],  # IDH
    [2091, 2077, 3045]      # PIB
]
df = pd.DataFrame(pays, columns=['France', 'Angleterre', 'Allemagne'])
df

1.3 Importar um arquivo CSV

output

import pandas as pd

data = pd.read_csv('metal-bands.csv', encoding='latin-1', sep=';')
data.head()

2. Primeiro reconhecimento dos dados

output

data.head(3)          # 3 primeiras linhas
data.info()           # types, valores non-nulles, mémoire
data.dtypes           # type de chaque colonne
data.fans.dtypes      # type d'une colonne spécifique
data.shape            # (lignes, colonnes)
len(data)             # nombre de lignes

3. Navegação em um DataFrame — `iloc` e `loc`

NOTERegra — iloc = índice numérico (posição). loc = índice por rótulo (nome de linha/coluna).

3.1 Selecionar uma ou várias colunas

output

data['band_name'].head(10)             # 1 coluna
data[['band_name', 'fans']].head(15)   # várias colunas

3.2 `iloc` — por posição numérica

output

data.iloc[0, 0]        # linha 0, coluna 0
data.iloc[0:5, 0]      # linhas 0-4, coluna 0
data.iloc[0, 0:5]      # linha 0, colunas 0-4
data.iloc[0:3, 0:5]    # bloco 3 linhas x 5 colunas

va-plus-loin

Este artigo cobre os trechos mais úteis — o curso completo EDA pandas NumPy Matplotlib Seaborn (12 capítulos, 44 lições, exercícios corrigidos e projeto final) leva você até o fim.

./acceder-au-cours-complet curso gratuito : Dominar o Claude Code

FAQ

Quanto tempo para aprender EDA pandas NumPy Matplotlib Seaborn?

Com uma progressão estruturada (12 capítulos, 44 lições curtas e práticas), você atinge um nível operacional em algumas semanas dedicando 30 a 60 minutos por dia. O importante é praticar cada conceito imediatamente.

É preciso ter pré-requisitos?

Básicos de informática são suficientes. Se você sabe usar um terminal e ler código simples, está pronto.

Por onde começar concretamente?

Reproduza os comandos deste artigo, depois siga o curso completo EDA pandas NumPy Matplotlib Seaborn: ele encadeia as 44 lições na ordem, com exercícios e projeto final.

./a-lire-aussi

→ AWS Data Engineering Bootcamp explicado de forma simples (com diagramas e código real)→ Lance-se no AWS Dados em Tempo Real: seu primeiro passo concreto hoje → Python Data Science: as 9 etapas-chave para passar de zero a operacional

📬 Quer receber este tipo de guia toda semana? Inscreva-se gratuitamente — código real, zero enrolação.

Instalar seu ambiente de trabalho

0. Google Colab — A opção instalação zero

Como começar com Google Colab

Verificar as versões pré-instaladas no Colab

Python sozinho

Anaconda (recomendado)

2. etapa 1 — Baixar e instalar o Anaconda

Download

Instalação no Windows

Verificação da instalação

Opção A — Com conda (recomendado)

Lançamento pelo terminal

Capítulo 08 – Introdução às bibliotecas em ciências de dados

1. O que é uma biblioteca?

💻 Bibliotecas CPU Padrão

🌞 Bibliotecas GPU NVIDIA RAPIDS

2. Importar uma biblioteca — a biblioteca math

2.1 Import completo

6.1 Medir o tempo de execução

6.2 Profiling — analisar o desempenho em detalhe

Capítulo 08 – Prática 2 : Pandas — Manipulação de DataFrames (CPU)

1. Criar um DataFrame

1.1 A partir de um dicionário

1.2 A partir de uma lista de listas

1.3 Importar um arquivo CSV

2. Primeiro reconhecimento dos dados

3. Navegação em um DataFrame — iloc e loc

3.1 Selecionar uma ou várias colunas

3.2 iloc — por posição numérica

FAQ

Stay up to date

2. Importar uma biblioteca — a biblioteca `math`

3. Navegação em um DataFrame — `iloc` e `loc`

3.2 `iloc` — por posição numérica