EDA pandas NumPy Matplotlib Seaborn: as 9 etapas-chave para passar de zero a operacional

EDA pandas NumPy Matplotlib Seaborn: o essencial em um artigo — código real, diagramas e etapas concretas, extraídos de um curso de 44 lições.

EDA pandas NumPy Matplotlib Seaborn: as 9 etapas-chave para passar de zero a operacional

Todo mundo pode aprender EDA pandas NumPy Matplotlib Seaborn — desde que siga as etapas na ordem correta. Condensamos um curso completo de 44 lições em um percurso claro, com os trechos de código mais úteis.

tl;dr
  • Introdução à Análise de Dados
  • Introdução e instalação
  • Conhecendo os DataFrames Pandas
  • Limpar e Preparar os Dados
  • Estatísticas Descritivas e Agregação
~$ cat ./parcours.md # EDA pandas NumPy Matplotlib Seaborn — 9 capítulos
01
Introdução à Análise de Dados
→ A Análise de Dados — A Profissão do Século→ Capítulo 00 — Fontes dos dados do curso
02
Introdução e instalação
→ Por que a EDA e essas quatro bibliotecas?→ Instale seu ambiente de trabalho+ 2 mais lições
03
Dominando os DataFrames Pandas
→ Criar e carregar um DataFrame (CSV, Excel, JSON)→ Explorar um DataFrame — head, info, describe, shape+ 1 mais lições
04
Limpar e Preparar os Dados
→ Detectar e tratar os valores ausentes→ Remover duplicatas e corrigir os tipos de dados+ 2 mais lições
05
Estatísticas Descritivas e Agregação
→ Tendência central e dispersão — média, mediana, desvio padrão→ Correlação e covariância entre variáveis+ 1 mais lições
06
Visualização com Matplotlib
→ Introdução ao Matplotlib: Figure, Axes e subplots→ Gráficos essenciais: barras, linhas, dispersão+ 1 mais lições
07
Visualização Avançada com Seaborn
→ Introdução ao Seaborn: histplot, boxplot, violinplot→ Visualizar as relações: scatterplot e heatmap de correlação+ 2 mais lições
08
Análise Exploratória Completa
→ Metodologia EDA: as 5 etapas de uma boa análise→ Detectar os outliers e as anomalias nos dados+ 1 mais lições
🏁
Projeto final (+ 1 capítulos no caminho)
→ Você sai com um projeto concreto e demonstrável

Instalar seu ambiente de trabalho

NOTEO que você vai aprender — Escolher entre Google Colab (instalação zero, no navegador) e Anaconda + Jupyter (instalação local), depois instalar NumPy, Pandas, Matplotlib e Seaborn, e verificar que tudo funciona com um script de teste.

0. Google Colab — A opção instalação zero

Google Colaboratory (Colab) é um ambiente Jupyter gratuito que funciona diretamente no seu navegador, sem instalar nada. Ele roda nos servidores do Google e já inclui NumPy, Pandas, Matplotlib e Seaborn pré-instalados.

TIPAnalogia — Google Colab é como trabalhar em um escritório equipado que o Google empresta gratuitamente. Você não precisa trazer nada: a mesa, as ferramentas e as bibliotecas já estão lá. Você abre seu navegador e começa imediatamente.

Como começar com Google Colab

Verificar as versões pré-instaladas no Colab

Na primeira célula do seu notebook Colab, copie e execute este código:

output
import numpy as np
import pandas as pd
import matplotlib
import seaborn as sns

print("NumPy     :", np.__version__)
print("Pandas    :", pd.__version__)
print("Matplotlib:", matplotlib.__version__)
print("Seaborn   :", sns.__version__)
print("\nTudo pronto. Boa análise!")
output
# Método 1 : Fazer upload de um arquivo do seu computador
from google.colab import files
uploaded = files.upload()   # uma janela de seleção se abre

import pandas as pd
import io
df = pd.read_csv(io.BytesIO(uploaded['mon_fichier.csv']))

# Método 2 : Ler do Google Drive
from google.colab import drive
drive.mount('/content/drive')
df = pd.read_csv('/content/drive/MyDrive/mon_fichier.csv')

# Método 3 : Ler diretamente de uma URL pública
df = pd.read_csv('https://raw.githubusercontent.com/exemple/repo/main/data.csv')

Python sozinho

Anaconda (recomendado)

TIPAnalogia — Escolher entre Python sozinho e Anaconda é como escolher entre comprar móveis IKEA peça por peça ou comprar um apartamento já mobiliado. Os dois funcionam, mas o Anaconda faz você ganhar um tempo considerável no início.

2. etapa 1 — Baixar e instalar o Anaconda

Download

Instalação no Windows

WARNINGApenas Windows — Se você não marcar « Add Anaconda to PATH », use sempre o Anaconda Prompt (e não o terminal Windows comum) para executar seus comandos conda e jupyter.

Verificação da instalação

Abra o Anaconda Prompt (Windows) ou o Terminal (macOS/Linux) e digite:

output
conda --version
output
# Criar um ambiente chamado "eda-cours" com Python 3.11
conda create -n eda-cours python=3.11

# Ativar o ambiente
conda activate eda-cours

# Verificar que o ambiente está ativo (o nome aparece entre parênteses)
# (eda-cours) C:\Users\votre_nom>

Opção A — Com conda (recomendado)

output
# Instalar todas as bibliotecas em um único comando
conda install numpy pandas matplotlib seaborn jupyter -y

Lançamento pelo terminal

output
# Certifique-se de que seu ambiente está ativo
conda activate eda-cours

# Iniciar o Jupyter Notebook
jupyter notebook

Capítulo 08 – Introdução às bibliotecas em ciências de dados

NOTEObjetivos do módulo
  • Compreender o que é uma biblioteca Python
  • Importar uma biblioteca (import)
  • Importar um módulo específico de uma biblioteca (from ... import)
  • Usar aliases (import numpy as np)
  • Usar a biblioteca math como primeiro exemplo
  • Instalar, atualizar e verificar a configuração de uma biblioteca com PIP

1. O que é uma biblioteca?

As bibliotecas são séries de módulos já prontos, permitindo realizar processamentos complexos em poucas linhas. Elas são muito numerosas:

💻 Bibliotecas CPU Padrão

🌞 Bibliotecas GPU NVIDIA RAPIDS

2. Importar uma biblioteca — a biblioteca math

A biblioteca math é o exemplo perfeito para entender os imports. Ela é integrada ao Python, nenhuma instalação é necessária.

Documentação oficial : docs.python.org/2/library/math.html

2.1 Import completo

output
import math

# Arredondar para cima
print(math.ceil(0.1))    # arredonda para cima
NOTERegra%command se aplica a uma única linha. %%command se aplica a toda a célula. O comando %% deve estar na primeira linha da célula.

6.1 Medir o tempo de execução

ComandoDescriçãoExemplo
%timeMede o tempo de uma única linha%time sum(range(1_000_000))
%%timeMede o tempo de toda a célulaColocar na 1ª linha da célula
%timeitExecuta a linha N vezes, dá a média%timeit sum(range(1_000_000))
%%timeitExecuta a célula N vezes, dá a médiaColocar na 1ª linha da célula
output
%%time
# %%time — mede o tempo TOTAL da célula (1 única execução)
import numpy as np
a = np.random.randn(1_000_000)
result = np.sort(a)
output
%timeit np.random.randn(1_000_000)
# %timeit — executa a linha várias vezes para uma medição precisa
output
%%timeit
# %%timeit — medição precisa de toda a célula (várias execuções)
import numpy as np
a = np.random.randn(10_000)
np.sort(a)
TIPQuando usar o quê?
%%time → para medir rapidamente uma célula (1 execução)
%%timeit → para um benchmark confiável (várias execuções, média)
%timeit → para comparar duas expressões em uma única linha

6.2 Profiling — analisar o desempenho em detalhe

output
%prun sum(range(1_000_000))
# Exibe o tempo gasto em cada função chamada
output
%%prun
# Profiling de toda a célula
import numpy as np
a = np.random.randn(100_000)
b = np.sort(a)
c = np.cumsum(b)

Capítulo 08 – Prática 2 : Pandas — Manipulação de DataFrames (CPU)

NOTEPandas
  • Ultra popular em data science
  • Permite a manipulação de tabelas de dados muito grandes (um tipo de Excel turbinado)
  • Enorme quantidade de funcionalidades (filtros, reprocessamentos, análises…)
  • Permite fazer a ponte com outras bibliotecas (ML, data viz…)

1. Criar um DataFrame

1.1 A partir de um dicionário

output
import pandas as pd

produitsDict = {
    'smartphone': {'prix': 1000, 'enStock': True},
    'chaussures':  {'prix': 100,  'enStock': False},
    'console':     {'prix': 400,  'enStock': True}
}
print(produitsDict)

df = pd.DataFrame(produitsDict)
df

1.2 A partir de uma lista de listas

output
pays = [
    [70, 55, 85],           # Population en millions
    [0.901, 0.922, 0.936],  # IDH
    [2091, 2077, 3045]      # PIB
]
df = pd.DataFrame(pays, columns=['France', 'Angleterre', 'Allemagne'])
df

1.3 Importar um arquivo CSV

output
import pandas as pd

data = pd.read_csv('metal-bands.csv', encoding='latin-1', sep=';')
data.head()

2. Primeiro reconhecimento dos dados

output
data.head(3)          # 3 primeiras linhas
data.info()           # types, valores non-nulles, mémoire
data.dtypes           # type de chaque colonne
data.fans.dtypes      # type d'une colonne spécifique
data.shape            # (lignes, colonnes)
len(data)             # nombre de lignes

3. Navegação em um DataFrame — iloc e loc

NOTERegrailoc = índice numérico (posição). loc = índice por rótulo (nome de linha/coluna).

3.1 Selecionar uma ou várias colunas

output
data['band_name'].head(10)             # 1 coluna
data[['band_name', 'fans']].head(15)   # várias colunas

3.2 iloc — por posição numérica

output
data.iloc[0, 0]        # linha 0, coluna 0
data.iloc[0:5, 0]      # linhas 0-4, coluna 0
data.iloc[0, 0:5]      # linha 0, colunas 0-4
data.iloc[0:3, 0:5]    # bloco 3 linhas x 5 colunas
va-plus-loin

Este artigo cobre os trechos mais úteis — o curso completo EDA pandas NumPy Matplotlib Seaborn (12 capítulos, 44 lições, exercícios corrigidos e projeto final) leva você até o fim.

./acceder-au-cours-complet curso gratuito : Dominar o Claude Code

FAQ

Quanto tempo para aprender EDA pandas NumPy Matplotlib Seaborn?
Com uma progressão estruturada (12 capítulos, 44 lições curtas e práticas), você atinge um nível operacional em algumas semanas dedicando 30 a 60 minutos por dia. O importante é praticar cada conceito imediatamente.
É preciso ter pré-requisitos?
Básicos de informática são suficientes. Se você sabe usar um terminal e ler código simples, está pronto.
Por onde começar concretamente?
Reproduza os comandos deste artigo, depois siga o curso completo EDA pandas NumPy Matplotlib Seaborn: ele encadeia as 44 lições na ordem, com exercícios e projeto final.

📬 Quer receber este tipo de guia toda semana? Inscreva-se gratuitamente — código real, zero enrolação.