EDA pandas NumPy Matplotlib Seaborn: as 9 etapas-chave para passar de zero a operacional
EDA pandas NumPy Matplotlib Seaborn: o essencial em um artigo — código real, diagramas e etapas concretas, extraídos de um curso de 44 lições.
Todo mundo pode aprender EDA pandas NumPy Matplotlib Seaborn — desde que siga as etapas na ordem correta. Condensamos um curso completo de 44 lições em um percurso claro, com os trechos de código mais úteis.
- Introdução à Análise de Dados
- Introdução e instalação
- Conhecendo os DataFrames Pandas
- Limpar e Preparar os Dados
- Estatísticas Descritivas e Agregação
Instalar seu ambiente de trabalho
0. Google Colab — A opção instalação zero
Google Colaboratory (Colab) é um ambiente Jupyter gratuito que funciona diretamente no seu navegador, sem instalar nada. Ele roda nos servidores do Google e já inclui NumPy, Pandas, Matplotlib e Seaborn pré-instalados.
Como começar com Google Colab
Verificar as versões pré-instaladas no Colab
Na primeira célula do seu notebook Colab, copie e execute este código:
import numpy as np
import pandas as pd
import matplotlib
import seaborn as sns
print("NumPy :", np.__version__)
print("Pandas :", pd.__version__)
print("Matplotlib:", matplotlib.__version__)
print("Seaborn :", sns.__version__)
print("\nTudo pronto. Boa análise!")# Método 1 : Fazer upload de um arquivo do seu computador
from google.colab import files
uploaded = files.upload() # uma janela de seleção se abre
import pandas as pd
import io
df = pd.read_csv(io.BytesIO(uploaded['mon_fichier.csv']))
# Método 2 : Ler do Google Drive
from google.colab import drive
drive.mount('/content/drive')
df = pd.read_csv('/content/drive/MyDrive/mon_fichier.csv')
# Método 3 : Ler diretamente de uma URL pública
df = pd.read_csv('https://raw.githubusercontent.com/exemple/repo/main/data.csv')Python sozinho
Anaconda (recomendado)
2. etapa 1 — Baixar e instalar o Anaconda
Download
Instalação no Windows
Verificação da instalação
Abra o Anaconda Prompt (Windows) ou o Terminal (macOS/Linux) e digite:
conda --version
# Criar um ambiente chamado "eda-cours" com Python 3.11 conda create -n eda-cours python=3.11 # Ativar o ambiente conda activate eda-cours # Verificar que o ambiente está ativo (o nome aparece entre parênteses) # (eda-cours) C:\Users\votre_nom>
Opção A — Com conda (recomendado)
# Instalar todas as bibliotecas em um único comando conda install numpy pandas matplotlib seaborn jupyter -y
Lançamento pelo terminal
# Certifique-se de que seu ambiente está ativo conda activate eda-cours # Iniciar o Jupyter Notebook jupyter notebook
Capítulo 08 – Introdução às bibliotecas em ciências de dados
- Compreender o que é uma biblioteca Python
- Importar uma biblioteca (
import) - Importar um módulo específico de uma biblioteca (
from ... import) - Usar aliases (
import numpy as np) - Usar a biblioteca
mathcomo primeiro exemplo - Instalar, atualizar e verificar a configuração de uma biblioteca com PIP
1. O que é uma biblioteca?
As bibliotecas são séries de módulos já prontos, permitindo realizar processamentos complexos em poucas linhas. Elas são muito numerosas:
💻 Bibliotecas CPU Padrão
🌞 Bibliotecas GPU NVIDIA RAPIDS
2. Importar uma biblioteca — a biblioteca math
A biblioteca math é o exemplo perfeito para entender os imports. Ela é integrada ao Python, nenhuma instalação é necessária.
Documentação oficial : docs.python.org/2/library/math.html
2.1 Import completo
import math # Arredondar para cima print(math.ceil(0.1)) # arredonda para cima
%command se aplica a uma única linha. %%command se aplica a toda a célula. O comando %% deve estar na primeira linha da célula.6.1 Medir o tempo de execução
| Comando | Descrição | Exemplo |
|---|---|---|
%time | Mede o tempo de uma única linha | %time sum(range(1_000_000)) |
%%time | Mede o tempo de toda a célula | Colocar na 1ª linha da célula |
%timeit | Executa a linha N vezes, dá a média | %timeit sum(range(1_000_000)) |
%%timeit | Executa a célula N vezes, dá a média | Colocar na 1ª linha da célula |
%%time # %%time — mede o tempo TOTAL da célula (1 única execução) import numpy as np a = np.random.randn(1_000_000) result = np.sort(a)
%timeit np.random.randn(1_000_000) # %timeit — executa a linha várias vezes para uma medição precisa
%%timeit # %%timeit — medição precisa de toda a célula (várias execuções) import numpy as np a = np.random.randn(10_000) np.sort(a)
•
%%time → para medir rapidamente uma célula (1 execução)•
%%timeit → para um benchmark confiável (várias execuções, média)•
%timeit → para comparar duas expressões em uma única linha6.2 Profiling — analisar o desempenho em detalhe
%prun sum(range(1_000_000)) # Exibe o tempo gasto em cada função chamada
%%prun # Profiling de toda a célula import numpy as np a = np.random.randn(100_000) b = np.sort(a) c = np.cumsum(b)
Capítulo 08 – Prática 2 : Pandas — Manipulação de DataFrames (CPU)
- Ultra popular em data science
- Permite a manipulação de tabelas de dados muito grandes (um tipo de Excel turbinado)
- Enorme quantidade de funcionalidades (filtros, reprocessamentos, análises…)
- Permite fazer a ponte com outras bibliotecas (ML, data viz…)
1. Criar um DataFrame
1.1 A partir de um dicionário
import pandas as pd
produitsDict = {
'smartphone': {'prix': 1000, 'enStock': True},
'chaussures': {'prix': 100, 'enStock': False},
'console': {'prix': 400, 'enStock': True}
}
print(produitsDict)
df = pd.DataFrame(produitsDict)
df1.2 A partir de uma lista de listas
pays = [
[70, 55, 85], # Population en millions
[0.901, 0.922, 0.936], # IDH
[2091, 2077, 3045] # PIB
]
df = pd.DataFrame(pays, columns=['France', 'Angleterre', 'Allemagne'])
df1.3 Importar um arquivo CSV
import pandas as pd
data = pd.read_csv('metal-bands.csv', encoding='latin-1', sep=';')
data.head()2. Primeiro reconhecimento dos dados
data.head(3) # 3 primeiras linhas data.info() # types, valores non-nulles, mémoire data.dtypes # type de chaque colonne data.fans.dtypes # type d'une colonne spécifique data.shape # (lignes, colonnes) len(data) # nombre de lignes
3. Navegação em um DataFrame — iloc e loc
iloc = índice numérico (posição). loc = índice por rótulo (nome de linha/coluna).3.1 Selecionar uma ou várias colunas
data['band_name'].head(10) # 1 coluna data[['band_name', 'fans']].head(15) # várias colunas
3.2 iloc — por posição numérica
data.iloc[0, 0] # linha 0, coluna 0 data.iloc[0:5, 0] # linhas 0-4, coluna 0 data.iloc[0, 0:5] # linha 0, colunas 0-4 data.iloc[0:3, 0:5] # bloco 3 linhas x 5 colunas
Este artigo cobre os trechos mais úteis — o curso completo EDA pandas NumPy Matplotlib Seaborn (12 capítulos, 44 lições, exercícios corrigidos e projeto final) leva você até o fim.
./acceder-au-cours-complet curso gratuito : Dominar o Claude CodeFAQ
Quanto tempo para aprender EDA pandas NumPy Matplotlib Seaborn?
É preciso ter pré-requisitos?
Por onde começar concretamente?
📬 Quer receber este tipo de guia toda semana? Inscreva-se gratuitamente — código real, zero enrolação.