Data & Big Data

Arquitetura Big Data Fundamentals explicada de forma simples (com diagramas e código real)

Big Data Fundamentals Architecture: o essencial em um artigo — código real, diagramas e etapas concretas, extraídos de um curso de 43 lições.

REHOUMA Haythem

12 Jun 2026 • 12 min read

Um guia direto ao ponto: Big Data Fundamentals Architecture dissecado com diagramas, exemplos concretos e comandos testados. Tudo vem de um curso estruturado de 11 capítulos — aqui está o melhor.

tl;dr

Introdução ao Big Data
Arquiteturas Distribuídas
Ecossistema Hadoop
Apache Spark
Streaming e Tempo Real

~$ cat ./parcours.md # Big Data Fundamentals Architecture — 10 capítulos

Introdução ao Big Data

→ Apresentação do curso e definição do Big Data→ Os 5 V — Volume, Velocidade, Variedade, Veracidade, Valor+ 1 mais lições

Arquiteturas Distribuídas

→ Escalabilidade horizontal vs vertical→ Teorema CAP — consistência, disponibilidade, partição+ 2 mais lições

Ecossistema Hadoop

→ HDFS, armazenamento distribuído massivo→ YARN, gerenciamento de recursos do cluster+ 2 mais lições

Apache Spark

→ Arquitetura Spark : driver, executors, cluster manager→ RDD, DataFrame, Dataset : qual escolher ?+ 2 mais lições

Streaming e Tempo Real

→ Apache Kafka : tópicos, partições, produtores, consumidores→ Spark Structured Streaming+ 2 mais lições

Armazenamento Data Lake e Lakehouse

→ Data Warehouse vs Data Lake vs Lakehouse→ Formatos colunares : Parquet, ORC+ 2 mais lições

Padrões de Arquitetura

→ Arquitetura Lambda (camada batch + speed)→ Arquitetura Kappa (streaming puro)+ 2 mais lições

Nuvem e Soluções Modernas

→ AWS Big Data : EMR, Glue, Athena, Redshift→ Databricks e o Lakehouse unificado

🏁

Projeto final (+ 2 capítulos no caminho)

→ Você sai com um projeto concreto e demonstrável

Testes de qualidade: Great Expectations, testes dbt

NOTEObjetivo — Aprender a validar automaticamente a qualidade dos dados em um pipeline Big Data. Você saberá definir expectativas (expectations) com Great Expectations, escrever testes dbt e compreender as seis dimensões da qualidade dos dados.

Objetivos pedagógicos

TIPAo final deste módulo

Enumerar as 6 dimensões da qualidade dos dados
Escrever uma suíte de expectations com Great Expectations
Definir testes dbt (genéricos e customizados)
Escolher entre validação bloqueante e alerta não bloqueante
Integrar os testes de qualidade em um pipeline orquestrado

As 6 dimensões da qualidade

Antes de testar, é preciso saber o que testar. A qualidade dos dados é medida segundo seis dimensões clássicas. Um pipeline robusto cobre as seis, não apenas “os valores não são nulos”.

Dimensão	Pergunta feita	Exemplo de teste
Completude	Faltam valores?	Nenhum `email` NULL
Unicidade	Existem duplicatas?	`id_pedido` único
Validade	O formato está correto?	`pais` em uma lista ISO
Exatidão	O valor é plausível?	`valor` entre 0 e 100000
Coerência	As tabelas concordam?	`cliente_id` existe em `clientes`
Frescor	O dado está atualizado?	Última ingestão < 24 h

Great Expectations: declarar expectativas

Great Expectations (GX) permite expressar a qualidade na forma de expectativas legíveis, quase em linguagem natural. Uma suíte de expectations torna-se um contrato executável, registrado no catálogo da lição anterior.

Validação bloqueante (error)

Alerta não bloqueante (warn)

WARNINGAtenção: é melhor falhar cedo (na camada bronze ou silver) do que propagar dados corrompidos até os dashboards gold. Regra de ouro: os testes bloqueantes devem rodar antes de publicar a camada gold consultada pelos decisores.

Integrar na orquestração

Os testes fazem todo o sentido quando automatizados no orquestrador (Airflow, Dagster, Databricks Workflows). O esquema típico é o seguinte:

Lineage, segurança, RGPD e direitos

NOTEObjetivo — Fechar a governança com seus três pilares restantes: o lineage (rastreabilidade ponta a ponta), a segurança (criptografia, controle de acesso) e a conformidade RGPD (direito ao esquecimento, mascaramento de PII). Você saberá o que todo projeto Big Data deve prever desde o início.

Objetivos pedagógicos

TIPAo final deste módulo

Explicar o que é data lineage e para que serve
Implementar controle de acesso por função (RBAC)
Diferenciar criptografia em repouso e em trânsito
Identificar as obrigações RGPD aplicáveis ao Big Data
Mascarar ou anonimizar dados pessoais (PII)

O data lineage: rastrear o dado até a origem

O lineage responde a duas perguntas críticas: “de onde vem esta coluna?” (lineage upstream) e “o que quebra se eu modificar esta tabela?” (lineage downstream). Em uma arquitetura medalhão bronze → silver → gold, o lineage rastreia cada transformação.

Lineage downstream (downstream)

Serve para análise de impacto: antes de alterar um esquema, sabe-se exatamente quais dashboards e modelos de ML serão afetados.

NOTENota: as ferramentas modernas (Unity Catalog, DataHub, OpenLineage) capturam o lineage automaticamente analisando as consultas SQL executadas. Não é mais necessário documentar manualmente: o motor sabe que gold.ca_por_pais lê silver.pedidos_limpos.

Segurança: criptografia e controle de acesso

A segurança de uma plataforma Big Data repousa em duas camadas complementares: proteger o próprio dado (criptografia) e controlar quem pode lê-lo (acesso).

Medida	Função	Exemplo
Criptografia em repouso	Dados criptografados em disco	S3 SSE-KMS, discos criptografados
Criptografia em trânsito	Dados criptografados na rede	TLS entre serviços
RBAC	Acesso por função	Grupo `analistas` lê gold
ABAC	Acesso por atributo	Mascarar se `tag = PII`
Audit log	Rastrear cada acesso	Quem leu o quê, quando

Exemplo: RBAC e mascaramento de coluna

Minimização

Coletar apenas os dados necessários. O reflexo “guardamos tudo por via das dúvidas” é exatamente o que o RGPD proíbe.

Direito ao esquecimento

Um usuário pode solicitar a exclusão de seus dados. É preciso conseguir apagar uma pessoa específica — daí a vantagem dos formatos Delta/Iceberg que suportam DELETE.

Rastreabilidade

Comprovar quem acessou quais dados pessoais e quando. É aqui que o audit log e o lineage tornam-se obrigatórios.

WARNINGAtenção: em um Data Lake em Parquet bruto (imutável), excluir uma única pessoa é muito custoso: é preciso reescrever arquivos inteiros. Esse é um dos argumentos fortes a favor do Lakehouse (Delta Lake, Iceberg, Hudi) visto no capítulo 05: esses formatos gerenciam DELETE e UPDATE linha a linha, tornando o direito ao esquecimento realista.

Exemplo: apagar uma pessoa (direito ao esquecimento)

Técnica	Reversível?	Status RGPD
Anonimização	Não, irreversível	Sai do escopo do RGPD
Pseudonimização	Sim, via chave	Permanece sujeito ao RGPD

NOTENota: substituir um nome por um identificador CLI-90421 é uma pseudonimização, não uma anonimização: se a tabela de correspondência for mantida, o dado continua pessoal perante a lei. A verdadeira anonimização (agregação, remoção definitiva do vínculo) é a única que faz o dado sair do RGPD.

Estimativa de custos e plano de escalabilidade

NOTEObjetivo — Calcular o custo mensal da sua arquitetura e planejar sua escalabilidade. Você aprenderá a estimar os itens de despesa, redigir ADRs (Architecture Decision Records) e planejar a escalabilidade sem superdimensionar desde o primeiro dia.

Objetivos pedagógicos

TIPAo final deste módulo

Identificar os principais itens de custo de uma plataforma Big Data
Estimar um orçamento mensal de ordem de grandeza
Redigir um ADR claro e reutilizável
Diferenciar escalabilidade vertical e horizontal
Aplicar os princípios FinOps para controlar a fatura

Os itens de custo do Big Data

A fatura de nuvem de uma plataforma Big Data distribui-se por alguns grandes itens. Conhecê-los permite focar as otimizações onde realmente importam.

Item	Exemplo de serviço	Alavanca de economia
Armazenamento	S3, ADLS, GCS	Tiering (quente/frio), compressão
Computação	EMR, Databricks, Dataproc	Instâncias spot, auto-scaling
Streaming	Kafka, Kinesis	Dimensionamento das partições
Consultas	Athena, BigQuery	Particionamento, formatos colunares
Transferência de rede	Egress inter-região	Permanecer em uma única região

WARNINGAtenção: a armadilha de custo nº 1 é a computação rodando à toa. Um cluster Spark deixado ligado à noite ou um job mal otimizado que varre 10 TB em vez de 100 GB pode multiplicar a fatura por 50. O armazenamento raramente é o problema; a computação quase sempre é.

Estimativa: exemplo e-commerce

Retomando o caso e-commerce (2 TB/mês, 5000 ev/s em pico). Aqui está um orçamento de ordem de grandeza. O objetivo não é a precisão em dólares, mas a ordem de grandeza correta.

Vertical (scale up)

Máquinas mais potentes. Simples, porém limitado e caro. Reservado para componentes que não se distribuem bem.

Horizontal (scale out)

Mais máquinas. Esse é o modo nativo do Big Data: Kafka adiciona partições, Spark adiciona executors, S3 é infinitamente escalável.

va-plus-loin

Este artigo cobre os trechos mais úteis — o curso completo Big Data Fundamentals Architecture (11 capítulos, 43 lições, exercícios corrigidos e projeto final) leva você até o fim.

./acceder-au-cours-complet curso gratuito: Dominando o Claude Code

FAQ

Quanto tempo para aprender Big Data Fundamentals Architecture?

Com uma progressão estruturada (11 capítulos, 43 lições curtas e práticas), atinge-se um nível operacional em algumas semanas, dedicando 30 a 60 minutos por dia. O importante é praticar cada conceito imediatamente.

É preciso ter pré-requisitos?

É melhor estar à vontade com os fundamentos da área: este conteúdo aprofunda, com casos reais.

Por onde começar concretamente?

Reproduza os comandos deste artigo e depois siga o curso completo Big Data Fundamentals Architecture: ele encadeia as 43 lições em ordem, com exercícios e projeto final.

./a-lire-aussi

→ AWS Data Engineering Bootcamp explicado de forma simples (com diagramas e código real)→ Comece agora com AWS Dados em Tempo Real: seu primeiro passo concreto hoje → Python Data Science: as 9 etapas-chave para ir de zero a operacional

📬 Quer receber este tipo de guia toda semana? Inscreva-se gratuitamente — código real, zero enrolação.

Testes de qualidade: Great Expectations, testes dbt

Objetivos pedagógicos

As 6 dimensões da qualidade

Great Expectations: declarar expectativas

Validação bloqueante (error)

Alerta não bloqueante (warn)

Integrar na orquestração

Lineage, segurança, RGPD e direitos

Objetivos pedagógicos

O data lineage: rastrear o dado até a origem

Lineage downstream (downstream)

Segurança: criptografia e controle de acesso

Exemplo: RBAC e mascaramento de coluna

Minimização

Direito ao esquecimento

Rastreabilidade

Exemplo: apagar uma pessoa (direito ao esquecimento)

Estimativa de custos e plano de escalabilidade

Objetivos pedagógicos

Os itens de custo do Big Data

Estimativa: exemplo e-commerce

Vertical (scale up)

Horizontal (scale out)

FAQ

Stay up to date