Arquitetura Big Data Fundamentals explicada de forma simples (com diagramas e código real)
Big Data Fundamentals Architecture: o essencial em um artigo — código real, diagramas e etapas concretas, extraídos de um curso de 43 lições.
Um guia direto ao ponto: Big Data Fundamentals Architecture dissecado com diagramas, exemplos concretos e comandos testados. Tudo vem de um curso estruturado de 11 capítulos — aqui está o melhor.
- Introdução ao Big Data
- Arquiteturas Distribuídas
- Ecossistema Hadoop
- Apache Spark
- Streaming e Tempo Real
Testes de qualidade: Great Expectations, testes dbt
Objetivos pedagógicos
- Enumerar as 6 dimensões da qualidade dos dados
- Escrever uma suíte de expectations com Great Expectations
- Definir testes dbt (genéricos e customizados)
- Escolher entre validação bloqueante e alerta não bloqueante
- Integrar os testes de qualidade em um pipeline orquestrado
As 6 dimensões da qualidade
Antes de testar, é preciso saber o que testar. A qualidade dos dados é medida segundo seis dimensões clássicas. Um pipeline robusto cobre as seis, não apenas “os valores não são nulos”.
| Dimensão | Pergunta feita | Exemplo de teste |
|---|---|---|
| Completude | Faltam valores? | Nenhum email NULL |
| Unicidade | Existem duplicatas? | id_pedido único |
| Validade | O formato está correto? | pais em uma lista ISO |
| Exatidão | O valor é plausível? | valor entre 0 e 100000 |
| Coerência | As tabelas concordam? | cliente_id existe em clientes |
| Frescor | O dado está atualizado? | Última ingestão < 24 h |
Great Expectations: declarar expectativas
Great Expectations (GX) permite expressar a qualidade na forma de expectativas legíveis, quase em linguagem natural. Uma suíte de expectations torna-se um contrato executável, registrado no catálogo da lição anterior.
Validação bloqueante (error)
Alerta não bloqueante (warn)
Integrar na orquestração
Os testes fazem todo o sentido quando automatizados no orquestrador (Airflow, Dagster, Databricks Workflows). O esquema típico é o seguinte:
Lineage, segurança, RGPD e direitos
Objetivos pedagógicos
- Explicar o que é data lineage e para que serve
- Implementar controle de acesso por função (RBAC)
- Diferenciar criptografia em repouso e em trânsito
- Identificar as obrigações RGPD aplicáveis ao Big Data
- Mascarar ou anonimizar dados pessoais (PII)
O data lineage: rastrear o dado até a origem
O lineage responde a duas perguntas críticas: “de onde vem esta coluna?” (lineage upstream) e “o que quebra se eu modificar esta tabela?” (lineage downstream). Em uma arquitetura medalhão bronze → silver → gold, o lineage rastreia cada transformação.
Lineage downstream (downstream)
Serve para análise de impacto: antes de alterar um esquema, sabe-se exatamente quais dashboards e modelos de ML serão afetados.
gold.ca_por_pais lê silver.pedidos_limpos.Segurança: criptografia e controle de acesso
A segurança de uma plataforma Big Data repousa em duas camadas complementares: proteger o próprio dado (criptografia) e controlar quem pode lê-lo (acesso).
| Medida | Função | Exemplo |
|---|---|---|
| Criptografia em repouso | Dados criptografados em disco | S3 SSE-KMS, discos criptografados |
| Criptografia em trânsito | Dados criptografados na rede | TLS entre serviços |
| RBAC | Acesso por função | Grupo analistas lê gold |
| ABAC | Acesso por atributo | Mascarar se tag = PII |
| Audit log | Rastrear cada acesso | Quem leu o quê, quando |
Exemplo: RBAC e mascaramento de coluna
Minimização
Coletar apenas os dados necessários. O reflexo “guardamos tudo por via das dúvidas” é exatamente o que o RGPD proíbe.
Direito ao esquecimento
Um usuário pode solicitar a exclusão de seus dados. É preciso conseguir apagar uma pessoa específica — daí a vantagem dos formatos Delta/Iceberg que suportam DELETE.
Rastreabilidade
Comprovar quem acessou quais dados pessoais e quando. É aqui que o audit log e o lineage tornam-se obrigatórios.
DELETE e UPDATE linha a linha, tornando o direito ao esquecimento realista.Exemplo: apagar uma pessoa (direito ao esquecimento)
| Técnica | Reversível? | Status RGPD |
|---|---|---|
| Anonimização | Não, irreversível | Sai do escopo do RGPD |
| Pseudonimização | Sim, via chave | Permanece sujeito ao RGPD |
CLI-90421 é uma pseudonimização, não uma anonimização: se a tabela de correspondência for mantida, o dado continua pessoal perante a lei. A verdadeira anonimização (agregação, remoção definitiva do vínculo) é a única que faz o dado sair do RGPD.Estimativa de custos e plano de escalabilidade
Objetivos pedagógicos
- Identificar os principais itens de custo de uma plataforma Big Data
- Estimar um orçamento mensal de ordem de grandeza
- Redigir um ADR claro e reutilizável
- Diferenciar escalabilidade vertical e horizontal
- Aplicar os princípios FinOps para controlar a fatura
Os itens de custo do Big Data
A fatura de nuvem de uma plataforma Big Data distribui-se por alguns grandes itens. Conhecê-los permite focar as otimizações onde realmente importam.
| Item | Exemplo de serviço | Alavanca de economia |
|---|---|---|
| Armazenamento | S3, ADLS, GCS | Tiering (quente/frio), compressão |
| Computação | EMR, Databricks, Dataproc | Instâncias spot, auto-scaling |
| Streaming | Kafka, Kinesis | Dimensionamento das partições |
| Consultas | Athena, BigQuery | Particionamento, formatos colunares |
| Transferência de rede | Egress inter-região | Permanecer em uma única região |
Estimativa: exemplo e-commerce
Retomando o caso e-commerce (2 TB/mês, 5000 ev/s em pico). Aqui está um orçamento de ordem de grandeza. O objetivo não é a precisão em dólares, mas a ordem de grandeza correta.
Vertical (scale up)
Máquinas mais potentes. Simples, porém limitado e caro. Reservado para componentes que não se distribuem bem.
Horizontal (scale out)
Mais máquinas. Esse é o modo nativo do Big Data: Kafka adiciona partições, Spark adiciona executors, S3 é infinitamente escalável.
Este artigo cobre os trechos mais úteis — o curso completo Big Data Fundamentals Architecture (11 capítulos, 43 lições, exercícios corrigidos e projeto final) leva você até o fim.
./acceder-au-cours-complet curso gratuito: Dominando o Claude CodeFAQ
Quanto tempo para aprender Big Data Fundamentals Architecture?
É preciso ter pré-requisitos?
Por onde começar concretamente?
📬 Quer receber este tipo de guia toda semana? Inscreva-se gratuitamente — código real, zero enrolação.