Arquitectura de Fundamentos de Big Data explicada de forma sencilla (con esquemas y código real)
Big Data Fundamentals Architecture : lo esencial en un artículo — código real, diagramas y pasos concretos, extractos de un curso de 43 lecciones.
Una guía que va al grano: Big Data Fundamentals Architecture analizado con diagramas, ejemplos concretos y comandos probados. Todo proviene de un curso estructurado de 11 capítulos —aquí tienes lo mejor.
- Introducción al Big Data
- Arquitecturas Distribuidas
- Ecosistema Hadoop
- Apache Spark
- Streaming y Tiempo Real
Pruebas de calidad: Great Expectations, pruebas dbt
Objetivos pedagógicos
- Enumerar las 6 dimensiones de la calidad de los datos
- Escribir un conjunto de expectations con Great Expectations
- Definir pruebas dbt (genéricas y personalizadas)
- Elegir entre validación bloqueante y alerta no bloqueante
- Integrar las pruebas de calidad en un pipeline orquestado
Las 6 dimensiones de la calidad
Antes de probar, hay que saber qué probar. La calidad de los datos se mide según seis dimensiones clásicas. Un pipeline robusto cubre las seis, no solo «los valores no son nulos».
| Dimensión | Pregunta planteada | Ejemplo de prueba |
|---|---|---|
| Completitud | ¿Faltan valores? | Ningún email NULL |
| Unicidad | ¿Hay duplicados? | id_commande único |
| Validez | ¿El formato es correcto? | pais en una lista ISO |
| Exactitud | ¿El valor es plausible? | monto entre 0 y 100000 |
| Coherencia | ¿Las tablas coinciden? | client_id existe en clientes |
| Frescura | ¿El dato está actualizado? | Última ingesta < 24 h |
Great Expectations: declarar expectativas
Great Expectations (GX) permite expresar la calidad en forma de expectativas legibles, casi en lenguaje natural. Un conjunto de expectations se convierte en un contrato ejecutable, incorporado al catálogo de la lección anterior.
Validación bloqueante (error)
Alerta no bloqueante (warn)
Integrar en la orquestación
Las pruebas cobran todo su sentido cuando se automatizan en el orquestador (Airflow, Dagster, Databricks Workflows). El esquema típico es el siguiente:
Lineage, seguridad, RGPD y derechos
Objetivos pedagógicos
- Explicar qué es el data lineage y para qué sirve
- Implementar un control de acceso por rol (RBAC)
- Distinguir cifrado en reposo y en tránsito
- Identificar las obligaciones RGPD aplicables al Big Data
- Enmascarar o anonimizar datos personales (PII)
El data lineage: seguir el dato al detalle
El lineage responde a dos preguntas críticas: «¿de dónde viene esta columna?» (lineage ascendente) y «¿qué se rompe si modifico esta tabla?» (lineage descendente). En una arquitectura medallion bronze → silver → gold, el lineage rastrea cada transformación.
Lineage descendente (downstream)
Sirve para el impact analysis: antes de cambiar un esquema, se sabe exactamente qué paneles y modelos ML se verán afectados.
gold.ca_par_pais lee silver.pedidos_limpios.Seguridad: cifrado y control de acceso
La seguridad de una plataforma Big Data se basa en dos capas complementarias: proteger el propio dato (cifrado) y controlar quién puede leerlo (acceso).
| Medida | Rol | Ejemplo |
|---|---|---|
| Cifrado en reposo | Datos cifrados en disco | S3 SSE-KMS, discos cifrados |
| Cifrado en tránsito | Datos cifrados en la red | TLS entre servicios |
| RBAC | Acceso por rol | Grupo analistas lee gold |
| ABAC | Acceso por atributo | Enmascarar si tag = PII |
| Audit log | Rastrear cada acceso | Quién leyó qué, cuándo |
Ejemplo: RBAC y enmascaramiento de columna
Minimización
Recopilar solo los datos necesarios. El reflejo «guardamos todo por si acaso» es exactamente lo que prohíbe el RGPD.
Derecho al olvido
Un usuario puede solicitar la eliminación de sus datos. Hay que poder borrar a una persona concreta —de ahí el interés de los formatos Delta/Iceberg que admiten DELETE.
Trazabilidad
Demostrar quién accedió a qué datos personales y cuándo. Aquí es donde el audit log y el lineage se vuelven obligatorios.
DELETE y UPDATE fila a fila, lo que hace realista el derecho al olvido.Ejemplo: borrar a una persona (derecho al olvido)
| Técnica | ¿Reversible? | Estado RGPD |
|---|---|---|
| Anonimización | No, irreversible | Fuera del ámbito del RGPD |
| Pseudonimización | Sí, mediante una clave | Sigue sujeto al RGPD |
CLI-90421 es una pseudonimización, no una anonimización: si se conserva la tabla de correspondencia, el dato sigue siendo personal ante la ley. La verdadera anonimización (agregación, eliminación definitiva del vínculo) es la única que saca el dato del RGPD.Estimación de costes y plan de escalado
Objetivos pedagógicos
- Identificar las principales partidas de coste de una plataforma Big Data
- Estimar un presupuesto mensual de orden de magnitud
- Redactar un ADR claro y reutilizable
- Distinguir escalado vertical y horizontal
- Aplicar los principios FinOps para controlar la factura
Las partidas de coste del Big Data
La factura cloud de una plataforma Big Data se reparte en varias grandes partidas. Conocerlas permite focalizar las optimizaciones donde realmente importan.
| Partida | Ejemplo de servicio | Palanca de ahorro |
|---|---|---|
| Almacenamiento | S3, ADLS, GCS | Tiering (caliente/frío), compresión |
| Cálculo | EMR, Databricks, Dataproc | Instancias spot, auto-scaling |
| Streaming | Kafka, Kinesis | Dimensionamiento de particiones |
| Consultas | Athena, BigQuery | Particionado, formatos columnares |
| Transferencia de red | Egress entre regiones | Permanecer en una sola región |
Estimación: ejemplo e-commerce
Retomamos el caso e-commerce (2 TB/mes, 5000 ev/s en pico). Aquí tienes un presupuesto de orden de magnitud. El objetivo no es la precisión al dólar, sino el orden de magnitud correcto.
Vertical (scale up)
Máquinas más potentes. Sencillo, pero limitado y costoso. Reservado a componentes que no se distribuyen bien.
Horizontal (scale out)
Más máquinas. Es el modo nativo del Big Data: Kafka añade particiones, Spark añade executors, S3 es infinitamente escalable.
Este artículo cubre los extractos más útiles —el curso completo Big Data Fundamentals Architecture (11 capítulos, 43 lecciones, ejercicios resueltos y proyecto final) te lleva hasta el final.
./acceder-al-curso-completo curso gratuito: Dominar Claude CodeFAQ
¿Cuánto tiempo se necesita para aprender Big Data Fundamentals Architecture?
¿Se necesitan requisitos previos?
¿Por dónde empezar de forma concreta?
📬 ¿Quieres recibir este tipo de guía cada semana? Suscríbete gratis — código real, cero relleno.