Data & Big Data

Arquitectura de Fundamentos de Big Data explicada de forma sencilla (con esquemas y código real)

Big Data Fundamentals Architecture : lo esencial en un artículo — código real, diagramas y pasos concretos, extractos de un curso de 43 lecciones.

REHOUMA Haythem

12 Jun 2026 • 12 min read

Una guía que va al grano: Big Data Fundamentals Architecture analizado con diagramas, ejemplos concretos y comandos probados. Todo proviene de un curso estructurado de 11 capítulos —aquí tienes lo mejor.

tl;dr

Introducción al Big Data
Arquitecturas Distribuidas
Ecosistema Hadoop
Apache Spark
Streaming y Tiempo Real

~$ cat ./parcours.md # Big Data Fundamentals Architecture — 10 capítulos

Introducción al Big Data

→ Presentación del curso y definición del Big Data→ Los 5 V — Volumen, Velocidad, Variedad, Veracidad, Valor+ 1 más lecciones

Arquitecturas Distribuidas

→ Escalabilidad horizontal vs vertical→ Teorema CAP — consistencia, disponibilidad, partición+ 2 más lecciones

Ecosistema Hadoop

→ HDFS, almacenamiento distribuido masivo→ YARN, gestión de recursos del clúster+ 2 más lecciones

Apache Spark

→ Arquitectura Spark: driver, executors, cluster manager→ RDD, DataFrame, Dataset: ¿cuál elegir?+ 2 más lecciones

Streaming y Tiempo Real

→ Apache Kafka: topics, partitions, producers, consumers→ Spark Structured Streaming+ 2 más lecciones

Almacenamiento Data Lake y Lakehouse

→ Data Warehouse vs Data Lake vs Lakehouse→ Formatos columnares: Parquet, ORC+ 2 más lecciones

Patrones de Arquitectura

→ Arquitectura Lambda (capa batch + speed)→ Arquitectura Kappa (streaming puro)+ 2 más lecciones

Cloud y Soluciones Modernas

→ AWS Big Data: EMR, Glue, Athena, Redshift→ Databricks y el Lakehouse unificado

🏁

Proyecto final (+ 2 capítulos en camino)

→ Te marchas con un proyecto concreto y demostrable

Pruebas de calidad: Great Expectations, pruebas dbt

NOTEObjetivo — Aprender a validar automáticamente la calidad de los datos en un pipeline Big Data. Sabrás definir expectativas (expectations) con Great Expectations, escribir pruebas dbt y comprender las seis dimensiones de la calidad de los datos.

Objetivos pedagógicos

TIPAl finalizar este módulo

Enumerar las 6 dimensiones de la calidad de los datos
Escribir un conjunto de expectations con Great Expectations
Definir pruebas dbt (genéricas y personalizadas)
Elegir entre validación bloqueante y alerta no bloqueante
Integrar las pruebas de calidad en un pipeline orquestado

Las 6 dimensiones de la calidad

Antes de probar, hay que saber qué probar. La calidad de los datos se mide según seis dimensiones clásicas. Un pipeline robusto cubre las seis, no solo «los valores no son nulos».

Dimensión	Pregunta planteada	Ejemplo de prueba
Completitud	¿Faltan valores?	Ningún `email` NULL
Unicidad	¿Hay duplicados?	`id_commande` único
Validez	¿El formato es correcto?	`pais` en una lista ISO
Exactitud	¿El valor es plausible?	`monto` entre 0 y 100000
Coherencia	¿Las tablas coinciden?	`client_id` existe en `clientes`
Frescura	¿El dato está actualizado?	Última ingesta < 24 h

Great Expectations: declarar expectativas

Great Expectations (GX) permite expresar la calidad en forma de expectativas legibles, casi en lenguaje natural. Un conjunto de expectations se convierte en un contrato ejecutable, incorporado al catálogo de la lección anterior.

Validación bloqueante (error)

Alerta no bloqueante (warn)

WARNINGAtención: es mejor fallar pronto (en la etapa bronze o silver) que propagar datos corruptos hasta los paneles gold. Una regla de oro: las pruebas bloqueantes deben ejecutarse antes de publicar la capa gold consultada por los decisores.

Integrar en la orquestación

Las pruebas cobran todo su sentido cuando se automatizan en el orquestador (Airflow, Dagster, Databricks Workflows). El esquema típico es el siguiente:

Lineage, seguridad, RGPD y derechos

NOTEObjetivo — Completar la gobernanza con sus tres pilares restantes: el lineage (trazabilidad de extremo a extremo), la seguridad (cifrado, control de acceso) y el cumplimiento RGPD (derecho al olvido, enmascaramiento de PII). Sabrás qué debe prever todo proyecto Big Data desde el principio.

Objetivos pedagógicos

TIPAl finalizar este módulo

Explicar qué es el data lineage y para qué sirve
Implementar un control de acceso por rol (RBAC)
Distinguir cifrado en reposo y en tránsito
Identificar las obligaciones RGPD aplicables al Big Data
Enmascarar o anonimizar datos personales (PII)

El data lineage: seguir el dato al detalle

El lineage responde a dos preguntas críticas: «¿de dónde viene esta columna?» (lineage ascendente) y «¿qué se rompe si modifico esta tabla?» (lineage descendente). En una arquitectura medallion bronze → silver → gold, el lineage rastrea cada transformación.

Lineage descendente (downstream)

Sirve para el impact analysis: antes de cambiar un esquema, se sabe exactamente qué paneles y modelos ML se verán afectados.

NOTENota: las herramientas modernas (Unity Catalog, DataHub, OpenLineage) capturan el lineage automáticamente analizando las consultas SQL ejecutadas. Ya no es necesario documentarlo manualmente: el motor sabe que gold.ca_par_pais lee silver.pedidos_limpios.

Seguridad: cifrado y control de acceso

La seguridad de una plataforma Big Data se basa en dos capas complementarias: proteger el propio dato (cifrado) y controlar quién puede leerlo (acceso).

Medida	Rol	Ejemplo
Cifrado en reposo	Datos cifrados en disco	S3 SSE-KMS, discos cifrados
Cifrado en tránsito	Datos cifrados en la red	TLS entre servicios
RBAC	Acceso por rol	Grupo `analistas` lee gold
ABAC	Acceso por atributo	Enmascarar si `tag = PII`
Audit log	Rastrear cada acceso	Quién leyó qué, cuándo

Ejemplo: RBAC y enmascaramiento de columna

Minimización

Recopilar solo los datos necesarios. El reflejo «guardamos todo por si acaso» es exactamente lo que prohíbe el RGPD.

Derecho al olvido

Un usuario puede solicitar la eliminación de sus datos. Hay que poder borrar a una persona concreta —de ahí el interés de los formatos Delta/Iceberg que admiten DELETE.

Trazabilidad

Demostrar quién accedió a qué datos personales y cuándo. Aquí es donde el audit log y el lineage se vuelven obligatorios.

WARNINGAtención: en un Data Lake en Parquet en bruto (inmutable), eliminar a una sola persona resulta muy costoso: hay que reescribir archivos enteros. Es uno de los argumentos más sólidos a favor del Lakehouse (Delta Lake, Iceberg, Hudi) visto en el capítulo 05: estos formatos gestionan DELETE y UPDATE fila a fila, lo que hace realista el derecho al olvido.

Ejemplo: borrar a una persona (derecho al olvido)

Técnica	¿Reversible?	Estado RGPD
Anonimización	No, irreversible	Fuera del ámbito del RGPD
Pseudonimización	Sí, mediante una clave	Sigue sujeto al RGPD

NOTENota: sustituir un nombre por un identificador CLI-90421 es una pseudonimización, no una anonimización: si se conserva la tabla de correspondencia, el dato sigue siendo personal ante la ley. La verdadera anonimización (agregación, eliminación definitiva del vínculo) es la única que saca el dato del RGPD.

Estimación de costes y plan de escalado

NOTEObjetivo — Cuantificar el coste mensual de tu arquitectura y prever su escalado. Aprenderás a estimar las partidas de gasto, redactar ADR (Architecture Decision Records) y planificar la escalabilidad sin sobredimensionar desde el primer día.

Objetivos pedagógicos

TIPAl finalizar este módulo

Identificar las principales partidas de coste de una plataforma Big Data
Estimar un presupuesto mensual de orden de magnitud
Redactar un ADR claro y reutilizable
Distinguir escalado vertical y horizontal
Aplicar los principios FinOps para controlar la factura

Las partidas de coste del Big Data

La factura cloud de una plataforma Big Data se reparte en varias grandes partidas. Conocerlas permite focalizar las optimizaciones donde realmente importan.

Partida	Ejemplo de servicio	Palanca de ahorro
Almacenamiento	S3, ADLS, GCS	Tiering (caliente/frío), compresión
Cálculo	EMR, Databricks, Dataproc	Instancias spot, auto-scaling
Streaming	Kafka, Kinesis	Dimensionamiento de particiones
Consultas	Athena, BigQuery	Particionado, formatos columnares
Transferencia de red	Egress entre regiones	Permanecer en una sola región

WARNINGAtención: la trampa de coste n.º 1 es el cálculo que funciona sin motivo. Un clúster Spark dejado encendido por la noche o un job mal optimizado que escanea 10 TB en lugar de 100 GB puede multiplicar la factura por 50. El almacenamiento rara vez es el problema; el cálculo casi siempre lo es.

Estimación: ejemplo e-commerce

Retomamos el caso e-commerce (2 TB/mes, 5000 ev/s en pico). Aquí tienes un presupuesto de orden de magnitud. El objetivo no es la precisión al dólar, sino el orden de magnitud correcto.

Vertical (scale up)

Máquinas más potentes. Sencillo, pero limitado y costoso. Reservado a componentes que no se distribuyen bien.

Horizontal (scale out)

Más máquinas. Es el modo nativo del Big Data: Kafka añade particiones, Spark añade executors, S3 es infinitamente escalable.

va-mas-lejos

Este artículo cubre los extractos más útiles —el curso completo Big Data Fundamentals Architecture (11 capítulos, 43 lecciones, ejercicios resueltos y proyecto final) te lleva hasta el final.

./acceder-al-curso-completo curso gratuito: Dominar Claude Code

FAQ

¿Cuánto tiempo se necesita para aprender Big Data Fundamentals Architecture?

Con una progresión estructurada (11 capítulos, 43 lecciones cortas y prácticas), se alcanza un nivel operativo en unas semanas dedicando entre 30 y 60 minutos al día. Lo importante es practicar cada concepto de inmediato.

¿Se necesitan requisitos previos?

Es preferible estar cómodo con los fundamentos del área: este contenido profundiza, con casos reales.

¿Por dónde empezar de forma concreta?

Reproduce los comandos de este artículo y sigue el curso completo Big Data Fundamentals Architecture: encadena las 43 lecciones en orden, con ejercicios y proyecto final.

./leer-tambien

→ AWS Data Engineering Bootcamp explicado de forma sencilla (con diagramas y código real)→ Lánzate a AWS Datos en Tiempo Real: tu primer paso concreto hoy → Python Data Science: los 9 pasos clave para pasar de cero a operativo

📬 ¿Quieres recibir este tipo de guía cada semana? Suscríbete gratis — código real, cero relleno.

Pruebas de calidad: Great Expectations, pruebas dbt

Objetivos pedagógicos

Las 6 dimensiones de la calidad

Great Expectations: declarar expectativas

Validación bloqueante (error)

Alerta no bloqueante (warn)

Integrar en la orquestación

Lineage, seguridad, RGPD y derechos

Objetivos pedagógicos

El data lineage: seguir el dato al detalle

Lineage descendente (downstream)

Seguridad: cifrado y control de acceso

Ejemplo: RBAC y enmascaramiento de columna

Minimización

Derecho al olvido

Trazabilidad

Ejemplo: borrar a una persona (derecho al olvido)

Estimación de costes y plan de escalado

Objetivos pedagógicos

Las partidas de coste del Big Data

Estimación: ejemplo e-commerce

Vertical (scale up)

Horizontal (scale out)

FAQ

Stay up to date