Big Data Fundamentals Architecture expliqué simplement (avec schémas et vrai code)
Big Data Fundamentals Architecture : l'essentiel en un article — vrai code, schémas et étapes concrètes, extraits d'un cours de 43 leçons.
Un guide qui va droit au but : Big Data Fundamentals Architecture décortiqué avec des schémas, des exemples concrets et des commandes testées. Tout vient d'un cours structuré de 11 chapitres — en voici le meilleur.
- Introduction au Big Data
- Architectures Distribuees
- Ecosysteme Hadoop
- Apache Spark
- Streaming et Temps Reel
Tests de qualité : Great Expectations, dbt tests
Objectifs pédagogiques
- Énumérer les 6 dimensions de la qualité des données
- Écrire une suite d'expectations avec Great Expectations
- Définir des tests dbt (génériques et custom)
- Choisir entre validation bloquante et alerte non bloquante
- Intégrer les tests qualité dans un pipeline orchestré
Les 6 dimensions de la qualité
Avant de tester, il faut savoir quoi tester. La qualité des données se mesure selon six dimensions classiques. Un pipeline robuste couvre les six, pas seulement « les valeurs ne sont pas nulles ».
| Dimension | Question posée | Exemple de test |
|---|---|---|
| Complétude | Manque-t-il des valeurs ? | Aucun email NULL |
| Unicité | Y a-t-il des doublons ? | id_commande unique |
| Validité | Le format est-il correct ? | pays dans une liste ISO |
| Exactitude | La valeur est-elle plausible ? | montant entre 0 et 100000 |
| Cohérence | Les tables s'accordent-elles ? | client_id existe dans clients |
| Fraîcheur | La donnée est-elle à jour ? | Dernière ingestion < 24 h |
Great Expectations : déclarer des attentes
Great Expectations (GX) permet d'exprimer la qualité sous forme d'attentes lisibles, presque en langage naturel. Une suite d'expectations devient un contrat exécutable, versé dans le catalogue de la leçon précédente.
Validation bloquante (error)
Alerte non bloquante (warn)
Intégrer dans l'orchestration
Les tests prennent tout leur sens quand ils sont automatisés dans l'orchestrateur (Airflow, Dagster, Databricks Workflows). Le schéma type ressemble à ceci :
Lineage, sécurité, RGPD et droits
Objectifs pédagogiques
- Expliquer ce qu'est le data lineage et à quoi il sert
- Mettre en place un contrôle d'accès par rôle (RBAC)
- Distinguer chiffrement au repos et en transit
- Identifier les obligations RGPD applicables au Big Data
- Masquer ou anonymiser des données personnelles (PII)
Le data lineage : suivre la donnée à la trace
Le lineage répond à deux questions critiques : « d'où vient cette colonne ? » (lineage amont) et « qu'est-ce qui casse si je modifie cette table ? » (lineage aval). Dans une architecture medallion bronze → silver → gold, le lineage trace chaque transformation.
Lineage aval (downstream)
Sert à l'impact analysis : avant de changer un schéma, on sait exactement quels tableaux de bord et modèles ML vont être touchés.
gold.ca_par_pays lit silver.commandes_propres.Sécurité : chiffrement et contrôle d'accès
La sécurité d'une plateforme Big Data repose sur deux couches complémentaires : protéger la donnée elle-même (chiffrement) et contrôler qui peut la lire (accès).
| Mesure | Rôle | Exemple |
|---|---|---|
| Chiffrement au repos | Données chiffrées sur disque | S3 SSE-KMS, disques chiffrés |
| Chiffrement en transit | Données chiffrées sur le réseau | TLS entre services |
| RBAC | Accès par rôle | Groupe analystes lit gold |
| ABAC | Accès par attribut | Masquer si tag = PII |
| Audit log | Tracer chaque accès | Qui a lu quoi, quand |
Exemple : RBAC et masquage de colonne
Minimisation
Ne collecter que les données nécessaires. Le réflexe « on garde tout au cas où » est exactement ce que le RGPD interdit.
Droit à l'oubli
Un utilisateur peut demander la suppression de ses données. Il faut pouvoir effacer une personne précise — d'où l'intérêt des formats Delta/Iceberg qui supportent le DELETE.
Traçabilité
Prouver qui a accédé à quelles données personnelles et quand. C'est ici que l'audit log et le lineage deviennent obligatoires.
DELETE et le UPDATE ligne à ligne, ce qui rend le droit à l'oubli réaliste.Exemple : effacer une personne (droit à l'oubli)
| Technique | Réversible ? | Statut RGPD |
|---|---|---|
| Anonymisation | Non, irréversible | Sort du champ du RGPD |
| Pseudonymisation | Oui, via une clé | Reste soumis au RGPD |
CLI-90421 est une pseudonymisation, pas une anonymisation : si on garde la table de correspondance, la donnée reste personnelle aux yeux de la loi. La vraie anonymisation (agrégation, suppression définitive du lien) est la seule qui fait sortir la donnée du RGPD.Estimation des coûts et plan de montée en charge
Objectifs pédagogiques
- Identifier les principaux postes de coût d'une plateforme Big Data
- Estimer un budget mensuel ordre de grandeur
- Rédiger un ADR clair et réutilisable
- Distinguer montée en charge verticale et horizontale
- Appliquer les principes FinOps pour maîtriser la facture
Les postes de coût du Big Data
La facture cloud d'une plateforme Big Data se répartit sur quelques grands postes. Les connaître permet de cibler les optimisations là où elles comptent.
| Poste | Exemple de service | Levier d'économie |
|---|---|---|
| Stockage | S3, ADLS, GCS | Tiering (chaud/froid), compression |
| Calcul | EMR, Databricks, Dataproc | Spot instances, auto-scaling |
| Streaming | Kafka, Kinesis | Dimensionnement des partitions |
| Requêtes | Athena, BigQuery | Partitionnement, formats columnar |
| Transfert réseau | Egress inter-région | Rester dans une seule région |
Estimation : exemple e-commerce
Reprenons le cas e-commerce (2 To/mois, 5000 ev/s en pic). Voici un budget ordre de grandeur. L'objectif n'est pas la précision au dollar, mais le bon ordre de grandeur.
Verticale (scale up)
Machines plus puissantes. Simple, mais limité et coûteux. Réservé aux composants qui ne se distribuent pas bien.
Horizontale (scale out)
Plus de machines. C'est le mode natif du Big Data : Kafka ajoute des partitions, Spark ajoute des executors, S3 est infiniment scalable.
Cet article couvre les extraits les plus utiles — le cours complet Big Data Fundamentals Architecture (11 chapitres, 43 leçons, exercices corrigés et projet final) t'emmène jusqu'au bout.
./acceder-au-cours-complet cours gratuit : Maîtriser Claude CodeFAQ
Combien de temps pour apprendre Big Data Fundamentals Architecture ?
Faut-il des prérequis ?
Par où commencer concrètement ?
📬 Tu veux recevoir ce type de guide chaque semaine ? Abonne-toi gratuitement — code réel, zéro blabla.