أساسيات معمارية البيانات الضخمة موضحة ببساطة (مع مخططات وكود حقيقي)
أساسيات معمارية البيانات الضخمة: الأساسيات في مقال واحد — كود حقيقي، مخططات وخطوات ملموسة، مقتطفات من دورة مكونة من 43 درسًا.
دليل مباشر وموجز: Big Data Fundamentals Architecture مفكك بالرسوم البيانية والأمثلة العملية والأوامر المجربة. كل ذلك مستمد من دورة منظمة تضم 11 فصلاً — إليك أفضل ما فيها.
- مقدمة في البيانات الضخمة
- المعماريات الموزعة
- نظام Hadoop البيئي
- Apache Spark
- البث والوقت الفعلي
اختبارات الجودة: Great Expectations، اختبارات dbt
الأهداف التعليمية
- سرد الأبعاد الستة لجودة البيانات
- كتابة مجموعة expectations باستخدام Great Expectations
- تعريف اختبارات dbt (عامة ومخصصة)
- الاختيار بين التحقق الحاجز والتنبيه غير الحاجز
- دمج اختبارات الجودة في مسار مؤتمت
الأبعاد الستة للجودة
قبل الاختبار، يجب معرفة ما يُختبر. تقاس جودة البيانات وفق ستة أبعاد كلاسيكية. يغطي المسار القوي الأبعاد الستة كلها، وليس فقط «القيم ليست فارغة».
| البعد | السؤال المطروح | مثال على الاختبار |
|---|---|---|
| الاكتمال | هل تفتقد قيم؟ | لا يوجد email NULL |
| التفرد | هل توجد تكرارات؟ | id_commande فريد |
| الصلاحية | هل التنسيق صحيح؟ | pays ضمن قائمة ISO |
| الدقة | هل القيمة منطقية؟ | montant بين 0 و100000 |
| الاتساق | هل تتوافق الجداول؟ | client_id موجود في clients |
| الحداثة | هل البيانات محدثة؟ | آخر استيعاب < 24 ساعة |
Great Expectations: التصريح بالتوقعات
يتيح Great Expectations (GX) التعبير عن الجودة على شكل توقعات مقروءة، شبه بلغة طبيعية. تصبح مجموعة التوقعات عقداً قابلاً للتنفيذ، يُدرج في كتالوج الدرس السابق.
التحقق الحاجز (error)
التنبيه غير الحاجز (warn)
الدمج في الأتمتة
تكتسب الاختبارات معناها الكامل عندما تُؤتمت داخل أداة التنسيق (Airflow، Dagster، Databricks Workflows). يشبه المخطط النموذجي ما يلي:
النسب، الأمان، اللائحة العامة لحماية البيانات والحقوق
الأهداف التعليمية
- شرح مفهوم data lineage وأهميته
- تطبيق التحكم في الوصول حسب الدور (RBAC)
- التمييز بين التشفير في حالة السكون والتشفير أثناء النقل
- تحديد التزامات اللائحة العامة لحماية البيانات المتعلقة بالبيانات الضخمة
- إخفاء أو إخفاء هوية البيانات الشخصية (PII)
نسب البيانات: تتبع البيانات خطوة بخطوة
يجيب النسب عن سؤالين حاسمين: «من أين أتت هذه العمود؟» (النسب الصاعد) و«ماذا يتأثر إذا عدّلت هذا الجدول؟» (النسب الهابط). في معمارية medallion bronze → silver → gold، يتتبع النسب كل تحويل.
النسب الهابط (downstream)
يُستخدم لـتحليل التأثير: قبل تغيير مخطط، تعرف بالضبط أي لوحات ونماذج تعلم آلي ستتأثر.
gold.ca_par_pays يقرأ silver.commandes_propres.الأمان: التشفير والتحكم في الوصول
يعتمد أمان منصة Big Data على طبقتين متكاملتين: حماية البيانات نفسها (التشفير) والتحكم في من يستطيع قراءتها (الوصول).
| الإجراء | الدور | مثال |
|---|---|---|
| التشفير في حالة السكون | بيانات مشفرة على القرص | S3 SSE-KMS، أقراص مشفرة |
| التشفير أثناء النقل | بيانات مشفرة على الشبكة | TLS بين الخدمات |
| RBAC | وصول حسب الدور | مجموعة analystes تقرأ gold |
| ABAC | وصول حسب السمة | إخفاء إذا tag = PII |
| Audit log | تتبع كل وصول | من قرأ ماذا ومتى |
مثال: RBAC وإخفاء العمود
التقليل
جمع البيانات الضرورية فقط. عقلية «نحتفظ بكل شيء تحسباً» هي بالضبط ما تحظره اللائحة العامة لحماية البيانات.
الحق في النسيان
يمكن للمستخدم طلب حذف بياناته. يجب التمكن من حذف شخص معين — ومن هنا أهمية تنسيقات Delta/Iceberg التي تدعم DELETE.
التتبع
إثبات من وصل إلى أي بيانات شخصية ومتى. هنا يصبح سجل التدقيق والنسب إلزاميين.
DELETE وUPDATE سطراً سطراً، مما يجعل الحق في النسيان واقعياً.مثال: حذف شخص (الحق في النسيان)
| التقنية | قابلة للعكس؟ | حالة اللائحة العامة لحماية البيانات |
|---|---|---|
| إخفاء الهوية | لا، غير قابل للعكس | خارج نطاق اللائحة العامة لحماية البيانات |
| التهجين | نعم، عبر مفتاح | يبقى خاضعاً للائحة العامة لحماية البيانات |
CLI-90421 هو تهجين وليس إخفاء هوية: إذا احتفظت بجدول الربط، تبقى البيانات شخصية قانوناً. إخفاء الهوية الحقيقي (التجميع، إزالة الرابط نهائياً) هو الوحيد الذي يخرج البيانات من نطاق اللائحة العامة لحماية البيانات.تقدير التكاليف وخطة التوسع
الأهداف التعليمية
- تحديد بنود التكلفة الرئيسية لمنصة Big Data
- تقدير ميزانية شهرية تقريبية
- كتابة ADR واضح وقابل لإعادة الاستخدام
- التمييز بين التوسع الرأسي والأفقي
- تطبيق مبادئ FinOps للتحكم في الفاتورة
بنود تكلفة Big Data
تتوزع فاتورة السحابة لمنصة Big Data على عدة بنود رئيسية. معرفتها تساعد على توجيه التحسينات حيث تكون فعالة.
| البند | مثال على الخدمة | رافعة التوفير |
|---|---|---|
| التخزين | S3، ADLS، GCS | التصنيف (ساخن/بارد)، الضغط |
| الحوسبة | EMR، Databricks، Dataproc | مثيلات Spot، التوسع التلقائي |
| البث | Kafka، Kinesis | تحديد حجم الأقسام |
| الاستعلامات | Athena، BigQuery | التقسيم، التنسيقات العمودية |
| نقل الشبكة | Egress بين المناطق | البقاء في منطقة واحدة |
تقدير: مثال التجارة الإلكترونية
نعود إلى حالة التجارة الإلكترونية (2 تيرابايت/شهر، 5000 حدث/ثانية في الذروة). إليك ميزانية تقريبية. الهدف ليس الدقة بالدولار، بل الترتيب الصحيح للحجم.
رأسي (scale up)
آلات أقوى. بسيط، لكنه محدود ومكلف. محجوز للمكونات التي لا توزع جيداً.
أفقي (scale out)
مزيد من الآلات. هذا هو الوضع الطبيعي للبيانات الضخمة: Kafka يضيف أقساماً، Spark يضيف منفذين، S3 قابل للتوسع بلا حدود.
يغطي هذا المقال أكثر المقتطفات فائدة — الدورة الكاملة Big Data Fundamentals Architecture (11 فصلاً، 43 درساً، تمارين محلولة ومشروع نهائي) تأخذك إلى النهاية.
./acceder-au-cours-complet cours gratuit : Maîtriser Claude Codeالأسئلة الشائعة
كم من الوقت يستغرق تعلم Big Data Fundamentals Architecture؟
هل هناك متطلبات سابقة؟
من أين نبدأ عملياً؟
📬 هل تريد تلقي هذا النوع من الأدلة كل أسبوع؟ اشترك مجاناً — كود حقيقي، بدون حشو.