Data & Big Data

أساسيات معمارية البيانات الضخمة موضحة ببساطة (مع مخططات وكود حقيقي)

أساسيات معمارية البيانات الضخمة: الأساسيات في مقال واحد — كود حقيقي، مخططات وخطوات ملموسة، مقتطفات من دورة مكونة من 43 درسًا.

REHOUMA Haythem

12 Jun 2026 • 8 min read

دليل مباشر وموجز: Big Data Fundamentals Architecture مفكك بالرسوم البيانية والأمثلة العملية والأوامر المجربة. كل ذلك مستمد من دورة منظمة تضم 11 فصلاً — إليك أفضل ما فيها.

tl;dr

مقدمة في البيانات الضخمة
المعماريات الموزعة
نظام Hadoop البيئي
Apache Spark
البث والوقت الفعلي

~$ cat ./parcours.md # Big Data Fundamentals Architecture — 10 فصول

مقدمة في البيانات الضخمة

→ عرض الدورة وتعريف البيانات الضخمة→ الـ5 V — Volume, Vélocité, Variété, Véracité, Valeur+ 1 دروس أخرى

البنى الموزعة

→ قابلية التوسع الأفقي مقابل الرأسي→ نظرية CAP — الاتساق، التوافر، التقسيم+ 2 دروس أخرى

نظام Hadoop البيئي

→ HDFS، التخزين الموزع الضخم→ YARN، إدارة موارد العنقود+ 2 دروس أخرى

Apache Spark

→ بنية Spark: driver، executors، مدير العنقود→ RDD، DataFrame، Dataset: أي تختار؟+ 2 دروس أخرى

البث والوقت الفعلي

→ Apache Kafka: topics، partitions، producers، consumers→ Spark Structured Streaming+ 2 دروس أخرى

تخزين Data Lake و Lakehouse

→ مستودع البيانات مقابل Data Lake مقابل Lakehouse→ تنسيقات العمودية: Parquet، ORC+ 2 دروس أخرى

أنماط البنية

→ بنية Lambda (طبقة الدفعات + السرعة)→ بنية Kappa (بث نقي)+ 2 دروس أخرى

السحابة والحلول الحديثة

→ AWS Big Data: EMR، Glue، Athena، Redshift→ Databricks و Lakehouse الموحد

🏁

المشروع النهائي (+ 2 فصول في الطريق)

→ تنطلق بمشروع ملموس وقابل للعرض

اختبارات الجودة: Great Expectations، اختبارات dbt

NOTEالهدف — تعلم كيفية التحقق التلقائي من جودة البيانات داخل مسار Big Data. ستتمكن من تعريف التوقعات (expectations) باستخدام Great Expectations، وكتابة اختبارات dbt، وفهم الأبعاد الستة لجودة البيانات.

الأهداف التعليمية

TIPعند إتمام هذه الوحدة

سرد الأبعاد الستة لجودة البيانات
كتابة مجموعة expectations باستخدام Great Expectations
تعريف اختبارات dbt (عامة ومخصصة)
الاختيار بين التحقق الحاجز والتنبيه غير الحاجز
دمج اختبارات الجودة في مسار مؤتمت

الأبعاد الستة للجودة

قبل الاختبار، يجب معرفة ما يُختبر. تقاس جودة البيانات وفق ستة أبعاد كلاسيكية. يغطي المسار القوي الأبعاد الستة كلها، وليس فقط «القيم ليست فارغة».

البعد	السؤال المطروح	مثال على الاختبار
الاكتمال	هل تفتقد قيم؟	لا يوجد `email` NULL
التفرد	هل توجد تكرارات؟	`id_commande` فريد
الصلاحية	هل التنسيق صحيح؟	`pays` ضمن قائمة ISO
الدقة	هل القيمة منطقية؟	`montant` بين 0 و100000
الاتساق	هل تتوافق الجداول؟	`client_id` موجود في `clients`
الحداثة	هل البيانات محدثة؟	آخر استيعاب < 24 ساعة

Great Expectations: التصريح بالتوقعات

يتيح Great Expectations (GX) التعبير عن الجودة على شكل توقعات مقروءة، شبه بلغة طبيعية. تصبح مجموعة التوقعات عقداً قابلاً للتنفيذ، يُدرج في كتالوج الدرس السابق.

التحقق الحاجز (error)

التنبيه غير الحاجز (warn)

WARNINGتنبيه: من الأفضل الفشل مبكراً (في مرحلة bronze أو silver) بدلاً من نشر بيانات تالفة حتى لوحات gold. قاعدة ذهبية: يجب أن تعمل الاختبارات الحاجزة قبل نشر طبقة gold التي يستخدمها صناع القرار.

الدمج في الأتمتة

تكتسب الاختبارات معناها الكامل عندما تُؤتمت داخل أداة التنسيق (Airflow، Dagster، Databricks Workflows). يشبه المخطط النموذجي ما يلي:

النسب، الأمان، اللائحة العامة لحماية البيانات والحقوق

NOTEالهدف — إكمال الحوكمة بأعمدتها الثلاثة المتبقية: النسب (التتبع من البداية إلى النهاية)، والأمان (التشفير، التحكم في الوصول)، والامتثال للائحة العامة لحماية البيانات (الحق في النسيان، إخفاء البيانات الشخصية). ستعرف ما يجب أن يخطط له أي مشروع Big Data منذ البداية.

الأهداف التعليمية

TIPعند إتمام هذه الوحدة

شرح مفهوم data lineage وأهميته
تطبيق التحكم في الوصول حسب الدور (RBAC)
التمييز بين التشفير في حالة السكون والتشفير أثناء النقل
تحديد التزامات اللائحة العامة لحماية البيانات المتعلقة بالبيانات الضخمة
إخفاء أو إخفاء هوية البيانات الشخصية (PII)

نسب البيانات: تتبع البيانات خطوة بخطوة

يجيب النسب عن سؤالين حاسمين: «من أين أتت هذه العمود؟» (النسب الصاعد) و«ماذا يتأثر إذا عدّلت هذا الجدول؟» (النسب الهابط). في معمارية medallion bronze → silver → gold، يتتبع النسب كل تحويل.

النسب الهابط (downstream)

يُستخدم لـتحليل التأثير: قبل تغيير مخطط، تعرف بالضبط أي لوحات ونماذج تعلم آلي ستتأثر.

NOTEملاحظة: تلتقط الأدوات الحديثة (Unity Catalog، DataHub، OpenLineage) النسب تلقائياً بتحليل استعلامات SQL المنفذة. لا حاجة لتوثيقه يدوياً: يعرف المحرك أن gold.ca_par_pays يقرأ silver.commandes_propres.

الأمان: التشفير والتحكم في الوصول

يعتمد أمان منصة Big Data على طبقتين متكاملتين: حماية البيانات نفسها (التشفير) والتحكم في من يستطيع قراءتها (الوصول).

الإجراء	الدور	مثال
التشفير في حالة السكون	بيانات مشفرة على القرص	S3 SSE-KMS، أقراص مشفرة
التشفير أثناء النقل	بيانات مشفرة على الشبكة	TLS بين الخدمات
RBAC	وصول حسب الدور	مجموعة `analystes` تقرأ gold
ABAC	وصول حسب السمة	إخفاء إذا `tag = PII`
Audit log	تتبع كل وصول	من قرأ ماذا ومتى

مثال: RBAC وإخفاء العمود

التقليل

جمع البيانات الضرورية فقط. عقلية «نحتفظ بكل شيء تحسباً» هي بالضبط ما تحظره اللائحة العامة لحماية البيانات.

الحق في النسيان

يمكن للمستخدم طلب حذف بياناته. يجب التمكن من حذف شخص معين — ومن هنا أهمية تنسيقات Delta/Iceberg التي تدعم DELETE.

التتبع

إثبات من وصل إلى أي بيانات شخصية ومتى. هنا يصبح سجل التدقيق والنسب إلزاميين.

WARNINGتنبيه: في Data Lake بصيغة Parquet الخام (غير قابل للتعديل)، يكلف حذف شخص واحد جهداً كبيراً: يجب إعادة كتابة ملفات كاملة. وهذا أحد أقوى الحجج لصالح Lakehouse (Delta Lake، Iceberg، Hudi) المذكور في الفصل 05: تدعم هذه التنسيقات DELETE وUPDATE سطراً سطراً، مما يجعل الحق في النسيان واقعياً.

مثال: حذف شخص (الحق في النسيان)

التقنية	قابلة للعكس؟	حالة اللائحة العامة لحماية البيانات
إخفاء الهوية	لا، غير قابل للعكس	خارج نطاق اللائحة العامة لحماية البيانات
التهجين	نعم، عبر مفتاح	يبقى خاضعاً للائحة العامة لحماية البيانات

NOTEملاحظة: استبدال اسم بمعرف CLI-90421 هو تهجين وليس إخفاء هوية: إذا احتفظت بجدول الربط، تبقى البيانات شخصية قانوناً. إخفاء الهوية الحقيقي (التجميع، إزالة الرابط نهائياً) هو الوحيد الذي يخرج البيانات من نطاق اللائحة العامة لحماية البيانات.

تقدير التكاليف وخطة التوسع

NOTEالهدف — حساب التكلفة الشهرية لمعماريتك والتخطيط لتوسعها. ستتعلم تقدير بنود الإنفاق، وكتابة ADR (سجلات قرارات المعمارية)، والتخطيط لقابلية التوسع دون الإفراط في الحجم من اليوم الأول.

الأهداف التعليمية

TIPعند إتمام هذه الوحدة

تحديد بنود التكلفة الرئيسية لمنصة Big Data
تقدير ميزانية شهرية تقريبية
كتابة ADR واضح وقابل لإعادة الاستخدام
التمييز بين التوسع الرأسي والأفقي
تطبيق مبادئ FinOps للتحكم في الفاتورة

بنود تكلفة Big Data

تتوزع فاتورة السحابة لمنصة Big Data على عدة بنود رئيسية. معرفتها تساعد على توجيه التحسينات حيث تكون فعالة.

البند	مثال على الخدمة	رافعة التوفير
التخزين	S3، ADLS، GCS	التصنيف (ساخن/بارد)، الضغط
الحوسبة	EMR، Databricks، Dataproc	مثيلات Spot، التوسع التلقائي
البث	Kafka، Kinesis	تحديد حجم الأقسام
الاستعلامات	Athena، BigQuery	التقسيم، التنسيقات العمودية
نقل الشبكة	Egress بين المناطق	البقاء في منطقة واحدة

WARNINGتنبيه: الفخ الأول للتكلفة هو الحوسبة التي تعمل بلا فائدة. عنقود Spark يُترك يعمل ليلاً أو مهمة غير محسنة تفحص 10 تيرابايت بدلاً من 100 غيغابايت قد تضاعف الفاتورة 50 مرة. التخزين نادراً ما يكون المشكلة؛ الحوسبة هي المشكلة دائماً تقريباً.

تقدير: مثال التجارة الإلكترونية

نعود إلى حالة التجارة الإلكترونية (2 تيرابايت/شهر، 5000 حدث/ثانية في الذروة). إليك ميزانية تقريبية. الهدف ليس الدقة بالدولار، بل الترتيب الصحيح للحجم.

رأسي (scale up)

آلات أقوى. بسيط، لكنه محدود ومكلف. محجوز للمكونات التي لا توزع جيداً.

أفقي (scale out)

مزيد من الآلات. هذا هو الوضع الطبيعي للبيانات الضخمة: Kafka يضيف أقساماً، Spark يضيف منفذين، S3 قابل للتوسع بلا حدود.

va-plus-loin

يغطي هذا المقال أكثر المقتطفات فائدة — الدورة الكاملة Big Data Fundamentals Architecture (11 فصلاً، 43 درساً، تمارين محلولة ومشروع نهائي) تأخذك إلى النهاية.

./acceder-au-cours-complet cours gratuit : Maîtriser Claude Code

الأسئلة الشائعة

كم من الوقت يستغرق تعلم Big Data Fundamentals Architecture؟

مع تقدم منظم (11 فصلاً، 43 درساً قصيراً وعملياً)، يمكن الوصول إلى مستوى تشغيلي في بضعة أسابيع بمعدل 30 إلى 60 دقيقة يومياً. المهم هو تطبيق كل مفهوم فوراً.

هل هناك متطلبات سابقة؟

يفضل الإلمام بأساسيات المجال: هذا المحتوى يتعمق مع حالات حقيقية.

من أين نبدأ عملياً؟

طبّق الأوامر الواردة في هذا المقال، ثم تابع الدورة الكاملة Big Data Fundamentals Architecture: تتسلسل فيها الـ43 درساً بالترتيب مع تمارين ومشروع نهائي.

./a-lire-aussi

→ AWS Data Engineering Bootcamp explained simply (with diagrams and real code)→ Lance-toi en AWS Données Temps Réel : ton premier pas concret aujourd'hui → Python Data Science : les 9 étapes clés pour passer de zéro à opérationnel

📬 هل تريد تلقي هذا النوع من الأدلة كل أسبوع؟ اشترك مجاناً — كود حقيقي، بدون حشو.

اختبارات الجودة: Great Expectations، اختبارات dbt

الأهداف التعليمية

الأبعاد الستة للجودة

Great Expectations: التصريح بالتوقعات

التحقق الحاجز (error)

التنبيه غير الحاجز (warn)

الدمج في الأتمتة

النسب، الأمان، اللائحة العامة لحماية البيانات والحقوق

الأهداف التعليمية

نسب البيانات: تتبع البيانات خطوة بخطوة

النسب الهابط (downstream)

الأمان: التشفير والتحكم في الوصول

مثال: RBAC وإخفاء العمود

التقليل

الحق في النسيان

التتبع

مثال: حذف شخص (الحق في النسيان)

تقدير التكاليف وخطة التوسع

الأهداف التعليمية

بنود تكلفة Big Data

تقدير: مثال التجارة الإلكترونية

رأسي (scale up)

أفقي (scale out)

الأسئلة الشائعة

Stay up to date