Machine & Deep Learning

ترانسفورمرز التعلم العميق في التطبيق العملي: الكود والأوامر التي تهم حقاً

ترانسفورمرز في التعلم العميق: الأساسيات في مقال واحد — كود حقيقي، مخططات وخطوات عملية، مقتطفات من دورة مكونة من 43 درسًا.

REHOUMA Haythem

12 Jun 2026 • 7 min read

لا توجد نظرية لا نهاية لها هنا: نفتح الطرفية ونمارس. إليك أساسيات Transformers Deep Learning، مستخرجة مباشرة من دورة كاملة تضم 43 درسًا — مع كود حقيقي يمكنك نسخه ولصقه الآن.

tl;dr

مقدمة وتثبيت
حدود الـ RNN والدافع
آلية الانتباه
هندسة المحول الكاملة
BERT وعائلة المشفر

~$ cat ./parcours.md # Transformers Deep Learning — 10 فصول

مقدمة وتثبيت

→ عرض الدورة وثورة المحول→ تثبيت PyTorch و HuggingFace transformers+ 1 دروس أخرى

حدود الـ RNN والدافع

→ حدود الـ RNN/LSTM في التطبيق العملي→ مشكلة التوازي+ 2 دروس أخرى

آلية الانتباه

→ الانتباه الذاتي: الحدس والمعادلات→ الاستعلامات، المفاتيح، القيم: الثالوث السحري+ 2 دروس أخرى

بنية المحول الكاملة

→ الترميز الموضعي: إدخال مفهوم الموقع→ المشفر: البنية الكاملة+ 2 دروس أخرى

BERT وعائلة المشفر

→ BERT: نمذجة اللغة المقنعة→ ضبط BERT للتصنيف+ 2 دروس أخرى

GPT وعائلة مفكك الشفرة

→ GPT: بنية مفكك الشفرة فقط→ التدريب المسبق السببي (توقع الرمز التالي)+ 2 دروس أخرى

T5 ونماذج المشفر-مفكك الشفرة

→ T5: كل شيء كنص إلى نص→ BART للترجمة والتلخيص+ 1 دروس أخرى

محولات الرؤية ViT

→ ViT: الصورة كتسلسل من الرقع→ مقارنة ViT مقابل CNN+ 1 دروس أخرى

🏁

المشروع النهائي (+ 2 فصول في الطريق)

→ تعود بمشروع ملموس وقابل للعرض

تثبيت PyTorch و HuggingFace transformers

NOTEالهدف — إعداد بيئة عمل نظيفة وقابلة للتكرار: بايثون معزول، PyTorch مع دعم GPU إن أمكن، ومنظومة HuggingFace (transformers, datasets, tokenizers).

الأهداف التعليمية

TIPعند نهاية هذه الوحدة

إنشاء بيئة بايثون افتراضية مخصصة
تثبيت PyTorch مع أو بدون CUDA حسب جهازك
تثبيت transformers و datasets و accelerate
التحقق من اكتشاف GPU
فهم دور كل مكتبة

لماذا بيئة معزولة

مكتبات التعلم العميق تتطور بسرعة وتتعارض غالبًا (إصدارات PyTorch و CUDA و numpy). تعزل البيئة الافتراضية تبعيات هذا المشروع عن باقي نظامك. وهي أول ممارسة جيدة لأي عالم بيانات محترف.

العتاد	الأمر الموصى به
GPU NVIDIA (CUDA 12.x)	`pip install torch --index-url https://download.pytorch.org/whl/cu121`
CPU فقط	`pip install torch`
Apple Silicon (M1/M2/M3)	`pip install torch` (خلفية MPS تلقائية)

WARNINGتنبيه: لا تثبت نسخة CUDA «عشوائيًا» أبدًا. راجع دائمًا أدا�� التكوين الرسمي على pytorch.org، لأن عدم تطابق إصدار CUDA الخاص بـ PyTorch مع تعريفات NVIDIA يمنع اكتشاف GPU.

تثبيت منظومة HuggingFace

توفر HuggingFace الطبقة عالية المستوى. إليك المكتبات الثلاث الأساسية ودور كل منها:

transformers

النماذج المدربة مسبقًا (BERT, GPT, T5...) والـ pipelines الجاهزة للاستخدام.

datasets

الوصول إلى آلاف مجموعات البيانات والتحميل الفعال بالبث.

accelerate

تجريد للتدريب على CPU أو GPU أو متعدد GPU دون تغيير الكود.

تحضير البيانات والتوكينة

NOTEالهدف — تحضير مجموعة بيانات عالية الجودة للضبط الدقيق: جمع، تنظيف، تنسيق، توكينة وتقسيم إلى مجموعات تدريب وتحقق واختبار.

الأهداف التعليمية

TIPعند نهاية هذه الوحدة

جمع وتنظيف بيانات نصية
تنسيق البيانات حسب المهمة
التوكينة بفعالية
التقسيم إلى train / validation / test
فهم أهمية جودة البيانات

جودة البيانات أولاً

في الضبط الدقيق، جودة البيانات أهم من الكمية. ألف مثال نظيف ومُعلَّم جيدًا أفضل من مائة ألف مثال مشوش. القاعدة الذهبية: garbage in, garbage out.

WARNINGتنبيه: البيانات غير المنظفة جيدًا (تكرارات، HTML متبقٍ، تسميات غير متسقة) تُفسد النموذج بشدة. استثمر الوقت في هذه الخطوة: غالبًا ما تكون هي الفارق.

تنظيف البيانات

Validation

ضبط المعاملات الفائقة، كشف الإفراط في التدريب.

Test

التقييم النهائي، لم يُرَ أثناء التدريب.

TIPنصيحة: حدد دائمًا بذرة عشوائية (seed) لجعل التقسيمات قابلة للتكرار. بدون ذلك، ستتفاوت نتائجك من تشغيل لآخر.

Self-attention: الحدس والمعادلات

NOTEالهدف — الانتقال من الحدس إلى معادلات self-attention: فهم كيفية حساب أوزان الانتباه رسميًا واستخدامها لإنتاج تمثيلات جديدة.

الأهداف التعليمية

TIPعند نهاية هذه الوحدة

كتابة معادلة self-attention
فهم دور الضرب النقطي كمقياس تشابه
رؤية كيف يحول softmax الدرجات إلى أوزان
حساب انتباه يدويًا على مثال صغير
تنفيذ self-attention بسيط في PyTorch

من الحدس إلى الأرقام

يُمثَّل كل كلمة بمتجه. لقياس مدى تأثير كلمتين على بعضهما، نستخدم الضرب النقطي لمتجهيهما: كلما كان أكبر، كانت الكلمتان «متوائمتين» أكثر، وبالتالي أكثر صلة. هذه اللبنة الأساسية.

العنصر	الدور
`Q @ K^T`	درجات التشابه بين كل زوج من الكلمات
`/ sqrt(d_k)`	التطبيع لتثبيت التدرجات
`softmax(...)`	تحويل الدرجات إلى أوزان مجموعها 1
`... @ V`	المتوسط المرجح للقيم

NOTEملاحظة: في هذه الوحدة الأولى، نفترض أن Q و K و V تساوي embeddings الكلمات. في الوحدة التالية، سنرى أنها تُحصل عليها فعليًا من إسقاطات خطية منفصلة.

دور softmax

يحول softmax متجه الدرجات إلى توزيع احتمالي: تصبح جميع القيم موجبة ومجموعها يساوي 1. وهكذا يوزع كل كلمة 100٪ من «انتباهه» بين كل كلمات الجملة.

va-plus-loin

يغطي هذا المقال المقتطفات الأكثر فائدة — الدورة الكاملة Transformers Deep Learning (11 فصول، 43 درسًا، تمارين محلولة ومشروع نهائي) تأخذك إلى النهاية.

./acceder-au-cours-complet cours gratuit : Maîtriser Claude Code

الأسئلة الشائعة

كم من الوقت يلزم لتعلم Transformers Deep Learning؟

مع تقدم منظم (11 فصول، 43 درسًا قصيرًا وعمليًا)، يمكن الوصول إلى مستوى تشغيلي في بضعة أسابيع بمعدل 30 إلى 60 دقيقة يوميًا. المهم هو تطبيق كل مفهوم فورًا.

هل هناك متطلبات سابقة؟

يفضل الإلمام بأساسيات المجال: هذا المحتوى يتعمق مع حالات حقيقية.

من أين نبدأ عمليًا؟

نفذ أوامر هذا المقال، ثم تابع الدورة الكاملة Transformers Deep Learning: تتسلسل فيها الـ 43 درسًا بالترتيب مع تمارين ومشروع نهائي.

./a-lire-aussi

→ Lance-toi en Machine Learning Débutants : ton premier pas concret aujourd'hui → Machine Learning Simplifié en pratique : le code et les commandes qui comptent vraiment → Apprentissage Automatique Python : les 9 étapes clés pour passer de zéro à opérationnel

📬 هل تريد تلقي هذا النوع من الأدلة كل أسبوع؟ اشترك مجانًا — كود حقيقي، بدون كلام زائد.

تثبيت PyTorch و HuggingFace transformers

الأهداف التعليمية

لماذا بيئة معزولة

تثبيت منظومة HuggingFace

transformers

datasets

accelerate

تحضير البيانات والتوكينة

الأهداف التعليمية

جودة البيانات أولاً

تنظيف البيانات

Validation

Test

Self-attention: الحدس والمعادلات

الأهداف التعليمية

من الحدس إلى الأرقام

دور softmax

الأسئلة الشائعة

Stay up to date