ترانسفورمرز التعلم العميق في التطبيق العملي: الكود والأوامر التي تهم حقاً

ترانسفورمرز في التعلم العميق: الأساسيات في مقال واحد — كود حقيقي، مخططات وخطوات عملية، مقتطفات من دورة مكونة من 43 درسًا.

ترانسفورمرز التعلم العميق في التطبيق العملي: الكود والأوامر التي تهم حقاً

لا توجد نظرية لا نهاية لها هنا: نفتح الطرفية ونمارس. إليك أساسيات Transformers Deep Learning، مستخرجة مباشرة من دورة كاملة تضم 43 درسًا — مع كود حقيقي يمكنك نسخه ولصقه الآن.

tl;dr
  • مقدمة وتثبيت
  • حدود الـ RNN والدافع
  • آلية الانتباه
  • هندسة المحول الكاملة
  • BERT وعائلة المشفر
~$ cat ./parcours.md # Transformers Deep Learning — 10 فصول
01
مقدمة وتثبيت
→ عرض الدورة وثورة المحول→ تثبيت PyTorch و HuggingFace transformers+ 1 دروس أخرى
02
حدود الـ RNN والدافع
→ حدود الـ RNN/LSTM في التطبيق العملي→ مشكلة التوازي+ 2 دروس أخرى
03
آلية الانتباه
→ الانتباه الذاتي: الحدس والمعادلات→ الاستعلامات، المفاتيح، القيم: الثالوث السحري+ 2 دروس أخرى
04
بنية المحول الكاملة
→ الترميز الموضعي: إدخال مفهوم الموقع→ المشفر: البنية الكاملة+ 2 دروس أخرى
05
BERT وعائلة المشفر
→ BERT: نمذجة اللغة المقنعة→ ضبط BERT للتصنيف+ 2 دروس أخرى
06
GPT وعائلة مفكك الشفرة
→ GPT: بنية مفكك الشفرة فقط→ التدريب المسبق السببي (توقع الرمز التالي)+ 2 دروس أخرى
07
T5 ونماذج المشفر-مفكك الشفرة
→ T5: كل شيء كنص إلى نص→ BART للترجمة والتلخيص+ 1 دروس أخرى
08
محولات الرؤية ViT
→ ViT: الصورة كتسلسل من الرقع→ مقارنة ViT مقابل CNN+ 1 دروس أخرى
🏁
المشروع النهائي (+ 2 فصول في الطريق)
→ تعود بمشروع ملموس وقابل للعرض

تثبيت PyTorch و HuggingFace transformers

NOTEالهدف — إعداد بيئة عمل نظيفة وقابلة للتكرار: بايثون معزول، PyTorch مع دعم GPU إن أمكن، ومنظومة HuggingFace (transformers, datasets, tokenizers).

الأهداف التعليمية

TIPعند نهاية هذه الوحدة
  • إنشاء بيئة بايثون افتراضية مخصصة
  • تثبيت PyTorch مع أو بدون CUDA حسب جهازك
  • تثبيت transformers و datasets و accelerate
  • التحقق من اكتشاف GPU
  • فهم دور كل مكتبة

لماذا بيئة معزولة

مكتبات التعلم العميق تتطور بسرعة وتتعارض غالبًا (إصدارات PyTorch و CUDA و numpy). تعزل البيئة الافتراضية تبعيات هذا المشروع عن باقي نظامك. وهي أول ممارسة جيدة لأي عالم بيانات محترف.

العتادالأمر الموصى به
GPU NVIDIA (CUDA 12.x)pip install torch --index-url https://download.pytorch.org/whl/cu121
CPU فقطpip install torch
Apple Silicon (M1/M2/M3)pip install torch (خلفية MPS تلقائية)
WARNINGتنبيه: لا تثبت نسخة CUDA «عشوائيًا» أبدًا. راجع دائمًا أدا�� التكوين الرسمي على pytorch.org، لأن عدم تطابق إصدار CUDA الخاص بـ PyTorch مع تعريفات NVIDIA يمنع اكتشاف GPU.

تثبيت منظومة HuggingFace

توفر HuggingFace الطبقة عالية المستوى. إليك المكتبات الثلاث الأساسية ودور كل منها:

transformers

النماذج المدربة مسبقًا (BERT, GPT, T5...) والـ pipelines الجاهزة للاستخدام.

datasets

الوصول إلى آلاف مجموعات البيانات والتحميل الفعال بالبث.

accelerate

تجريد للتدريب على CPU أو GPU أو متعدد GPU دون تغيير الكود.

تحضير البيانات والتوكينة

NOTEالهدف — تحضير مجموعة بيانات عالية الجودة للضبط الدقيق: جمع، تنظيف، تنسيق، توكينة وتقسيم إلى مجموعات تدريب وتحقق واختبار.

الأهداف التعليمية

TIPعند نهاية هذه الوحدة
  • جمع وتنظيف بيانات نصية
  • تنسيق البيانات حسب المهمة
  • التوكينة بفعالية
  • التقسيم إلى train / validation / test
  • فهم أهمية جودة البيانات

جودة البيانات أولاً

في الضبط الدقيق، جودة البيانات أهم من الكمية. ألف مثال نظيف ومُعلَّم جيدًا أفضل من مائة ألف مثال مشوش. القاعدة الذهبية: garbage in, garbage out.

WARNINGتنبيه: البيانات غير المنظفة جيدًا (تكرارات، HTML متبقٍ، تسميات غير متسقة) تُفسد النموذج بشدة. استثمر الوقت في هذه الخطوة: غالبًا ما تكون هي الفارق.

تنظيف البيانات

Validation

ضبط المعاملات الفائقة، كشف الإفراط في التدريب.

Test

التقييم النهائي، لم يُرَ أثناء التدريب.

TIPنصيحة: حدد دائمًا بذرة عشوائية (seed) لجعل التقسيمات قابلة للتكرار. بدون ذلك، ستتفاوت نتائجك من تشغيل لآخر.

Self-attention: الحدس والمعادلات

NOTEالهدف — الانتقال من الحدس إلى معادلات self-attention: فهم كيفية حساب أوزان الانتباه رسميًا واستخدامها لإنتاج تمثيلات جديدة.

الأهداف التعليمية

TIPعند نهاية هذه الوحدة
  • كتابة معادلة self-attention
  • فهم دور الضرب النقطي كمقياس تشابه
  • رؤية كيف يحول softmax الدرجات إلى أوزان
  • حساب انتباه يدويًا على مثال صغير
  • تنفيذ self-attention بسيط في PyTorch

من الحدس إلى الأرقام

يُمثَّل كل كلمة بمتجه. لقياس مدى تأثير كلمتين على بعضهما، نستخدم الضرب النقطي لمتجهيهما: كلما كان أكبر، كانت الكلمتان «متوائمتين» أكثر، وبالتالي أكثر صلة. هذه اللبنة الأساسية.

العنصرالدور
Q @ K^Tدرجات التشابه بين كل زوج من الكلمات
/ sqrt(d_k)التطبيع لتثبيت التدرجات
softmax(...)تحويل الدرجات إلى أوزان مجموعها 1
... @ Vالمتوسط المرجح للقيم
NOTEملاحظة: في هذه الوحدة الأولى، نفترض أن Q و K و V تساوي embeddings الكلمات. في الوحدة التالية، سنرى أنها تُحصل عليها فعليًا من إسقاطات خطية منفصلة.

دور softmax

يحول softmax متجه الدرجات إلى توزيع احتمالي: تصبح جميع القيم موجبة ومجموعها يساوي 1. وهكذا يوزع كل كلمة 100٪ من «انتباهه» بين كل كلمات الجملة.

va-plus-loin

يغطي هذا المقال المقتطفات الأكثر فائدة — الدورة الكاملة Transformers Deep Learning (11 فصول، 43 درسًا، تمارين محلولة ومشروع نهائي) تأخذك إلى النهاية.

./acceder-au-cours-complet cours gratuit : Maîtriser Claude Code

الأسئلة الشائعة

كم من الوقت يلزم لتعلم Transformers Deep Learning؟
مع تقدم منظم (11 فصول، 43 درسًا قصيرًا وعمليًا)، يمكن الوصول إلى مستوى تشغيلي في بضعة أسابيع بمعدل 30 إلى 60 دقيقة يوميًا. المهم هو تطبيق كل مفهوم فورًا.
هل هناك متطلبات سابقة؟
يفضل الإلمام بأساسيات المجال: هذا المحتوى يتعمق مع حالات حقيقية.
من أين نبدأ عمليًا؟
نفذ أوامر هذا المقال، ثم تابع الدورة الكاملة Transformers Deep Learning: تتسلسل فيها الـ 43 درسًا بالترتيب مع تمارين ومشروع نهائي.

📬 هل تريد تلقي هذا النوع من الأدلة كل أسبوع؟ اشترك مجانًا — كود حقيقي، بدون كلام زائد.