شرح بسيط للتعلم التعزيزي (مع مخططات وكود حقيقي)
التعلم المعزز: الأساسيات في مقال واحد — كود حقيقي، مخططات وخطوات ملموسة، مقتطفات من دورة تتكون من 45 درسًا.
دليل مباشر وموجز: Reinforcement Learning مفكك بالرسوم البيانية والأمثلة العملية والأوامر المجربة. كل المحتوى مستمد من دورة منظمة تضم 16 فصلاً — وإليكم أفضل ما فيها.
- المقدمة والتثبيت
- أساسيات التعلم التعزيزي
- عملية قرار ماركوف
- تعلم Q التقليدي
- البرمجة الديناميكية
أول بيئة Gymnasium (FrozenLake)
reset / step، ومفهوم الحلقة (episode)، وتشغيل وكيل عشوائي على لعبة FrozenLake.الأهداف التعليمية
- إنشاء بيئة باستخدام
gym.make - فهم طريقتي
resetوstep - تحديد فضاء الملاحظة وفضاء الإجراء
- كتابة حلقة حلقة كاملة
- تشغيل وكيل عشوائي ومراقبة نتيجته
FrozenLake: ساحة اللعب
FrozenLake عبارة عن شبكة 4×4 تمثل بحيرة متجمدة. يبدأ الوكيل من نقطة البداية (S) ويجب أن يصل إلى الهدية (G) عبر الجليد الصلب (F) مع تجنب الثقوب (H) التي تؤدي إلى الخسارة. بسيطة ومرئية ومثالية للمبتدئين.
is_slippery=True). قد ينزلق الوكيل الذي يريد الذهاب يمينًا وينتهي في مكان آخر. هذا يضيف عنصر العشوائية ويجعل المشكلة أكثر إثارة. يمكن تعطيل هذه الخاصية عند البداية.الواجهة العالمية: reset وstep
تشترك جميع بيئات Gymnasium في نفس الواجهة، وهذا ما يجعل كتابة الوكلاء سهلة. طريقتان فقط تكفيان.
reset()
يعيد البيئة إلى حالتها الأولية ويعيد الحالة الأولى. يُستدعى في بداية كل حلقة (جزء كامل من اللعب).
step(action)
ينفذ إجراءً ويعيد خمس قيم: الحالة الجديدة، المكافأة، ما إذا انتهت الحلقة، ما إذا تم اقتطاعها، ومعلومات إضافية.
env.close() في النهاية، خاصة مع العرض الرسومي. وإلا قد تبقى نوافذ وهمية مفتوحة وتستهلك الذاكرة.تصور اللعبة
لرؤية الوكيل يلعب على الشاشة، أضف وضع العرض:
حل FrozenLake باستخدام Value Iteration
الأهداف التعليمية
- كتابة Value Iteration كاملاً لـ FrozenLake
- استخراج السياسة المثلى من V*
- تقييم الوكيل على عدد كبير من الحلقات
- تفسير القيم والسياسة الناتجة
- فهم تأثير الجليد الزلق
الخطوة 1: الوصول إلى نموذج FrozenLake
توفر FrozenLake نموذجها الكامل عبر env.unwrapped.P. وهو قاموس يعطي، لكل حالة وكل إجراء، قائمة الانتقالات الممكنة.
هندسة DQN باستخدام PyTorch
الأهداف التعليمية
- تعريف شبكة باستخدام
nn.Module - اختيار حجم المدخل والمخرج حسب البيئة
- فهم دور الطبقات المخفية وReLU
- إجراء تنبؤ (forward pass)
- فهم أن المخرج يعطي قيمة Q لكل إجراء
تشريح DQN
DQN الخاص بـ CartPole شبكة بسيطة جدًا: تأخذ الأرقام الأربعة للحالة، تمررها عبر طبقتين مخفيتين، وتنتج قيمتين Q (واحدة لكل إجراء: يسار، يمين).
تغطي هذه المقالة أكثر المقتطفات فائدة — الدورة الكاملة Reinforcement Learning (16 فصلاً، 45 درسًا، تمارين محلولة ومشروع ختامي) تأخذك حتى النهاية.
./acceder-au-cours-complet cours gratuit : Maîtriser Claude Codeالأسئلة الشائعة
كم من الوقت يلزم لتعلم Reinforcement Learning؟
هل هناك متطلبات سابقة؟
من أين نبدأ عمليًا؟
📬 هل تريد تلقي هذا النوع من الأدلة كل أسبوع؟ اشترك مجانًا — كود حقيقي، بدون حشو.