ابدأ في التعلم الآلي للمبتدئين: خطوتك الأولى الملموسة اليوم

تعلم الآلة للمبتدئين: الأساسيات في مقال واحد — كود حقيقي، مخططات وخطوات ملموسة، مقتطفات من دورة مكونة من 44 درسًا.

ابدأ في التعلم الآلي للمبتدئين: خطوتك الأولى الملموسة اليوم

أفضل طريقة لتعلم تعلم الآلة للمبتدئين هي بالممارسة. يضعك هذا المقال على الطريق الصحيح مع مقتطفات عملية مستمدة من دورة تضم 44 درسًا — ما يكفي للحصول على نتيجة أولى اليوم.

tl;dr
  • مقدمة والخطوات الأولى
  • التعلم من البيانات
  • العائلات الثلاث الكبرى للتعلم الآلي
  • التصنيف مقابل الانحدار
  • النموذج الأول باستخدام Orange
~$ cat ./parcours.md # تعلم الآلة للمبتدئين — 10 فصول
01
مقدمة والخطوات الأولى
→ عرض الدورة وما هو تعلم الآلة ؟→ تعلم الآلة حولك — 10 أمثلة يومية+ 1 دروس أخرى
02
التعلم من البيانات
→ البيانات، الأمثلة والتسميات→ إيجاد الأنماط — حدس بصري+ 2 دروس أخرى
03
العائلات الثلاث الكبرى لتعلم الآلة
→ التعلم المشرف — التنبؤ بالأمثلة→ التعلم غير المشرف — إيجاد المجموعات+ 2 دروس أخرى
04
التصنيف مقابل الانحدار
→ التصنيف — تصنيف الأشياء→ الانحدار — التنبؤ برقم+ 2 دروس أخرى
05
النموذج الأول باستخدام Orange
→ تثبيت Orange وجولة في الواجهة→ تحميل مجموعة بيانات تيتانيك واستكشافها+ 2 دروس أخرى
06
تقييم نموذج
→ الدقة (accuracy) — مفيدة لكن مضللة→ مصفوفة الالتباس — قراءة الأخطاء+ 2 دروس أخرى
07
الإفراط في التعلم والنقص في التعلم
→ Underfitting — النموذج الغبي جدا→ Overfitting — النموذج الذي يحفظ عن ظهر قلب+ 2 دروس أخرى
08
حالات استخدام الأعمال
→ التسويق — التجزئة ومكافحة الانسحاب→ المالية — تسجيل الائتمان والاحتيال+ 1 دروس أخرى
🏁
المشروع النهائي (+ 2 فصول في الطريق)
→ تعود بمشروع ملموس وقابل للعرض

التدريب مقابل الاختبار — لماذا الفصل؟

NOTEالهدف — فهم لماذا يجب دائمًا فصل البيانات إلى مجموعتين (التدريب والاختبار)، وكيف يتيح ذلك تقييم القدرة الحقيقية على التعميم للنموذج، وتجنب الفخ الرئيسي المتمثل في الاختبار على بيانات التدريب.

الأهداف التعليمية

TIPعند إتمام هذه الوحدة
  • فهم الفرق بين الحفظ والتعميم
  • معرفة نسب الفصل الكلاسيكية (80/20، 70/30)
  • التمييز بين مجموعة التدريب والتحقق والاختبار
  • فهم التحقق المتقاطع (cross-validation)
  • تحديد فخ "تسرب البيانات" (data leakage)

الفخ: الاختبار على بيانات التدريب

تخيل طالبًا يستعد لامتحان. يعطيه الأستاذ 50 تمرينًا مع حلولها، ويقول له "ادرسها جيدًا". يوم الامتحان، يطرح الأستاذ نفس الـ50 تمرينًا. قد يحصل الطالب على 100% دون فهم شيء: لقد حفظ فقط.

هذا بالضبط ما يحدث إذا اختبرت نموذج تعلم آلي على البيانات التي تم تدريبه عليها. قد "يحفظ" نموذج مفرط البارامترات الأمثلة ويحصل على 100% في التدريب، بينما يكون عديم الفائدة تمامًا على بيانات جديدة.

WARNINGالقاعدة المطلقة: لا يجب أبدًا استخدام البيانات المستخدمة لتدريب النموذج لتقييمه. بدون فصل، تكون مقاييسك مضللة.

الحل: تقسيم التدريب/الاختبار

الحل بسيط: نقسم مجموعة البيانات إلى حزمتين عشوائيًا قبل التدريب.

مجموعة التدريب (train)

70 إلى 80% من البيانات. تستخدم لتدريب النموذج. هي "دفتر التمارين مع الحلول" الذي يدرسه الطالب.

مجموعة الاختبار (test)

20 إلى 30% من البيانات. تستخدم لتقييم النموذج بعد التدريب. هي الامتحان النهائي بتمارين لم تُرَ من قبل.

المجموعةالنسبةالدور
Train60–70%تدريب معاملات النموذج
Validation15–20%ضبط البارامترات الفائقة، مقارنة عدة نماذج
Test15–20%التقييم النهائي، مرة واحدة فقط، في النهاية

لماذا ثلاث حزم؟ لأنك إذا ضبطت نموذجك بالنظر إلى نتائج الاختبار، تنتهي بـ"الإفراط في التحسين" لهذا الاختبار بالذات: فيصبح هو نفسه شكلاً من التدريب غير المباشر.

TIPالقاعدة الذهبية: لا يجب لمس مجموعة الاختبار إلا مرة واحدة، في نهاية المشروع تمامًا، لإنتاج الرقم الرسمي. كل التجارب الوسيطة تتم على مجموعة التحقق.

التحقق المتقاطع (k-fold cross-validation)

مشكلة التقسيم البسيط تدريب/اختبار: تعتمد النتيجة على البيانات التي وقعت في الاختبار. سحب سيء = مقياس متشائم أو متفائل.

يحل التحقق المتقاطع بـk طيات هذا بأخذ المتوسط على عدة تقسيمات:

تسرب البيانات: الفخ الخفي

تسرب البيانات (data leakage) هو الخطأ الأكثر دقة والأكثر شيوعًا. يحدث عندما "تتسرب" معلومات من الاختبار إلى التدريب، مما يعطي نتائج جيدة اصطناعيًا في التحقق لكنها كارثية في الإنتاج.

أمثلة نمطية

كيفية تجنبه

WARNINGالعرض المميز: نموذج بنسبة 99% في التحقق، 60% في الإنتاج. يكون ذلك دائمًا تقريبًا بسبب تسرب البيانات.

تصور النموذج وتنبؤاته

NOTEالهدف — تصور شجرة القرار المدربة وملاحظة تنبؤاتها على ركاب جدد، لفهم ما تعلمه النموذج عمليًا.

الأهداف التعليمية

TIPعند إتمام هذه الوحدة
  • تصور شجرة باستخدام ويدجت Tree Viewer
  • قراءة القواعد التي تعلمها النموذج
  • إجراء تنبؤات باستخدام ويدجت Predictions
  • إكمال أول سير عمل كامل

رؤية الشجرة: ويدجت Tree Viewer

الميزة الكبرى لشجرة القرار هي إمكانية رؤيتها. يرسم ويدجت Tree Viewer الشجرة فرعًا بفرع، مع أسئلتها وإجاباتها.

TIPنصيحة: هذه الشفافية ميزة كبيرة. في السياق المهني، غالبًا ما يكون القدرة على شرح سبب قرار النموذج بنفس أهمية دقته.

إجراء التنبؤات: ويدجت Predictions

لتطبيق النموذج على حالات جديدة، نستخدم ويدجت Predictions. يأخذ مدخلين: النموذج المدرب والبيانات المراد التنبؤ بها.

العثور على الأنماط — الحدس البصري

NOTEالهدف — فهم ما هو "النمط" (النمط المتكرر) في البيانات بشكل حدسي، وكيف يمكن للآلة اكتشافه بصريًا، ولماذا يتيح هذا الاكتشاف بعد ذلك إجراء تنبؤات على حالات جديدة.

الأهداف التعليمية

TIPعند إتمام هذه الوحدة
  • تعريف ما هو النمط في تعلم الآلة
  • تصور نمط في سحابة نقاط
  • فهم مفهوم حدود القرار
  • التمييز بين نمط بسيط (خطي) ونمط معقد (غير خطي)
  • استيعاب الرابط بين النمط المكتشف والتعميم

ما هو النمط؟

النمط (بالفرنسية: motif récurrent) هو انتظام إحصائي في البيانات. هو ما تبحث عنه الآلة لاكتشافه لتتمكن من إجراء التنبؤات.

NOTEالرهان الأساسي: إذا وجد النموذج نمطًا حقيقيًا (يتكرر في الواقع)، يمكنه إعادة استخدامه على بيانات جديدة. هذا ما يُسمى التعميم: تطبيق ما تم تعلمه على حالات لم تُرَ من قبل.

التصور: سحابة نقاط وحدودها

أبسط طريقة لتصور نمط: رسم بياني بميزتين. لنفترض مجموعة بيانات لزهور بميزتين (طول البتلة، عرض البتلة) ونوعين (A وB).

TIPهذا جوهر التعلم الآلي المشرف: إيجاد حدود (أو دالة) تفصل أو تتنبأ بشكل صحيح بالأمثلة المرصودة، مع الأمل أن تعمل أيضًا على الأمثلة المستقبلية.

الأنماط الخطية مقابل غير الخطية

ليس كل الأنماط متساوية في التعقيد.

نمط خطي

الحدود خط مستقيم (أو مستوى في 3D، أو مستوى فائق في N أبعاد).

مثال: "كلما زادت جرعة السكر، زاد خطر الإصابة بالسكري" (علاقة مباشرة).

الخوارزميات المناسبة: الانحدار الخطي، الانحدار اللوجستي، SVM خطي.

نمط غير خطي

الحدود منحنية، لولبية، أو أشكال معقدة.

مثال: "يزداد خطر السرطان مع العمر، لكنه يعتمد أيضًا على تركيبات معقدة (الوراثة، نمط الحياة)".

الخوارزميات المناسبة: أشجار القرار، الغابات العشوائية، الشبكات العصبية، XGBoost.

WARNINGالفخ الكلاسيكي: استخدام نموذج خطي على مشكلة غير خطية = نقص التعلم (النموذج بسيط جدًا). والعكس، استخدام نموذج معقد جدًا على مشكلة بسيطة = الإفراط في التعلم (النموذج يتعلم الضوضاء). سنرى ذلك بالتفصيل في الفصل 06.

النمط ليس القاعدة النهائية: مجرد تقريب

مهم: نمط تعلم الآلة ليس أبدًا قاعدة مطلقة. إنه اتجاه إحصائي. يعطي النموذج احتمالات، لا يقينًا.

النمط المكتشفالحالات التي يعمل فيهاالحالات التي يفشل فيها
"البريد الإلكتروني الذي يحتوي 'ربحت 1M€' = سبام"95% من الحالاتاليانصيب الرسمي الذي فزت به فعليًا
"شاب + رصيد صغير = يلغي"70% من الحالاتطالب سيبقى عميلاً 30 سنة
"بكسلات حمراء دائرية = تفاحة"80% من الحالاتطماطم، فراولة، كرة

لهذا السبب يُقيَّم كل نموذج تعلم آلي بمقاييس (الدقة، الاستدعاء، إلخ). لا نبحث عن الكمال بل عن أفضل أداء ممكن — مع العلم أن هناك دائمًا أخطاء.

لماذا يغير البعد كل شيء: لعنة الأبعاد

عندما يكون لديك ميزتان، يمكنك رسم رسم بياني ثنائي الأبعاد ورؤية الأنماط. مع ثلاث ميزات، لا يزال ممكنًا (ثلاثي الأبعاد). لكن عمليًا، غالبًا ما تحتوي مجموعات البيانات على 10، 100، أحيانًا 1000 ميزة. يصبح التصور مستحيلاً.

va-plus-loin

يغطي هذا المقال المقتطفات الأكثر فائدة — الدورة الكاملة تعلم الآلة للمبتدئين (11 فصلاً، 44 درسًا، تمارين محلولة ومشروع نهائي) تأخذك إلى النهاية.

./acceder-au-cours-complet دورة مجانية: إتقان Claude Code

الأسئلة الشائعة

كم من الوقت لتعلم تعلم الآلة للمبتدئين؟
مع تقدم منظم (11 فصلاً، 44 درسًا قصيرًا وعمليًا)، يمكن الوصول إلى مستوى تشغيلي في بضعة أسابيع بمعدل 30 إلى 60 دقيقة يوميًا. المهم هو ممارسة كل مفهوم فورًا.
هل هناك متطلبات مسبقة؟
لا متطلبات مسبقة: تبدأ الدورة من الصفر، ويُقدم كل مفهوم قبل استخدامه.
من أين نبدأ عمليًا؟
أعد إنتاج أوامر هذا المقال، ثم تابع الدورة الكاملة تعلم الآلة للمبتدئين: تتسلسل فيها الـ44 درسًا بالترتيب، مع تمارين ومشروع نهائي.

📬 هل تريد تلقي هذا النوع من الأدلة كل أسبوع؟ اشترك مجانًا — كود حقيقي، بدون كلام فارغ.