تحسين هندسة الميزات: الخطوات التسع الرئيسية للانتقال من الصفر إلى التشغيلي
Feature Engineering Optimization : الأساسيات في مقال واحد — كود حقيقي، مخططات وخطوات ملموسة، مقتطفات من دورة مكونة من 43 درسًا.
يمكن للجميع تعلم Feature Engineering Optimization — بشرط اتباع الخطوات بالترتيب الصحيح. لقد لخصنا دورة كاملة من 43 درسًا في مسار واضح، مع أكثر مقتطفات الكود فائدة.
- المقدمة والتثبيت
- استكشاف البيانات وتنظيفها
- ترميز المتغيرات الفئوية
- التحويلات العددية
- الميزات الزمنية والنصية
EDA وهندسة الميزات
الأهداف التعليمية
- إجراء تدقيق سريع وتحديد المشكلات
- معالجة القيم المفقودة والقيم الشاذة
- ترميز الفئويات دون تسرب
- إنشاء ميزات أعمال ذات قيمة مضافة عالية
- تجميع المعالجة المسبقة في ColumnTransformer
التدقيق السريع لمجموعة البيانات
نبدأ بتدقيق لتحديد الأعمدة التي بها مشكلات: القيم المفقودة، الكاردينالية، وانحراف التوزيع.
تثبيت Python وscikit-learn وXGBoost وOptuna
الأهداف التعليمية
- إنشاء بيئة افتراضية معزولة باستخدام venv
- تثبيت حزمة علوم البيانات عبر pip
- فهم سبب ضرورة العزل
- التحقق من إصدارات كل مكتبة
- تشغيل Jupyter Notebook أو JupyterLab
لماذا بيئة افتراضية؟
تخيل ورشة عمل حيث يكون لكل مشروع صندوق أدوات خاص به. إذا خلطت أدوات جميع مشاريعك، قد يؤدي مفتاح ربط من مشروع إلى إتلاف مشروع آخر. تنشئ البيئة الافتراضية (venv) صندوق أدوات معزولًا لكل مشروع: لكل مشروع إصداراته الخاصة من المكتبات دون تعارض مع الآخرين.
بدون عزل، قد يؤدي تثبيت XGBoost 2.0 لمشروع إلى إتلاف مشروع قديم يعتمد على XGBoost 1.7. مع venv، يعيش كل مشروع في فقاعته الخاصة.
إنشاء وتفعيل البيئة
افتح طرفية في مجلد مشروعك ونفذ:
إذا ظهر خطأ
تحقق من تفعيل venv (يظهر الموجه (.venv)) وأعد تشغيل pip install للمكتبة الناقصة.
pip freeze > requirements.txt. يمكن لأي شخص (أو أنت بعد ستة أشهر) إعادة إنشاء البيئة نفسها باستخدام pip install -r requirements.txt.تشغيل Jupyter
يمكن متابعة الدورة كاملة داخل الدفاتر. شغّل JupyterLab من venv النشط:
أول خط أنابيب كامل على Iris أو Titanic
الأهداف التعليمية
- تحميل مجموعة بيانات من scikit-learn أو seaborn
- فصل train وtest بشكل صحيح
- تجميع Pipeline scikit-learn أساسي
- تدريب وتقييم نموذج مرجعي (baseline)
- فهم سبب ضرورة baseline
الحدس: وضع مرجع قبل كل شيء
قبل تحسين أي شيء، تحتاج إلى نقطة مقارنة. الـ baseline هو نموذج بسيط وسريع يعطي درجة أولى. يُقاس أي تحسين في هندسة الميزات أو الضبط بالنسبة له. بدون baseline، لا تعرف إن كانت جهودك مجدية.
فكر في سباق: الـ baseline هو وقتك في المحاولة الأولى. من المفترض أن تتفوق كل تحسين على هذا الزمن. إذا لم تتفوق، فهي بلا فائدة.
تحميل مجموعة بيانات Titanic
تحتوي مجموعة بيانات Titanic على الركاب مع فئتهم وجنسهم وعمرهم والهدف survived (0 أو 1). وهي كلاسيكية لتعلم FE لأنها تجمع بين الفئويات والقيم المفقودة.
ما يحدث عند التنبؤ
تُطبق التحويلات نفسها التي تعلمت على train على test، دون إعادة تعلم أي شيء. هذا ما يمنع تسرب البيانات.
تغطي هذه المقالة المقتطفات الأكثر فائدة — الدورة الكاملة Feature Engineering Optimization (11 فصول، 43 درسًا، تمارين مصححة ومشروع نهائي) تأخذك إلى النهاية.
./acceder-au-cours-complet cours gratuit : Maîtriser Claude Codeالأسئلة الشائعة
كم من الوقت لتعلم Feature Engineering Optimization؟
هل هناك متطلبات مسبقة؟
من أين نبدأ عمليًا؟
📬 هل تريد تلقي هذا النوع من الأدلة كل أسبوع؟ اشترك مجانًا — كود حقيقي، بدون كلام فارغ.