EDA بـ pandas وNumPy وMatplotlib وSeaborn: الخطوات التسع الرئيسية من الصفر إلى الاحتراف

EDA pandas NumPy Matplotlib Seaborn: الأساسيات في مقال واحد — كود حقيقي، مخططات وخطوات ملموسة، مقتطفات من دورة مكونة من 44 درسًا.

EDA بـ pandas وNumPy وMatplotlib وSeaborn: الخطوات التسع الرئيسية من الصفر إلى الاحتراف

يمكن للجميع تعلم EDA pandas NumPy Matplotlib Seaborn — بشرط اتباع الخطوات بالترتيب الصحيح. لقد لخصنا دورة كاملة من 44 درسًا في مسار واضح، مع أكثر مقتطفات الكود فائدة.

tl;dr
  • مقدمة في تحليل البيانات
  • المقدمة والتثبيت
  • التعامل مع DataFrames في Pandas
  • تنظيف البيانات وإعدادها
  • الإحصاء الوصفي والتجميع
~$ cat ./parcours.md # EDA pandas NumPy Matplotlib Seaborn — 9 فصول
01
مقدمة في تحليل البيانات
→ تحليل البيانات — مهنة القرن→ الفصل 00 — مصادر بيانات الدورة
02
مقدمة وتثبيت
→ لماذا EDA وهذه المكتبات الأربع؟→ تثبيت بيئة العمل الخاصة بك+ 2 دروس أخرى
03
التعامل مع DataFrames Pandas
→ إنشاء وتحميل DataFrame (CSV, Excel, JSON)→ استكشاف DataFrame — head, info, describe, shape+ 1 دروس أخرى
04
تنظيف وإعداد البيانات
→ اكتشاف ومعالجة القيم المفقودة→ حذف التكرارات وتصحيح أنواع البيانات+ 2 دروس أخرى
05
الإحصاء الوصفي والتجميع
→ الاتجاه المركزي والتشتت — المتوسط، الوسيط، الانحراف المعياري→ الارتباط والتباين بين المتغيرات+ 1 دروس أخرى
06
التصور باستخدام Matplotlib
→ مقدمة إلى Matplotlib: Figure وAxes وsubplots→ الرسوم البيانية الأساسية: أعمدة، خطوط، تبعثر+ 1 دروس أخرى
07
التصور المتقدم باستخدام Seaborn
→ مقدمة إلى Seaborn: histplot، boxplot، violinplot→ تصور العلاقات: scatterplot وخريطة حرارية للارتباط+ 2 دروس أخرى
08
تحليل استكشافي كامل
→ منهجية EDA: الخطوات الـ5 لتحليل جيد→ اكتشاف القيم الشاذة والشذوذ في البيانات+ 1 دروس أخرى
🏁
المشروع النهائي (+ 1 فصول في الطريق)
→ ستخرج بمشروع ملموس وقابل للعرض

تثبيت بيئة العمل الخاصة بك

NOTEما ستتعلمه — الاختيار بين Google Colab (بدون تثبيت، داخل المتصفح) وAnaconda + Jupyter (التثبيت المحلي)، ثم تثبيت NumPy وPandas وMatplotlib وSeaborn، والتحقق من عمل كل شيء باستخدام سكريبت اختبار.

0. Google Colab — الخيار بدون تثبيت

Google Colaboratory (Colab) هو بيئة Jupyter مجانية تعمل مباشرة في متصفحك، دون أي تثبيت. تعمل على خوادم Google وتتضمن بالفعل NumPy وPandas وMatplotlib وSeaborn مثبتة مسبقًا.

TIPتشبيه — Google Colab يشبه العمل في مكتب مجهز يقرضه لك Google مجانًا. لا تحتاج إلى إحضار أي شيء: المكتب والأدوات والمكتبات موجودة بالفعل. تفتح متصفحك وتبدأ العمل فورًا.

كيفية البدء مع Google Colab

التحقق من الإصدارات المثبتة مسبقًا في Colab

في الخلية الأولى من دفتر Colab الخاص بك، انسخ ونفذ هذا الكود:

output
import numpy as np
import pandas as pd
import matplotlib
import seaborn as sns

print("NumPy     :", np.__version__)
print("Pandas    :", pd.__version__)
print("Matplotlib:", matplotlib.__version__)
print("Seaborn   :", sns.__version__)
print("\nTout est pret. Bonne analyse !")
output
# الطريقة 1: رفع ملف من جهازك
from google.colab import files
uploaded = files.upload()   # une fenêtre de sélection s'ouvre

import pandas as pd
import io
df = pd.read_csv(io.BytesIO(uploaded['mon_fichier.csv']))

# الطريقة 2: القراءة من Google Drive
from google.colab import drive
drive.mount('/content/drive')
df = pd.read_csv('/content/drive/MyDrive/mon_fichier.csv')

# الطريقة 3: القراءة مباشرة من عنوان URL عام
df = pd.read_csv('https://raw.githubusercontent.com/exemple/repo/main/data.csv')

Python وحده

Anaconda (موصى به)

TIPتشبيه — الاختيار بين Python وحده وAnaconda يشبه الاختيار بين شراء أثاث IKEA قطعة قطعة أو شراء شقة مفروشة بالفعل. كلا الخيارين يعملان، لكن Anaconda يوفر لك وقتًا كبيرًا في البداية.

2. الخطوة 1 — تنزيل Anaconda وتثبيته

التنزيل

التثبيت على Windows

WARNINGWindows فقط — إذا لم تحدد خيار « Add Anaconda to PATH »، استخدم دائمًا Anaconda Prompt (وليس طرفية Windows العادية) لتشغيل أوامر conda وjupyter.

التحقق من التثبيت

افتح Anaconda Prompt (Windows) أو Terminal (macOS/Linux) واكتب:

output
conda --version
output
# إنشاء بيئة باسم "eda-cours" مع Python 3.11
conda create -n eda-cours python=3.11

# تفعيل البيئة
conda activate eda-cours

# التحقق من أن البيئة نشطة (يظهر الاسم بين قوسين)
# (eda-cours) C:\Users\votre_nom>

الخيار أ — باستخدام conda (موصى به)

output
# تثبيت جميع المكتبات بأمر واحد
conda install numpy pandas matplotlib seaborn jupyter -y

التشغيل من الطرفية

output
# تأكد من أن بيئتك نشطة
conda activate eda-cours

# تشغيل Jupyter Notebook
jupyter notebook

الفصل 08 – مقدمة إلى مكتبات علوم البيانات

NOTEأهداف الوحدة
  • فهم ما هي مكتبة Python
  • استيراد مكتبة (import)
  • استيراد وحدة محددة من مكتبة (from ... import)
  • استخدام الأسماء المستعارة (import numpy as np)
  • استخدام مكتبة math كمثال أول
  • تثبيت وتحديث والتحقق من إعدادات مكتبة باستخدام PIP

1. ما هي المكتبة؟

المكتبات هي مجموعات من الوحدات الجاهزة، تتيح إجراء معالجات معقدة في بضعة أسطر. وهي كثيرة جدًا:

💻 مكتبات CPU قياسية

🌞 مكتبات GPU NVIDIA RAPIDS

2. استيراد مكتبة — مكتبة math

مكتبة math هي المثال المثالي لفهم عمليات الاستيراد. وهي مدمجة في Python، ولا تحتاج إلى تثبيت.

التوثيق الرسمي: docs.python.org/2/library/math.html

2.1 الاستيراد الكامل

output
import math

# Arrondir au supérieur
print(math.ceil(0.1))    # arrondi au supérieur
NOTEقاعدة%command ينطبق على سطر واحد فقط. %%command ينطبق على الخلية بأكملها. يجب أن يكون الأمر %% في السطر الأول من الخلية.

6.1 قياس وقت التنفيذ

الأمرالوصفمثال
%timeقياس وقت سطر واحد%time sum(range(1_000_000))
%%timeقياس وقت الخلية بأكملهاوضعه في السطر الأول من الخلية
%timeitتنفيذ السطر N مرة، يعطي المتوسط%timeit sum(range(1_000_000))
%%timeitتنفيذ الخلية N مرة، يعطي المتوسطوضعه في السطر الأول من الخلية
output
%%time
# %%time — قياس الوقت الإجمالي للخلية (تنفيذ واحد فقط)
import numpy as np
a = np.random.randn(1_000_000)
result = np.sort(a)
output
%timeit np.random.randn(1_000_000)
# %timeit — تنفيذ السطر عدة مرات لقياس دقيق
output
%%timeit
# %%timeit — قياس دقيق للخلية بأكملها (عدة تنفيذات)
import numpy as np
a = np.random.randn(10_000)
np.sort(a)
TIPمتى تستخدم ماذا؟
%%time ← لقياس الخلية بسرعة (تنفيذ واحد)
%%timeit ← لاختبار أداء موثوق (عدة تنفيذات، متوسط)
%timeit ← لمقارنة تعبيرين على سطر واحد

6.2 Profiling — تحليل الأداء بالتفصيل

output
%prun sum(range(1_000_000))
# عرض الوقت المستغرق في كل دالة مستدعاة
output
%%prun
# تحليل أداء الخلية بأكملها
import numpy as np
a = np.random.randn(100_000)
b = np.sort(a)
c = np.cumsum(b)

الفصل 08 – التطبيق العملي 2: Pandas — التعامل مع DataFrames (CPU)

NOTEPandas
  • شائع جدًا في علم البيانات
  • يتيح التعامل مع جداول بيانات ضخمة جدًا (نوع من Excel معزز)
  • كم هائل من الوظائف (تصفية، معالجة، تحليل…)
  • يتيح الربط مع مكتبات أخرى (تعلم الآلة، تصور البيانات…)

1. إنشاء DataFrame

1.1 من قاموس

output
import pandas as pd

produitsDict = {
    'smartphone': {'prix': 1000, 'enStock': True},
    'chaussures':  {'prix': 100,  'enStock': False},
    'console':     {'prix': 400,  'enStock': True}
}
print(produitsDict)

df = pd.DataFrame(produitsDict)
df

1.2 من قائمة قوائم

output
pays = [
    [70, 55, 85],           # Population en millions
    [0.901, 0.922, 0.936],  # IDH
    [2091, 2077, 3045]      # PIB
]
df = pd.DataFrame(pays, columns=['France', 'Angleterre', 'Allemagne'])
df

1.3 استيراد ملف CSV

output
import pandas as pd

data = pd.read_csv('metal-bands.csv', encoding='latin-1', sep=';')
data.head()

2. نظرة أولية على البيانات

output
data.head(3)          # 3 premières lignes
data.info()           # types, valeurs non-nulles, mémoire
data.dtypes           # type de chaque colonne
data.fans.dtypes      # type d'une colonne spécifique
data.shape            # (lignes, colonnes)
len(data)             # nombre de lignes

3. التنقل داخل DataFrame — iloc وloc

NOTEقاعدةiloc = فهرس رقمي (موضع). loc = فهرس حسب التسمية (اسم الصف/العمود).

3.1 تحديد عمود واحد أو أكثر

output
data['band_name'].head(10)             # 1 colonne
data[['band_name', 'fans']].head(15)   # plusieurs colonnes

3.2 iloc — حسب الموضع الرقمي

output
data.iloc[0, 0]        # ligne 0, colonne 0
data.iloc[0:5, 0]      # lignes 0-4, colonne 0
data.iloc[0, 0:5]      # ligne 0, colonnes 0-4
data.iloc[0:3, 0:5]    # bloc 3 lignes x 5 colonnes
va-plus-loin

يغطي هذا المقال المقتطفات الأكثر فائدة — الدورة الكاملة EDA pandas NumPy Matplotlib Seaborn (12 فصلاً، 44 درسًا، تمارين محلولة ومشروع نهائي) تأخذك إلى النهاية.

./acceder-au-cours-complet cours gratuit : Maîtriser Claude Code

الأسئلة الشائعة

كم من الوقت يستغرق تعلم EDA pandas NumPy Matplotlib Seaborn؟
مع تقدم منظم (12 فصلاً، 44 درسًا قصيرًا وعمليًا)، يمكن الوصول إلى مستوى تشغيلي في بضعة أسابيع بمعدل 30 إلى 60 دقيقة يوميًا. المهم هو تطبيق كل مفهوم فورًا.
هل هناك متطلبات سابقة؟
تكفي أساسيات في الحوسبة. إذا كنت تعرف استخدام الطرفية وقراءة كود بسيط، فأنت جاهز.
من أين أبدأ عمليًا؟
طبّق الأوامر الواردة في هذا المقال، ثم تابع الدورة الكاملة EDA pandas NumPy Matplotlib Seaborn: فهي تربط الـ44 درسًا بالترتيب، مع تمارين ومشروع نهائي.

📬 هل تريد تلقي هذا النوع من الأدلة كل أسبوع؟ اشترك مجانًا — كود حقيقي، بدون كلام فارغ.