EDA بـ pandas وNumPy وMatplotlib وSeaborn: الخطوات التسع الرئيسية من الصفر إلى الاحتراف
EDA pandas NumPy Matplotlib Seaborn: الأساسيات في مقال واحد — كود حقيقي، مخططات وخطوات ملموسة، مقتطفات من دورة مكونة من 44 درسًا.
يمكن للجميع تعلم EDA pandas NumPy Matplotlib Seaborn — بشرط اتباع الخطوات بالترتيب الصحيح. لقد لخصنا دورة كاملة من 44 درسًا في مسار واضح، مع أكثر مقتطفات الكود فائدة.
- مقدمة في تحليل البيانات
- المقدمة والتثبيت
- التعامل مع DataFrames في Pandas
- تنظيف البيانات وإعدادها
- الإحصاء الوصفي والتجميع
تثبيت بيئة العمل الخاصة بك
0. Google Colab — الخيار بدون تثبيت
Google Colaboratory (Colab) هو بيئة Jupyter مجانية تعمل مباشرة في متصفحك، دون أي تثبيت. تعمل على خوادم Google وتتضمن بالفعل NumPy وPandas وMatplotlib وSeaborn مثبتة مسبقًا.
كيفية البدء مع Google Colab
التحقق من الإصدارات المثبتة مسبقًا في Colab
في الخلية الأولى من دفتر Colab الخاص بك، انسخ ونفذ هذا الكود:
import numpy as np
import pandas as pd
import matplotlib
import seaborn as sns
print("NumPy :", np.__version__)
print("Pandas :", pd.__version__)
print("Matplotlib:", matplotlib.__version__)
print("Seaborn :", sns.__version__)
print("\nTout est pret. Bonne analyse !")# الطريقة 1: رفع ملف من جهازك
from google.colab import files
uploaded = files.upload() # une fenêtre de sélection s'ouvre
import pandas as pd
import io
df = pd.read_csv(io.BytesIO(uploaded['mon_fichier.csv']))
# الطريقة 2: القراءة من Google Drive
from google.colab import drive
drive.mount('/content/drive')
df = pd.read_csv('/content/drive/MyDrive/mon_fichier.csv')
# الطريقة 3: القراءة مباشرة من عنوان URL عام
df = pd.read_csv('https://raw.githubusercontent.com/exemple/repo/main/data.csv')Python وحده
Anaconda (موصى به)
2. الخطوة 1 — تنزيل Anaconda وتثبيته
التنزيل
التثبيت على Windows
التحقق من التثبيت
افتح Anaconda Prompt (Windows) أو Terminal (macOS/Linux) واكتب:
conda --version
# إنشاء بيئة باسم "eda-cours" مع Python 3.11 conda create -n eda-cours python=3.11 # تفعيل البيئة conda activate eda-cours # التحقق من أن البيئة نشطة (يظهر الاسم بين قوسين) # (eda-cours) C:\Users\votre_nom>
الخيار أ — باستخدام conda (موصى به)
# تثبيت جميع المكتبات بأمر واحد conda install numpy pandas matplotlib seaborn jupyter -y
التشغيل من الطرفية
# تأكد من أن بيئتك نشطة conda activate eda-cours # تشغيل Jupyter Notebook jupyter notebook
الفصل 08 – مقدمة إلى مكتبات علوم البيانات
- فهم ما هي مكتبة Python
- استيراد مكتبة (
import) - استيراد وحدة محددة من مكتبة (
from ... import) - استخدام الأسماء المستعارة (
import numpy as np) - استخدام مكتبة
mathكمثال أول - تثبيت وتحديث والتحقق من إعدادات مكتبة باستخدام PIP
1. ما هي المكتبة؟
المكتبات هي مجموعات من الوحدات الجاهزة، تتيح إجراء معالجات معقدة في بضعة أسطر. وهي كثيرة جدًا:
💻 مكتبات CPU قياسية
🌞 مكتبات GPU NVIDIA RAPIDS
2. استيراد مكتبة — مكتبة math
مكتبة math هي المثال المثالي لفهم عمليات الاستيراد. وهي مدمجة في Python، ولا تحتاج إلى تثبيت.
التوثيق الرسمي: docs.python.org/2/library/math.html
2.1 الاستيراد الكامل
import math # Arrondir au supérieur print(math.ceil(0.1)) # arrondi au supérieur
%command ينطبق على سطر واحد فقط. %%command ينطبق على الخلية بأكملها. يجب أن يكون الأمر %% في السطر الأول من الخلية.6.1 قياس وقت التنفيذ
| الأمر | الوصف | مثال |
|---|---|---|
%time | قياس وقت سطر واحد | %time sum(range(1_000_000)) |
%%time | قياس وقت الخلية بأكملها | وضعه في السطر الأول من الخلية |
%timeit | تنفيذ السطر N مرة، يعطي المتوسط | %timeit sum(range(1_000_000)) |
%%timeit | تنفيذ الخلية N مرة، يعطي المتوسط | وضعه في السطر الأول من الخلية |
%%time # %%time — قياس الوقت الإجمالي للخلية (تنفيذ واحد فقط) import numpy as np a = np.random.randn(1_000_000) result = np.sort(a)
%timeit np.random.randn(1_000_000) # %timeit — تنفيذ السطر عدة مرات لقياس دقيق
%%timeit # %%timeit — قياس دقيق للخلية بأكملها (عدة تنفيذات) import numpy as np a = np.random.randn(10_000) np.sort(a)
•
%%time ← لقياس الخلية بسرعة (تنفيذ واحد)•
%%timeit ← لاختبار أداء موثوق (عدة تنفيذات، متوسط)•
%timeit ← لمقارنة تعبيرين على سطر واحد6.2 Profiling — تحليل الأداء بالتفصيل
%prun sum(range(1_000_000)) # عرض الوقت المستغرق في كل دالة مستدعاة
%%prun # تحليل أداء الخلية بأكملها import numpy as np a = np.random.randn(100_000) b = np.sort(a) c = np.cumsum(b)
الفصل 08 – التطبيق العملي 2: Pandas — التعامل مع DataFrames (CPU)
- شائع جدًا في علم البيانات
- يتيح التعامل مع جداول بيانات ضخمة جدًا (نوع من Excel معزز)
- كم هائل من الوظائف (تصفية، معالجة، تحليل…)
- يتيح الربط مع مكتبات أخرى (تعلم الآلة، تصور البيانات…)
1. إنشاء DataFrame
1.1 من قاموس
import pandas as pd
produitsDict = {
'smartphone': {'prix': 1000, 'enStock': True},
'chaussures': {'prix': 100, 'enStock': False},
'console': {'prix': 400, 'enStock': True}
}
print(produitsDict)
df = pd.DataFrame(produitsDict)
df1.2 من قائمة قوائم
pays = [
[70, 55, 85], # Population en millions
[0.901, 0.922, 0.936], # IDH
[2091, 2077, 3045] # PIB
]
df = pd.DataFrame(pays, columns=['France', 'Angleterre', 'Allemagne'])
df1.3 استيراد ملف CSV
import pandas as pd
data = pd.read_csv('metal-bands.csv', encoding='latin-1', sep=';')
data.head()2. نظرة أولية على البيانات
data.head(3) # 3 premières lignes data.info() # types, valeurs non-nulles, mémoire data.dtypes # type de chaque colonne data.fans.dtypes # type d'une colonne spécifique data.shape # (lignes, colonnes) len(data) # nombre de lignes
3. التنقل داخل DataFrame — iloc وloc
iloc = فهرس رقمي (موضع). loc = فهرس حسب التسمية (اسم الصف/العمود).3.1 تحديد عمود واحد أو أكثر
data['band_name'].head(10) # 1 colonne data[['band_name', 'fans']].head(15) # plusieurs colonnes
3.2 iloc — حسب الموضع الرقمي
data.iloc[0, 0] # ligne 0, colonne 0 data.iloc[0:5, 0] # lignes 0-4, colonne 0 data.iloc[0, 0:5] # ligne 0, colonnes 0-4 data.iloc[0:3, 0:5] # bloc 3 lignes x 5 colonnes
يغطي هذا المقال المقتطفات الأكثر فائدة — الدورة الكاملة EDA pandas NumPy Matplotlib Seaborn (12 فصلاً، 44 درسًا، تمارين محلولة ومشروع نهائي) تأخذك إلى النهاية.
./acceder-au-cours-complet cours gratuit : Maîtriser Claude Codeالأسئلة الشائعة
كم من الوقت يستغرق تعلم EDA pandas NumPy Matplotlib Seaborn؟
هل هناك متطلبات سابقة؟
من أين أبدأ عمليًا؟
📬 هل تريد تلقي هذا النوع من الأدلة كل أسبوع؟ اشترك مجانًا — كود حقيقي، بدون كلام فارغ.