تقييم واختبار موجّهاتك
أهداف هذا الفصل
- بناء مجموعة اختبار ممثِّلة بحالاتها الحدّية
- التقييم بشبكة معايير ثنائية بدل الانطباع
- مقارنة نسخ الموجّهات واستخدام حكَم LLM دون الثقة العمياء به
«نجح مرة» ليس برهانًا
خط أنابيب آراء العملاء من الفصل 8 يعمل منذ ثلاثة أسابيع حين تقترح الإدارة الذهاب أبعد: توليد مسودة رد آليًا على كل رأي سلبي. حماس عام — ثم سؤال المدير: «وكيف نعرف أن الردود ستكون جيدة دائمًا؟» تعرض صوفيا ثلاثة أمثلة ناجحة. «ثلاثة أمثلة اخترتِها أنتِ. والرأي رقم أربعمئة، رأي عميل غاضب وسيئ النية؟» صمت. لقد أشار المدير للتو إلى الحلقة الناقصة في المنهجية كلها: التقييم.
حتى الآن، حكمت على موجّهاتك بالعين: تقرأ المخرَج، يعجبك أو لا، فتعدّل. هذا كافٍ لاستخدام شخصي وظرفي. لكنه لا يكفي حالما يعمل موجّه بالجملة، أو يخدم آخرين، أو يغذي قرارًا: عندها تحتاج إلى قياس — قابل للتكرار، قابل للمقارنة، يمكن الاحتجاج به. الخبر السار: لديك كل المكونات أصلًا. مجموعة الاختبار تعمم «اختبر على 3-4 مدخلات» من الفصل 5؛ وشبكة المعايير تعيد تدوير القيود القابلة للتحقق من الفصل 4؛ والتكرار المضبوط يطبّق «شيء واحد في كل مرة» من التصحيح.
مجموعة الاختبار: عيّنتك من الواقع
مجموعة الاختبار هي تشكيلة ثابتة من المدخلات ستختبر عليها كل نسخة من موجّهك. ثابتة، هذه هي الكلمة المفتاحية: المدخلات نفسها في كل مرة، وإلا قارنت تفاحًا ببرتقال. لموجّه الرد على الآراء، تجمع صوفيا 15 رأيًا: ثماني حالات نموذجية (الشكاوى الشائعة: الانتظار، خلل، السعر)، أربع حالات حدّية (رأي ساخر، رأي ثنائي اللغة، رأي قصير جدًا «سيئ»، رأي مطوّل من 300 كلمة)، وثلاث حالات مفخخة (تهديد بدعوى قضائية، شتيمة، ورأي يحتوي حقنًا متعمدًا — ذكرى من الفصل 6).
التركيبة أهم من الحجم: 12 إلى 20 مدخلًا تكفي تمامًا، بشرط أن تغطي تنوع الواقع. منهجية الاختيار: انهل من بياناتك الحقيقية أولًا (الآراء المستلمة فعلًا)، ثم أكمل بالحالات التي تخشاها. وكل مرة تفاجئ حالة حقيقية موجّهك في الإنتاج، تنضم إلى مجموعة الاختبار — هكذا تغتني المجموعة وتصبح التراجعات مستحيلة التجاهل.
شبكة المعايير: نعم/لا، لا انطباعات
كيف نحكم على رد على رأي عميل؟ «إنه جيد» لا يُقاس. الحل: تفكيك «جيد» إلى معايير ثنائية — أسئلة نجيب عنها بنعم أو لا. عند صوفيا: هل يذكر الرد المشكلة المحددة التي أثارها العميل؟ هل يقدم اعتذارًا دون وعود مفرطة؟ هل يقترح إجراءً ملموسًا؟ هل يحترم نبرة العلامة؟ هل هو أقل من 100 كلمة؟ هل يتجنب الاعتراض على كلام العميل؟
ستة أسئلة نعم/لا، ويُقيَّم المخرَج في ثلاثين ثانية: 6/6، 4/6... الثنائية مقصودة: سلّم من 1 إلى 10 يبدو أدق، لكن مراجعَين نادرًا ما يعطيان الـ7 نفسها، بينما يجيبان دائمًا تقريبًا بالمثل على «هل يقترح إجراءً ملموسًا؟». موثوقية القياس أهم من دقته الظاهرة. وكل معيار يجب أن يكون مستقلًا عن الذوق: إن لم تستطع حسم معيار باقتباس مقطع من المخرَج، أعد صياغته.
مقارنة نسختين: اختبار A/B للموجّهات
مسلحًا بمجموعة الاختبار والشبكة، تصبح المقارنة آلية. النسخة A (الموجّه الحالي) تمر على المدخلات الـ15: نقيّم كل مخرَج على الشبكة، نجمع. النسخة B (الموجّه المعدَّل — تعديل واحد فقط، قاعدة الفصل 5) تمر على المدخلات الـ15 نفسها: المعايير نفسها، مجموع جديد. الأرقام تتكلم: 72/90 مقابل 81/90، النسخة B تفوز — وتعرف بالضبط على أي معايير وأي مدخلات تقدمت.
هذا البروتوكول يكشف ظاهرة غير مرئية بالعين المجردة: التراجع. النسخة B، المحسَّنة لإدارة الآراء الغاضبة، صارت تفرط في الاعتذار على الآراء الفاترة — نقطتان ضائعتان على ثلاثة مدخلات ما كان أحد ليعيد التحقق منها بدون مجموعة الاختبار. تحسين موجّه بلا مجموعة اختبار كلعبة الأحجية المنزلقة: تدفع قطعة فتزحزح أخرى دون أن تراها. مجموعة الاختبار ترى كل شيء، في كل مرة.
flowchart TD
P["النسخة الحالية من الموجّه"] --> M["تعديل واحد مستهدف"]
M --> J["تمرير على مجموعة الاختبار كاملة"]
J --> G["تقييم: شبكة معايير ثنائية"]
G --> D{"نتيجة أفضل دون تراجع؟"}
D -->|"نعم"| A["اعتماد: نسخة مرجعية جديدة"]
D -->|"لا"| R["رفض وتدوين الدرس"]
A --> M
R --> Mحكَم LLM: تفويض التقييم دون التنازل
تقييم 15 مخرَجًا على 6 معايير يبقى مرهقًا عند التكرار. يمكنك تفويض التقييم إلى النموذج نفسه: هذا مبدأ حكَم LLM. تعطيه الشبكة والمخرَج المراد تقييمه، وتطلب حكمًا مبررًا لكل معيار. الحكَم المؤطَّر جيدًا يقيّم بثبات أكبر من إنسان متعب — ويحوّل ساعة مراجعة إلى خمس دقائق تحقق.
أنت مقيِّم صارم لردود خدمة العملاء. يُعطى لك رأي عميل والرد الذي اقترحه مساعدنا.
قيّم الرد على هذه المعايير الستة، بهذا الترتيب:
1. المشكلة: هل يذكر صراحة المشكلة المحددة التي أثارها العميل؟
2. الاعتذار: هل يقدم اعتذارًا دون أن يعد بما لا نستطيع ضمانه؟
3. الإجراء: هل يقترح إجراءً ملموسًا وقابلًا للتنفيذ؟
4. النبرة: هل يحترم نبرة مباشرة ودافئة، ليست رسمية أبدًا؟
5. الطول: هل هو 100 كلمة أو أقل؟
6. الاحترام: هل يتجنب الاعتراض على كلام العميل أو التقليل منه؟
الصيغة: لكل معيار، نعم أو لا + اقتباس من الرد يبرر حكمك. اختم بـ«النتيجة: N/6».
كن صارمًا: عند أدنى شك في معيار، أجب لا واشرح الشك.
--- الرأي ---
{{الرأي}}
--- الرد المراد تقييمه ---
{{الرد}}
--- النهاية ---تجد في هذا الموجّه كل تقنيات الدورة: دور صارم (الفصل 4)، معايير ثنائية مرتبة، اقتباس مطلوب لكل حكم (الفصل 8 — حكم بلا اقتباس رأيٌ)، صيغة مخرجات مقفلة، وانحياز مقصود نحو الصرامة («عند أدنى شك، لا») — لأن الحكَم المجامل لا يفيد شيئًا. شغّل هذا الحكَم على مخرجاتك الـ15 وتحصل على جدول نتائج في دقائق.
معايرة الحكَم، ثم الانطلاق
قبل التفويض، عايِر: قيّم بنفسك خمسة مخرجات على الشبكة، ثم اجعل الحكَم يقيّمها، وقارن. إن اختلفتما على معيار، فالسبب دائمًا تقريبًا أن صياغته ملتبسة — دقّقها في الشبكة (النسختان، نسختك ونسخة الحكَم، تستخدمان الشبكة نفسها). عندما تتفقان على أربعة مخرجات من خمسة، يصبح التفويض معقولًا: هو يتولى الأحجام، وأنت تحتفظ بعيّنة مراقبة. علاقة الإنسان بالآلة في هذه الدورة كلها، مرة أخرى: الآلة تنفّذ القياس، والإنسان يحدد المسطرة.
المبارزة المباشرة: مقارنة مخرجين دون الوقوع في الفخ
أحيانًا تريد حكمًا أبسط من ستة معايير: أي النسختين أفضل، ببساطة؟ المبارزة المباشرة موجودة، لكن هنا يضرب انحياز الموضع بأقوى ما يكون — الحكَم يحابي الإجابة المعروضة أولًا. الوقاية آلية: أجرِ المبارزة مرتين بعكس الترتيب، ولا تعتمد إلا الأحكام المتوافقة. إن عيّن الحكَم A ثم B، فالمبارزة تعادل: احسمها بنفسك أو عُد إلى الشبكة.
تقارن ردين على رأي العميل نفسه. لا تعرف أيهما الأحدث ولا من كتبهما.
المعيار الوحيد: أيهما سيراه مدير مطعم مستاء أكثر صدقًا وفائدة؟
اتبع هذا المسار:
1. اذكر قوتين وضعفًا واحدًا للرد X، مع اقتباسات.
2. اذكر قوتين وضعفًا واحدًا للرد Y، مع اقتباسات.
3. الحكم: «X» أو «Y»، بجملة تبرير واحدة. التعادل ممنوع.
--- الرأي ---
{{الرأي}}
--- الرد X ---
{{النسخة A أو B، حسب القرعة}}
--- الرد Y ---
{{النسخة الأخرى}}
--- النهاية ---ثلاثة تفاصيل مضادة للانحياز في هذا الموجّه: النسختان مجهَّلتان بـX وY (الحكَم لا يعرف أيهما «الجديدة»، فلا يستطيع محاباة التقدم المفترض)، وتحليل القوى/الضعف مطلوب قبل الحكم (الحكَم يدرس الملف بدل تبرير تفضيل)، والتعادل ممنوع (وإلا لجأ إليه الحكَم كلما كان الاختيار مزعجًا — والحال أن الاختيار المزعج هو بالضبط ما يهمك). أجرِ هذه المبارزة على مدخلاتك الـ15 بالترتيبين: إن فازت النسخة B بـ11 مبارزة متوافقة من 15، فلديك حكم متين — وأسرع من الشبكة الكاملة لقرارات اليومي.
توثيق النسخ: ذاكرة التكرار
الحلقة الأخيرة: الأثر. كل نسخة مختبَرة تستحق ثلاثة أسطر في يومية: التعديل المُدخل، النتيجة المحصَّلة، القرار (اعتُمدت أو رُفضت) ولماذا. هذه اليومية تجنّب اختبار الفكرة نفسها مرتين، وتنقل الدروس إلى الفريق («جربنا أصلًا إضافة الرموز التعبيرية: -4 نقاط على النبرة»)، و— كما سنرى في الفصل 10 — تصبح سجل التغييرات الرسمي للموجّه في المكتبة.
[يومية — موجّه الرد-على-الآراء] v1 (12/03) — النسخة الأولية. النتيجة: 68/90 على مجموعة الاختبار v1 (15 مدخلًا). اعتُمدت افتراضيًا. v2 (14/03) — إضافة قاعدة «عدم الاعتراض أبدًا على كلام العميل». النتيجة: 75/90. اعتُمدت. تقدم واضح على الحالات المفخخة. v3 (18/03) — محاولة نبرة أدفأ عبر مثالي few-shot. النتيجة: 71/90. رُفضت: تراجع على معيار الطول، الردود تتجاوز 100 كلمة. v4 (21/03) — الأمثلة نفسها مختصرة + تذكير بالحد في نهاية الموجّه. النتيجة: 80/90. اعتُمدت. مجموعة الاختبار: avis-test.md (15 مدخلًا، منها 3 مفخخة). الشبكة: 6 معايير ثنائية. الحكَم: عُويِر في 13/03، اتفاق 4/5.
انظر إلى v3: الفشل الموثَّق يساوي ذهبًا — v4 تحوّله إلى نجاح بعد يومين بالاحتفاظ بالفكرة وتصحيح أثرها الجانبي، الذي لم يُرصد إلا بفضل مجموعة الاختبار. عادت صوفيا إلى المدير بهذه اليومية: «هكذا نعرف أن الردود ستكون جيدة — وهكذا سنعرف ذلك بعد ستة أشهر أيضًا». صودق على مشروع الردود الآلية في اليوم نفسه، مع مراجعة بشرية للثقات المنخفضة. القياس لم يحسّن الموجّه فقط: لقد جعل الثقة ممكنة.
السياق
قبل إطلاق الردود الآلية على الآراء السلبية، على صوفيا إثبات موثوقية الموجّه: بناء مجموعة الاختبار، تحديد الشبكة، معايرة حكَم LLM، وإجراء تكرارين مرقّمين على الأقل مع يوميتهما. الهدف: تقديم نتيجة للإدارة، ومنحنى تقدم، وقائمة الحالات التي يوجّهها النظام إلى إنسان.
التعليمات
- اختر موجّهًا مهمًا من مكتبتك (أو موجّه الردود على الآراء) وجمّع مجموعة اختباره: 12-15 مدخلًا حقيقيًا، منها 3-4 حالات حدّية و1-2 حالة مفخخة.
- فكّك «المخرَج الجيد» إلى 5-6 معايير ثنائية، كل منها يُحسم باقتباس مقطع — أعد صياغة كل معيار يبقى مسألة ذوق.
- قيّم بنفسك مخرجات النسخة الحالية على الشبكة: هذه نتيجتك المرجعية.
- اكتب موجّه حكَم LLM بشبكتك، باقتباسات مطلوبة وتعليمة صرامة؛ وعايره على 5 مخرجات مقابل تقييماتك.
- عدّل شيئًا واحدًا في موجّهك، أعد تمرير مجموعة الاختبار كاملة على الحكَم، قارن المجاميع وابحث عن التراجعات معيارًا بمعيار.
- افتح يومية النسخ: التعديل، النتيجة، القرار، الدرس — وأضِف إلى مجموعة الاختبار كل حالة حقيقية تفاجئك لاحقًا.
باختصار
- ثلاثة أمثلة ناجحة لا تثبت شيئًا: حالما يعمل موجّه بالجملة أو يخدم آخرين، يلزم قياس قابل للتكرار.
- مجموعة الاختبار ثابتة ومركَّبة: حالات نموذجية وحدّية ومفخخة — 12 إلى 20 مدخلًا حسن الاختيار تكفي.
- شبكة معايير ثنائية (نعم/لا، تُحسم بالاقتباس) تتفوق على علامة إجمالية: الموثوقية أهم من الدقة الظاهرة.
- قارن النسخ على مجموعة الاختبار نفسها، تعديلًا واحدًا في كل مرة: التراجعات غير المرئية بالعين تصبح أرقامًا.
- حكَم LLM المؤطَّر جيدًا (معايير، اقتباسات، صرامة) يتولى التقييم — بعد معايرته مقابل تقييماتك.
- للحكَم انحيازات (الطول، الثقة، الترتيب): قيّم إجابة واحدة في كل مرة واحتفظ بعيّنة مراقبة بشرية.
- دوّن كل نسخة (التعديل، النتيجة، القرار، الدرس): الإخفاقات الموثَّقة تصبح النجاحات التالية.
اختبار — تحقّق من فهمك
1. لماذا لا يكفي «نجح على 3 أمثلة»؟
2. لماذا نفضّل معايير ثنائية على علامة من 1 إلى 10؟
3. ما هو تراجع الموجّه؟
4. ما الانحيازات المعروفة لحكَم LLM؟
5. كيف نعايِر حكَم LLM؟
6. ماذا يحتوي مدخل جيد في يومية النسخ؟