Évaluer et tester tes prompts
Objectifs de ce chapitre
- Construire un jeu d’essai représentatif avec ses cas limites
- Évaluer avec une grille de critères binaires plutôt qu’une impression
- Comparer des versions de prompts et utiliser un juge LLM sans s’y fier aveuglément
« Ça a marché une fois » n’est pas une preuve
Le pipeline d'avis clients du chapitre 8 tourne depuis trois semaines quand la direction propose d'aller plus loin : générer automatiquement un brouillon de réponse à chaque avis négatif. Enthousiasme général — puis la question du directeur : « Et comment sait-on que les réponses seront toujours bonnes ? » Sofia montre trois exemples réussis. « Trois exemples choisis par toi. Et le quatre-centième avis, celui d'un client furieux et de mauvaise foi ? » Silence. Le directeur vient de pointer le maillon manquant de toute la méthode : l'évaluation.
Jusqu'ici, tu as jugé tes prompts à l'œil : tu lis la sortie, elle te plaît ou non, tu ajustes. C'est suffisant pour un usage personnel et ponctuel. Ça ne l'est plus dès qu'un prompt tourne en série, sert à d'autres, ou alimente une décision : il te faut alors une mesure — reproductible, comparable, opposable. La bonne nouvelle : tu as déjà tous les ingrédients. Le jeu d'essai généralise le « teste sur 3-4 entrées » du chapitre 5 ; la grille de critères recycle les contraintes vérifiables du chapitre 4 ; et l'itération contrôlée applique le « une chose à la fois » du débogage.
Le jeu d’essai : ton échantillon de réalité
Un jeu d'essai est une collection fixe d'entrées sur lesquelles tu testeras chaque version de ton prompt. Fixe, c'est le mot clé : les mêmes entrées à chaque fois, sinon tu compares des pommes et des oranges. Pour le prompt de réponse aux avis, Sofia assemble 15 avis : huit cas typiques (les plaintes courantes : attente, bug, prix), quatre cas limites (un avis ironique, un avis bilingue, un avis très court « nul », un avis fleuve de 300 mots), et trois cas pièges (une menace d'action en justice, une insulte, et un avis contenant une injection volontaire — souvenir du chapitre 6).
La composition compte plus que la taille : 12 à 20 entrées suffisent largement, si elles couvrent la variété du réel. La méthode pour les choisir : pioche dans tes vraies données d'abord (les avis réellement reçus), puis complète avec les cas que tu redoutes. Chaque fois qu'un cas réel surprend ton prompt en production, il rejoint le jeu d'essai — c'est ainsi que le jeu s'enrichit et que les régressions deviennent impossibles à ignorer.
La grille de critères : des oui/non, pas des impressions
Comment juger une réponse à un avis client ? « Elle est bien » ne se mesure pas. La solution : décomposer « bien » en critères binaires — des questions auxquelles on répond par oui ou non. Pour Sofia : la réponse mentionne-t-elle le problème précis soulevé par le client ? Présente-t-elle des excuses sans sur-promettre ? Propose-t-elle une action concrète ? Respecte-t-elle le ton de la marque ? Fait-elle moins de 100 mots ? Évite-t-elle de contester la parole du client ?
Six questions oui/non, et une sortie se note en trente secondes : 6/6, 4/6... Le binaire est volontaire : une échelle de 1 à 10 semble plus fine, mais deux relecteurs donnent rarement le même 7, alors qu'ils répondent presque toujours pareil à « propose-t-elle une action concrète ? ». La fiabilité de la mesure vaut mieux que sa finesse apparente. Et chaque critère doit être indépendant du goût : si tu ne peux pas trancher un critère en citant un passage de la sortie, reformule-le.
Comparer deux versions : le test A/B de prompts
Armée du jeu d'essai et de la grille, la comparaison devient mécanique. Version A (le prompt actuel) passe sur les 15 entrées : on note chaque sortie sur la grille, on totalise. Version B (le prompt modifié — une seule modification, règle du chapitre 5) passe sur les mêmes 15 entrées : mêmes critères, nouveau total. Les chiffres parlent : 72/90 contre 81/90, la version B gagne — et tu sais exactement sur quels critères et quelles entrées elle a progressé.
Ce protocole débusque un phénomène invisible à l'œil nu : la régression. La version B, optimisée pour mieux gérer les avis furieux, s'est mise à sur-excuser sur les avis tièdes — deux points perdus sur trois entrées que personne n'aurait revérifiées sans le jeu d'essai. Améliorer un prompt sans jeu d'essai, c'est jouer au taquin : on pousse une case et on en dérange une autre sans la voir. Le jeu d'essai voit tout, à chaque fois.
flowchart TD
P["Version actuelle du prompt"] --> M["Une modification ciblée"]
M --> J["Passage sur le jeu d'essai complet"]
J --> G["Notation : grille de critères binaires"]
G --> D{"Score meilleur sans régression ?"}
D -->|"Oui"| A["Adopter : nouvelle version de référence"]
D -->|"Non"| R["Rejeter et noter la leçon"]
A --> M
R --> MLe juge LLM : déléguer la notation sans abdiquer
Noter 15 sorties sur 6 critères reste fastidieux à répéter. Tu peux déléguer la notation au modèle lui-même : c'est le principe du juge LLM. Tu lui donnes la grille, la sortie à évaluer, et tu exiges un verdict justifié par critère. Bien cadré, un juge LLM note de façon plus constante qu'un humain fatigué — et il transforme une heure de relecture en cinq minutes de vérification.
Tu es un évaluateur strict de réponses au service client. On te donne un avis client et la réponse proposée par notre assistant.
Évalue la réponse sur ces 6 critères, dans cet ordre :
1. PROBLEME : mentionne-t-elle explicitement le problème précis soulevé par le client ?
2. EXCUSES : présente-t-elle des excuses sans promettre ce qu'on ne peut pas garantir ?
3. ACTION : propose-t-elle une action concrète et réalisable ?
4. TON : respecte-t-elle un ton direct, chaleureux, jamais corporate ?
5. LONGUEUR : fait-elle 100 mots ou moins ?
6. RESPECT : évite-t-elle de contester ou minimiser la parole du client ?
Format : pour chaque critère, OUI ou NON + une citation de la réponse qui justifie ton verdict. Termine par « Score : N/6 ».
Sois strict : au moindre doute sur un critère, réponds NON et explique le doute.
--- AVIS ---
{{avis}}
--- REPONSE A EVALUER ---
{{réponse}}
--- FIN ---Retrouve dans ce prompt toutes les techniques du cours : rôle strict (chapitre 4), critères binaires ordonnés, citation exigée par verdict (chapitre 8 — un verdict sans citation est une opinion), format de sortie verrouillé, et un biais assumé vers la sévérité (« au moindre doute, NON ») — parce qu'un juge complaisant ne sert à rien. Lance ce juge sur tes 15 sorties et tu obtiens un tableau de scores en quelques minutes.
Calibrer le juge, puis dérouler
Avant de déléguer, calibre : note toi-même cinq sorties sur la grille, fais-les noter par le juge, compare. Si vous divergez sur un critère, c'est presque toujours que sa formulation est ambiguë — précise-la dans la grille (les deux versions, la tienne et celle du juge, utilisent la même). Quand le juge et toi tombez d'accord sur quatre sorties sur cinq, la délégation est raisonnable : il déroule les volumes, tu gardes un sondage de contrôle. Le rapport humain-machine de tout ce cours, une fois de plus : la machine exécute la mesure, l'humain définit le mètre.
Le duel direct : comparer deux sorties sans se faire piéger
Parfois tu veux un verdict plus simple que six critères : laquelle des deux versions est la meilleure, tout simplement ? Le duel direct existe, mais c'est là que le biais de position frappe le plus fort — le juge favorise la réponse présentée en premier. La parade est mécanique : fais juger le duel deux fois en inversant l'ordre, et ne retiens que les verdicts concordants. Si le juge désigne A puis B, le duel est nul : départage-le toi-même ou repasse par la grille.
Tu compares deux réponses à un même avis client. Tu ne sais pas laquelle est la plus récente ni qui les a écrites.
Critère unique : laquelle un gérant de restaurant mécontent percevrait-il comme la plus sincère et la plus utile ?
Procède ainsi :
1. Liste 2 forces et 1 faiblesse de la réponse X, avec citations.
2. Liste 2 forces et 1 faiblesse de la réponse Y, avec citations.
3. Verdict : « X » ou « Y », en une phrase de justification. L'égalité est interdite.
--- AVIS ---
{{avis}}
--- REPONSE X ---
{{version A ou B, selon le tirage}}
--- REPONSE Y ---
{{l'autre version}}
--- FIN ---Trois détails anti-biais dans ce prompt : les versions sont anonymisées en X et Y (le juge ne sait pas laquelle est « la nouvelle », donc ne peut pas favoriser le progrès supposé), l'analyse forces/faiblesses est exigée avant le verdict (le juge instruit le dossier au lieu de rationaliser une préférence), et l'égalité est interdite (sinon le juge s'y réfugie dès que le choix est inconfortable — or c'est précisément le choix inconfortable qui t'intéresse). Lance ce duel sur tes 15 entrées dans les deux ordres : si la version B gagne 11 duels concordants sur 15, tu tiens un verdict solide — et plus rapide que la grille complète pour les arbitrages du quotidien.
Documenter les versions : la mémoire de l’itération
Dernier maillon : la trace. Chaque version testée mérite trois lignes dans un journal : la modification apportée, le score obtenu, la décision (adoptée ou rejetée) et pourquoi. Ce journal évite de tester deux fois la même idée, transmet les leçons à l'équipe (« on a déjà essayé d'ajouter des emojis : -4 points sur le ton »), et — on le verra au chapitre 10 — devient le changelog officiel du prompt dans la bibliothèque.
[JOURNAL — Prompt réponse-aux-avis] v1 (12/03) — version initiale. Score : 68/90 sur jeu d'essai v1 (15 entrées). Adoptée par défaut. v2 (14/03) — ajout règle « ne jamais contester la parole du client ». Score : 75/90. Adoptée. Progrès net sur cas pièges. v3 (18/03) — tentative ton plus chaleureux via 2 exemples few-shot. Score : 71/90. REJETÉE : régression sur LONGUEUR, les réponses dépassent 100 mots. v4 (21/03) — mêmes exemples few-shot mais raccourcis + rappel de la limite en fin de prompt. Score : 80/90. Adoptée. Jeu d'essai : avis-test.md (15 entrées, dont 3 pièges). Grille : 6 critères binaires. Juge : calibré le 13/03, accord 4/5.
Regarde la v3 : un échec documenté vaut de l'or — la v4 le transforme en succès deux jours plus tard en gardant l'idée mais en corrigeant son effet de bord, repéré uniquement grâce au jeu d'essai. Sofia est retournée voir le directeur avec ce journal : « voilà comment on sait que les réponses seront bonnes — et comment on le saura encore dans six mois ». Le projet de réponses automatiques a été validé le jour même, avec relecture humaine sur les confiances basses. La mesure n'a pas seulement amélioré le prompt : elle a rendu la confiance possible.
Contexte
Avant de lancer les réponses automatiques aux avis négatifs, Sofia doit prouver la fiabilité du prompt : construire le jeu d'essai, définir la grille, calibrer un juge LLM, et dérouler au moins deux itérations chiffrées avec leur journal. Objectif : présenter à la direction un score, une courbe de progression, et la liste des cas que le système route vers un humain.
Consignes
- Choisis un prompt important de ta bibliothèque (ou celui des réponses aux avis) et assemble son jeu d'essai : 12-15 entrées réelles, dont 3-4 cas limites et 1-2 cas pièges.
- Décompose « une bonne sortie » en 5-6 critères binaires, chacun tranchable en citant un passage — reformule tout critère qui reste affaire de goût.
- Note toi-même les sorties de la version actuelle sur la grille : c'est ton score de référence.
- Écris le prompt du juge LLM avec ta grille, citations exigées et consigne de sévérité ; calibre-le sur 5 sorties contre tes propres notes.
- Modifie UNE chose dans ton prompt, repasse le jeu d'essai complet au juge, compare les totaux ET cherche les régressions critère par critère.
- Ouvre le journal des versions : modification, score, décision, leçon — et ajoute au jeu d'essai tout cas réel qui te surprendra plus tard.
En résumé
- Trois exemples réussis ne prouvent rien : dès qu’un prompt tourne en série ou sert à d’autres, il faut une mesure reproductible.
- Le jeu d’essai est fixe et composé : cas typiques, cas limites, cas pièges — 12 à 20 entrées bien choisies suffisent.
- Une grille de critères binaires (oui/non, tranchables par citation) bat une note globale : la fiabilité vaut mieux que la finesse.
- Compare les versions sur le même jeu d’essai, une modification à la fois : les régressions invisibles à l’œil deviennent des chiffres.
- Un juge LLM bien cadré (critères, citations, sévérité) déroule la notation — après calibration contre tes propres notes.
- Le juge a des biais (longueur, assurance, ordre) : évalue une réponse à la fois et garde un sondage de contrôle humain.
- Journalise chaque version (modification, score, décision, leçon) : les échecs documentés deviennent les succès suivants.
Quiz — vérifie ta compréhension
1. Pourquoi « ça a marché sur 3 exemples » ne suffit-il pas ?
2. Pourquoi préférer des critères binaires à une note de 1 à 10 ?
3. Qu’est-ce qu’une régression de prompt ?
4. Quels biais connus affectent un juge LLM ?
5. Comment calibrer un juge LLM ?
6. Que contient une bonne entrée de journal de versions ?