Ingénierie de prompts — parler aux IA comme un pro — 9. Évaluer et tester tes prompts

11 June 2026 Mis à jour le 11 June 2026 21 min read min de lecture

Ingénierie de prompts — parler aux IA comme un pro

10 chapitres · gratuit

Anatomie d’un prompt qui marche
Few-shot : apprendre par l’exemple
Guider le raisonnement
Rôle, contraintes & format
Templates & débogage
Prompts système & personas avancés
Chaîner les prompts : workflows multi-étapes
Données structurées : extraire, classer, normaliser
Évaluer et tester tes prompts
Capstone : ta bibliothèque de prompts professionnelle

Ingénierie de prompts — parler aux IA comme un pro › Chapitre 9

Chapitre 09

Évaluer et tester tes prompts

Chapitre 9 sur 10 · 90%

Objectifs de ce chapitre

Construire un jeu d’essai représentatif avec ses cas limites
Évaluer avec une grille de critères binaires plutôt qu’une impression
Comparer des versions de prompts et utiliser un juge LLM sans s’y fier aveuglément

« Ça a marché une fois » n’est pas une preuve

Le pipeline d'avis clients du chapitre 8 tourne depuis trois semaines quand la direction propose d'aller plus loin : générer automatiquement un brouillon de réponse à chaque avis négatif. Enthousiasme général — puis la question du directeur : « Et comment sait-on que les réponses seront toujours bonnes ? » Sofia montre trois exemples réussis. « Trois exemples choisis par toi. Et le quatre-centième avis, celui d'un client furieux et de mauvaise foi ? » Silence. Le directeur vient de pointer le maillon manquant de toute la méthode : l'évaluation.

Jusqu'ici, tu as jugé tes prompts à l'œil : tu lis la sortie, elle te plaît ou non, tu ajustes. C'est suffisant pour un usage personnel et ponctuel. Ça ne l'est plus dès qu'un prompt tourne en série, sert à d'autres, ou alimente une décision : il te faut alors une mesure — reproductible, comparable, opposable. La bonne nouvelle : tu as déjà tous les ingrédients. Le jeu d'essai généralise le « teste sur 3-4 entrées » du chapitre 5 ; la grille de critères recycle les contraintes vérifiables du chapitre 4 ; et l'itération contrôlée applique le « une chose à la fois » du débogage.

Le jeu d’essai : ton échantillon de réalité

Un jeu d'essai est une collection fixe d'entrées sur lesquelles tu testeras chaque version de ton prompt. Fixe, c'est le mot clé : les mêmes entrées à chaque fois, sinon tu compares des pommes et des oranges. Pour le prompt de réponse aux avis, Sofia assemble 15 avis : huit cas typiques (les plaintes courantes : attente, bug, prix), quatre cas limites (un avis ironique, un avis bilingue, un avis très court « nul », un avis fleuve de 300 mots), et trois cas pièges (une menace d'action en justice, une insulte, et un avis contenant une injection volontaire — souvenir du chapitre 6).

La composition compte plus que la taille : 12 à 20 entrées suffisent largement, si elles couvrent la variété du réel. La méthode pour les choisir : pioche dans tes vraies données d'abord (les avis réellement reçus), puis complète avec les cas que tu redoutes. Chaque fois qu'un cas réel surprend ton prompt en production, il rejoint le jeu d'essai — c'est ainsi que le jeu s'enrichit et que les régressions deviennent impossibles à ignorer.

Pour les tâches à réponse vérifiable (classification, extraction), note aussi la sortie attendue de chaque entrée — sa « réponse d'or ». L'évaluation devient alors un simple comptage : 14 bonnes réponses sur 15. Pour les tâches ouvertes comme une réponse à un avis, il n'y a pas de réponse unique : c'est la grille de critères qui prend le relais.

La grille de critères : des oui/non, pas des impressions

Comment juger une réponse à un avis client ? « Elle est bien » ne se mesure pas. La solution : décomposer « bien » en critères binaires — des questions auxquelles on répond par oui ou non. Pour Sofia : la réponse mentionne-t-elle le problème précis soulevé par le client ? Présente-t-elle des excuses sans sur-promettre ? Propose-t-elle une action concrète ? Respecte-t-elle le ton de la marque ? Fait-elle moins de 100 mots ? Évite-t-elle de contester la parole du client ?

Six questions oui/non, et une sortie se note en trente secondes : 6/6, 4/6... Le binaire est volontaire : une échelle de 1 à 10 semble plus fine, mais deux relecteurs donnent rarement le même 7, alors qu'ils répondent presque toujours pareil à « propose-t-elle une action concrète ? ». La fiabilité de la mesure vaut mieux que sa finesse apparente. Et chaque critère doit être indépendant du goût : si tu ne peux pas trancher un critère en citant un passage de la sortie, reformule-le.

Comparer deux versions : le test A/B de prompts

Armée du jeu d'essai et de la grille, la comparaison devient mécanique. Version A (le prompt actuel) passe sur les 15 entrées : on note chaque sortie sur la grille, on totalise. Version B (le prompt modifié — une seule modification, règle du chapitre 5) passe sur les mêmes 15 entrées : mêmes critères, nouveau total. Les chiffres parlent : 72/90 contre 81/90, la version B gagne — et tu sais exactement sur quels critères et quelles entrées elle a progressé.

Ce protocole débusque un phénomène invisible à l'œil nu : la régression. La version B, optimisée pour mieux gérer les avis furieux, s'est mise à sur-excuser sur les avis tièdes — deux points perdus sur trois entrées que personne n'aurait revérifiées sans le jeu d'essai. Améliorer un prompt sans jeu d'essai, c'est jouer au taquin : on pousse une case et on en dérange une autre sans la voir. Le jeu d'essai voit tout, à chaque fois.

flowchart TD
  P["Version actuelle du prompt"] --> M["Une modification ciblée"]
  M --> J["Passage sur le jeu d'essai complet"]
  J --> G["Notation : grille de critères binaires"]
  G --> D{"Score meilleur sans régression ?"}
  D -->|"Oui"| A["Adopter : nouvelle version de référence"]
  D -->|"Non"| R["Rejeter et noter la leçon"]
  A --> M
  R --> M

La boucle d'itération : une modification, un passage complet, une décision chiffrée — et chaque leçon documentée.

Le juge LLM : déléguer la notation sans abdiquer

Noter 15 sorties sur 6 critères reste fastidieux à répéter. Tu peux déléguer la notation au modèle lui-même : c'est le principe du juge LLM. Tu lui donnes la grille, la sortie à évaluer, et tu exiges un verdict justifié par critère. Bien cadré, un juge LLM note de façon plus constante qu'un humain fatigué — et il transforme une heure de relecture en cinq minutes de vérification.

PROMPT

Tu es un évaluateur strict de réponses au service client. On te donne un avis client et la réponse proposée par notre assistant.

Évalue la réponse sur ces 6 critères, dans cet ordre :
1. PROBLEME : mentionne-t-elle explicitement le problème précis soulevé par le client ?
2. EXCUSES : présente-t-elle des excuses sans promettre ce qu'on ne peut pas garantir ?
3. ACTION : propose-t-elle une action concrète et réalisable ?
4. TON : respecte-t-elle un ton direct, chaleureux, jamais corporate ?
5. LONGUEUR : fait-elle 100 mots ou moins ?
6. RESPECT : évite-t-elle de contester ou minimiser la parole du client ?

Format : pour chaque critère, OUI ou NON + une citation de la réponse qui justifie ton verdict. Termine par « Score : N/6 ».
Sois strict : au moindre doute sur un critère, réponds NON et explique le doute.

--- AVIS ---
{{avis}}
--- REPONSE A EVALUER ---
{{réponse}}
--- FIN ---

Retrouve dans ce prompt toutes les techniques du cours : rôle strict (chapitre 4), critères binaires ordonnés, citation exigée par verdict (chapitre 8 — un verdict sans citation est une opinion), format de sortie verrouillé, et un biais assumé vers la sévérité (« au moindre doute, NON ») — parce qu'un juge complaisant ne sert à rien. Lance ce juge sur tes 15 sorties et tu obtiens un tableau de scores en quelques minutes.

Un juge LLM a des biais documentés : il favorise les réponses longues, les formulations assurées, et — si on lui montre deux réponses côte à côte — celle présentée en premier. Parades : critères binaires avec citations plutôt que note globale, évaluation d'une seule réponse à la fois, et inversion de l'ordre quand tu compares deux versions. Et surtout : vérifie toi-même un échantillon de ses verdicts avant de lui faire confiance.

Calibrer le juge, puis dérouler

Avant de déléguer, calibre : note toi-même cinq sorties sur la grille, fais-les noter par le juge, compare. Si vous divergez sur un critère, c'est presque toujours que sa formulation est ambiguë — précise-la dans la grille (les deux versions, la tienne et celle du juge, utilisent la même). Quand le juge et toi tombez d'accord sur quatre sorties sur cinq, la délégation est raisonnable : il déroule les volumes, tu gardes un sondage de contrôle. Le rapport humain-machine de tout ce cours, une fois de plus : la machine exécute la mesure, l'humain définit le mètre.

Le duel direct : comparer deux sorties sans se faire piéger

Parfois tu veux un verdict plus simple que six critères : laquelle des deux versions est la meilleure, tout simplement ? Le duel direct existe, mais c'est là que le biais de position frappe le plus fort — le juge favorise la réponse présentée en premier. La parade est mécanique : fais juger le duel deux fois en inversant l'ordre, et ne retiens que les verdicts concordants. Si le juge désigne A puis B, le duel est nul : départage-le toi-même ou repasse par la grille.

PROMPT

Tu compares deux réponses à un même avis client. Tu ne sais pas laquelle est la plus récente ni qui les a écrites.

Critère unique : laquelle un gérant de restaurant mécontent percevrait-il comme la plus sincère et la plus utile ?

Procède ainsi :
1. Liste 2 forces et 1 faiblesse de la réponse X, avec citations.
2. Liste 2 forces et 1 faiblesse de la réponse Y, avec citations.
3. Verdict : « X » ou « Y », en une phrase de justification. L'égalité est interdite.

--- AVIS ---
{{avis}}
--- REPONSE X ---
{{version A ou B, selon le tirage}}
--- REPONSE Y ---
{{l'autre version}}
--- FIN ---

Trois détails anti-biais dans ce prompt : les versions sont anonymisées en X et Y (le juge ne sait pas laquelle est « la nouvelle », donc ne peut pas favoriser le progrès supposé), l'analyse forces/faiblesses est exigée avant le verdict (le juge instruit le dossier au lieu de rationaliser une préférence), et l'égalité est interdite (sinon le juge s'y réfugie dès que le choix est inconfortable — or c'est précisément le choix inconfortable qui t'intéresse). Lance ce duel sur tes 15 entrées dans les deux ordres : si la version B gagne 11 duels concordants sur 15, tu tiens un verdict solide — et plus rapide que la grille complète pour les arbitrages du quotidien.

Documenter les versions : la mémoire de l’itération

Dernier maillon : la trace. Chaque version testée mérite trois lignes dans un journal : la modification apportée, le score obtenu, la décision (adoptée ou rejetée) et pourquoi. Ce journal évite de tester deux fois la même idée, transmet les leçons à l'équipe (« on a déjà essayé d'ajouter des emojis : -4 points sur le ton »), et — on le verra au chapitre 10 — devient le changelog officiel du prompt dans la bibliothèque.

PROMPT

[JOURNAL — Prompt réponse-aux-avis]

v1 (12/03) — version initiale. Score : 68/90 sur jeu d'essai v1 (15 entrées). Adoptée par défaut.
v2 (14/03) — ajout règle « ne jamais contester la parole du client ». Score : 75/90. Adoptée. Progrès net sur cas pièges.
v3 (18/03) — tentative ton plus chaleureux via 2 exemples few-shot. Score : 71/90. REJETÉE : régression sur LONGUEUR, les réponses dépassent 100 mots.
v4 (21/03) — mêmes exemples few-shot mais raccourcis + rappel de la limite en fin de prompt. Score : 80/90. Adoptée.

Jeu d'essai : avis-test.md (15 entrées, dont 3 pièges). Grille : 6 critères binaires. Juge : calibré le 13/03, accord 4/5.

Regarde la v3 : un échec documenté vaut de l'or — la v4 le transforme en succès deux jours plus tard en gardant l'idée mais en corrigeant son effet de bord, repéré uniquement grâce au jeu d'essai. Sofia est retournée voir le directeur avec ce journal : « voilà comment on sait que les réponses seront bonnes — et comment on le saura encore dans six mois ». Le projet de réponses automatiques a été validé le jour même, avec relecture humaine sur les confiances basses. La mesure n'a pas seulement amélioré le prompt : elle a rendu la confiance possible.

🛠️ À toi de jouer

Contexte

Avant de lancer les réponses automatiques aux avis négatifs, Sofia doit prouver la fiabilité du prompt : construire le jeu d'essai, définir la grille, calibrer un juge LLM, et dérouler au moins deux itérations chiffrées avec leur journal. Objectif : présenter à la direction un score, une courbe de progression, et la liste des cas que le système route vers un humain.

Consignes

Choisis un prompt important de ta bibliothèque (ou celui des réponses aux avis) et assemble son jeu d'essai : 12-15 entrées réelles, dont 3-4 cas limites et 1-2 cas pièges.
Décompose « une bonne sortie » en 5-6 critères binaires, chacun tranchable en citant un passage — reformule tout critère qui reste affaire de goût.
Note toi-même les sorties de la version actuelle sur la grille : c'est ton score de référence.
Écris le prompt du juge LLM avec ta grille, citations exigées et consigne de sévérité ; calibre-le sur 5 sorties contre tes propres notes.
Modifie UNE chose dans ton prompt, repasse le jeu d'essai complet au juge, compare les totaux ET cherche les régressions critère par critère.
Ouvre le journal des versions : modification, score, décision, leçon — et ajoute au jeu d'essai tout cas réel qui te surprendra plus tard.

Indice — Commence par noter toi-même avant de déléguer au juge : la calibration est ce qui sépare une mesure fiable d'un chiffre décoratif. Et au moindre désaccord récurrent, c'est la formulation du critère qu'il faut préciser.

En résumé

Trois exemples réussis ne prouvent rien : dès qu’un prompt tourne en série ou sert à d’autres, il faut une mesure reproductible.
Le jeu d’essai est fixe et composé : cas typiques, cas limites, cas pièges — 12 à 20 entrées bien choisies suffisent.
Une grille de critères binaires (oui/non, tranchables par citation) bat une note globale : la fiabilité vaut mieux que la finesse.
Compare les versions sur le même jeu d’essai, une modification à la fois : les régressions invisibles à l’œil deviennent des chiffres.
Un juge LLM bien cadré (critères, citations, sévérité) déroule la notation — après calibration contre tes propres notes.
Le juge a des biais (longueur, assurance, ordre) : évalue une réponse à la fois et garde un sondage de contrôle humain.
Journalise chaque version (modification, score, décision, leçon) : les échecs documentés deviennent les succès suivants.

Quiz — vérifie ta compréhension

1. Pourquoi « ça a marché sur 3 exemples » ne suffit-il pas ?

Parce que 3 exemples choisis ne couvrent ni la variété du réel ni les cas piègesParce qu’il en faut exactement 10Parce que les modèles changent chaque jourParce que les exemples coûtent cher

Le quatre-centième avis — furieux et de mauvaise foi — ne ressemble pas aux exemples flatteurs. Le jeu d'essai échantillonne la réalité, pièges compris.

2. Pourquoi préférer des critères binaires à une note de 1 à 10 ?

C’est plus rapide à écrireDeux relecteurs donnent rarement le même 7, mais répondent presque toujours pareil à un oui/non tranchable par citationLes modèles ne savent pas compter jusqu’à 10Le binaire donne des scores plus élevés

La fiabilité de la mesure prime sur sa finesse apparente : un critère binaire ancré dans le texte se reproduit, une impression chiffrée non.

3. Qu’est-ce qu’une régression de prompt ?

Un prompt qui devient plus courtUne amélioration sur certains cas qui dégrade silencieusement d’autres casUne erreur de syntaxeLe retour à une version précédente

La v3 de Sofia gagnait en chaleur mais dépassait la limite de mots sur d'autres entrées. Seul le passage complet du jeu d'essai révèle ce jeu de taquin.

4. Quels biais connus affectent un juge LLM ?

Il ne juge que le matinIl favorise les réponses longues, assurées, et la première présentée en comparaisonIl refuse de noter en françaisIl note toujours 5/6

D'où les parades : une réponse à la fois, critères binaires avec citations, inversion de l'ordre en comparaison, et sondage humain de contrôle.

5. Comment calibrer un juge LLM ?

Lui demander s’il se sent prêtLe lancer deux fois et comparer ses propres notesNoter soi-même 5 sorties, comparer avec ses verdicts, et préciser les critères en cas de divergenceAugmenter la taille du prompt

Le désaccord récurrent signale un critère ambigu, pas un mauvais juge. Quand l'accord atteint 4/5, la délégation avec sondage devient raisonnable.

6. Que contient une bonne entrée de journal de versions ?

Uniquement le scoreLa modification, le score, la décision et la leçon retenueLe texte complet de toutes les sortiesLe nom du modèle uniquement

Le journal évite de retester les mêmes idées, transmet les leçons (la v3 rejetée nourrit la v4 adoptée) et deviendra le changelog du prompt en bibliothèque.

← PrécédentDonnées structurées : extraire, classer, normaliser Suivant →Capstone : ta bibliothèque de prompts professionnelle

Auteur(s)

REHOUMA Haythem

Haythem Rehouma est un ingénieur et architecte IA et cloud, formateur et enseignant technique, avec un profil orienté IA médicale, AWS, MLOps, LLM/RAG et vision par ordinateur.