~$ man fenetre-de-contexte
C'est quoi la fenêtre de contexte d'un LLM ?
définition
La fenêtre de contexte désigne le nombre maximum de tokens (unités de texte) qu'un modèle de langage peut traiter en une seule fois. Elle inclut à la fois le prompt de l'utilisateur et la réponse générée.
Elle est mesurée en tokens, pas en mots : un token correspond environ à 4 caractères ou 0,75 mot en français. Les modèles récents comme GPT-4o ou Claude 3.5 montent à 128k ou 200k tokens.
Au-delà de cette limite, le modèle tronque automatiquement les informations les plus anciennes, ce qui peut dégrader la cohérence des réponses longues.
Imagine que tu lis un livre avec une règle qui te permet de voir seulement 10 pages à la fois : tu dois tout le temps faire défiler et tu oublies vite ce qui était au début, exactement comme la fenêtre de contexte d'un LLM.
à retenir
- La taille de la fenêtre limite directement la longueur des documents ou conversations que le modèle peut analyser sans perte.
- Augmenter la fenêtre coûte plus cher en calcul et en mémoire, c'est pourquoi les modèles l'optimisent en permanence.
- Les techniques comme le RAG ou le résumé itératif permettent de contourner les limites de fenêtre sans tout charger d'un coup.
- Les modèles open-source comme Llama 3.1 405B proposent désormais des fenêtres de 128k tokens accessibles gratuitement.
- Une fenêtre trop petite force à découper les tâches, ce qui augmente le risque d'erreurs de contexte.
le marché en 2026
En 2026, la maîtrise de la fenêtre de contexte devient un critère clé pour les postes d'ingénieur LLM et de prompt engineer : les entreprises cherchent des profils capables d'optimiser les coûts et la qualité sur des contextes longs (codebases, documents légaux, analyses médicales). La demande explose chez les éditeurs de modèles et les intégrateurs IA.
questions fréquentes
Comment savoir la taille de la fenêtre de contexte d'un modèle ?
Regarde la fiche technique du modèle : elle indique toujours le nombre de tokens maximum. Par exemple, GPT-4 Turbo annonce 128k tokens. Tu peux aussi tester en envoyant un texte de plus en plus long jusqu'à ce que le modèle commence à oublier le début.
Pourquoi les fenêtres de contexte ne sont-elles pas infinies ?
Plus la fenêtre est grande, plus la consommation de mémoire et de calcul explose. Les constructeurs font donc un compromis entre performance, coût et latence pour garder les modèles utilisables en production.
Est-ce que RAG remplace la fenêtre de contexte ?
Non, RAG complète la fenêtre en récupérant seulement les passages pertinents. La fenêtre reste indispensable pour garder le contexte immédiat de la conversation et les instructions système.
Les modèles open-source ont-ils des fenêtres plus petites que les modèles fermés ?
Plus maintenant : Llama 3.1 et Mistral Large 2 proposent 128k tokens, ce qui rivalise avec les modèles propriétaires. La différence se joue surtout sur la qualité de la gestion des longs contextes.
