C'est quoi la fenêtre de contexte d'un LLM ?

La fenêtre de contexte est la quantité maximale de texte qu'un LLM peut lire et retenir pendant une conversation. Si tu dépasses cette limite, le modèle oublie le début comme un élève qui perd le fil d'un long texte.

12 June 2026 Mis à jour le 12 June 2026 8 min read min de lecture

~$ man fenetre-de-contexte

C'est quoi la fenêtre de contexte d'un LLM ?

IA & LLM 2026 encyclopédie gneurone

définition

La fenêtre de contexte désigne le nombre maximum de tokens (unités de texte) qu'un modèle de langage peut traiter en une seule fois. Elle inclut à la fois le prompt de l'utilisateur et la réponse générée.

Elle est mesurée en tokens, pas en mots : un token correspond environ à 4 caractères ou 0,75 mot en français. Les modèles récents comme GPT-4o ou Claude 3.5 montent à 128k ou 200k tokens.

Au-delà de cette limite, le modèle tronque automatiquement les informations les plus anciennes, ce qui peut dégrader la cohérence des réponses longues.

Imagine que tu lis un livre avec une règle qui te permet de voir seulement 10 pages à la fois : tu dois tout le temps faire défiler et tu oublies vite ce qui était au début, exactement comme la fenêtre de contexte d'un LLM.

à retenir

La taille de la fenêtre limite directement la longueur des documents ou conversations que le modèle peut analyser sans perte.
Augmenter la fenêtre coûte plus cher en calcul et en mémoire, c'est pourquoi les modèles l'optimisent en permanence.
Les techniques comme le RAG ou le résumé itératif permettent de contourner les limites de fenêtre sans tout charger d'un coup.
Les modèles open-source comme Llama 3.1 405B proposent désormais des fenêtres de 128k tokens accessibles gratuitement.
Une fenêtre trop petite force à découper les tâches, ce qui augmente le risque d'erreurs de contexte.

le marché en 2026

En 2026, la maîtrise de la fenêtre de contexte devient un critère clé pour les postes d'ingénieur LLM et de prompt engineer : les entreprises cherchent des profils capables d'optimiser les coûts et la qualité sur des contextes longs (codebases, documents légaux, analyses médicales). La demande explose chez les éditeurs de modèles et les intégrateurs IA.

Ingénieur LLM · 55-85k€ France / 90-140k CAD CanadaPrompt Engineer Senior · 50-75k€ France / 85-120k CAD Canada

questions fréquentes

Comment savoir la taille de la fenêtre de contexte d'un modèle ?

Regarde la fiche technique du modèle : elle indique toujours le nombre de tokens maximum. Par exemple, GPT-4 Turbo annonce 128k tokens. Tu peux aussi tester en envoyant un texte de plus en plus long jusqu'à ce que le modèle commence à oublier le début.

Pourquoi les fenêtres de contexte ne sont-elles pas infinies ?

Plus la fenêtre est grande, plus la consommation de mémoire et de calcul explose. Les constructeurs font donc un compromis entre performance, coût et latence pour garder les modèles utilisables en production.

Est-ce que RAG remplace la fenêtre de contexte ?

Non, RAG complète la fenêtre en récupérant seulement les passages pertinents. La fenêtre reste indispensable pour garder le contexte immédiat de la conversation et les instructions système.

Les modèles open-source ont-ils des fenêtres plus petites que les modèles fermés ?

Plus maintenant : Llama 3.1 et Mistral Large 2 proposent 128k tokens, ce qui rivalise avec les modèles propriétaires. La différence se joue surtout sur la qualité de la gestion des longs contextes.

les cours pour aller plus loin

44 leçonsIntroduction LLMs SLMsS'inscrire →

$ cat ./guide-complet.mdIntroduction LLMs SLMs expliqué simplement (avec schémas et vrai code)lire le guide →

termes liés

l'intelligence artificielle un LLM un token l'AGI ChatGPT

< retour à l'encyclopédie

Auteur(s)

REHOUMA Haythem

Haythem Rehouma est un ingénieur et architecte IA et cloud, formateur et enseignant technique, avec un profil orienté IA médicale, AWS, MLOps, LLM/RAG et vision par ordinateur.