Skip to content

Glossary

Fenêtre de contexte

La limite stricte sur ce qu'un LLM peut lire à la fois

By Published Updated

La fenêtre de contexte d’un LLM est le nombre maximum de tokens qu’il peut traiter dans un seul appel d’inférence. La fenêtre couvre l’entrée et la sortie combinées — si vous remplissez l’entrée jusqu’au bord, il ne reste plus de place pour que le modèle réponde.

Les fenêtres de contexte ont augmenté considérablement :

  • GPT-3 (2020) : 2 048 tokens
  • GPT-3.5 (2022) : 4 096 → 16 384 tokens
  • GPT-4 (2023) : 8 192 → 32 768 → 128 000 tokens
  • Claude 3 (2024) : 200 000 tokens (~150 000 mots)
  • Gemini 1.5 Pro (2024) : 1 000 000 tokens (~750 000 mots — un long roman)
  • Modèles frontières (2026) : 1 à 2 millions de tokens courants

Des fenêtres plus grandes permettent de placer des livres entiers, des bases de code ou de longs historiques de conversation dans une seule invite. Des limites pratiques subsistent : le débit diminue avec des longueurs de contexte plus élevées, le coût s’étale linéairement avec les tokens d’entrée (mis en cache ou non), et l’attention du modèle se dégrade pour de très longs contextes de manières bien documentées (benchmarks “needle in a haystack”).

Exemple de calcul

Vous voulez résumer un roman de 250 pages (~75 000 mots). Dans le tokeniseur d’OpenAI (cl100k_base), ce texte représente environ 100 000 tokens. Sur GPT-3 (contexte 2k), le roman ne rentre pas du tout — vous devriez le découper en 50 morceaux et exécuter un arbre de résumé récursif. Sur GPT-3.5 16k, vous auriez besoin de ~7 morceaux. Sur GPT-4 128k, tout le roman tient avec 28k tokens disponibles pour les instructions et la sortie. Sur Claude 3 (200k), pareil avec encore plus de marge. Sur Gemini 1.5 Pro (1M), vous pourriez faire rentrer tout le roman plus les neuf livres précédents de la série et avoir encore de la place. Le tableau des coûts change aussi : à 3 $/M tokens d’entrée, la résumé de 100k tokens coûte 0,30 $ en entrée seule — bon marché par requête, mais mille de ces requêtes représentent 300 $, ce qui explique pourquoi les API batch et la mise en cache des invites sont devenus des nécessités économiques.

Quand et pourquoi c’est important

La fenêtre de contexte compte chaque fois qu’un flux de travail LLM implique plus d’entrées qu’un chat typique : révision de documents juridiques, refactorisation à l’échelle d’une base de code, synthèse de recherche à travers plusieurs articles, conversations de support client avec un long historique, boucles d’agents accumulant des sorties d’outils. L’erreur à éviter est de supposer que “fenêtre plus grande = meilleures réponses” : l’effet “Lost in the Middle” (Liu 2023) montre que les informations placées au milieu d’un long contexte sont rappelées moins fiablement que les informations au début ou à la fin. Le schéma d’ingénierie pratique est de (a) placer les instructions et contraintes les plus critiques au début, (b) placer la requête immédiate de l’utilisateur à la fin, et (c) traiter le milieu comme “du matériel de référence que le modèle peut consulter mais ne doit pas être obligé d’utiliser.” Pour la génération augmentée par récupération, des fenêtres de contexte plus petites avec une récupération précise surpassent souvent de grandes fenêtres avec tout ce qui est déversé dedans. Référence : Documentation des modèles OpenAI — limites de fenêtre de contexte.

Le problème de coût d’attention en coulisses : le mécanisme d’attention du transformeur original est en O(n²) en longueur de séquence — doubler la fenêtre de contexte quadruple le coût de calcul d’un passage avant. Les modèles frontières à 1M tokens fonctionnent grâce à des astuces architecturales : FlashAttention (Tri Dao, 2022) et FlashAttention-2 (2023) restructurent l’opération pour être conscient des E/S et réduire les coûts de bande passante mémoire ; les variantes d’attention parcimonieuse (fenêtre glissante, dilatée) abandonnent le terme quadratique global ; et l’attention parallèle en anneau/séquence distribue la séquence sur des GPU. Aucune de ces astuces ne supprime l’échelonnage sous-jacent — elles repoussent simplement le mur.

Pourquoi “contexte effectif” ≠ contexte annoncé : le benchmark “needle in a haystack” insère un fait unique à une position connue dans un long contexte et demande au modèle de le récupérer. Les modèles frontières obtiennent des scores proches de 100 % sur ce benchmark jusqu’à leur fenêtre annoncée. Les benchmarks plus difficiles — récupération multi-faits, raisonnement multi-sauts à travers le long contexte, résumé synthétisant l’ensemble de l’entrée — montrent des scores sensiblement plus bas au-delà de ~50 à 100k tokens, même sur des modèles à 1M tokens. La règle pratique : une fenêtre à 1M tokens est fiable pour les tâches “rechercher des choses spécifiques dans ce grand document”, mais la qualité du raisonnement se dégrade généralement au-delà des premiers ~100k. Comparez les affirmations des fournisseurs avec votre charge de travail spécifique. Voir aussi : token GPT, LLM. Référence : Liu N et al. — Lost in the Middle (2023).

Frequently asked questions

Qu’est-ce qu’une fenêtre de contexte ?
Une fenêtre de contexte est le nombre maximum de tokens qu'un LLM peut traiter dans un seul appel d'inférence — à la fois l'entrée (invite + historique de conversation) et la sortie combinées. Les modèles avec une fenêtre de contexte de 200 000 tokens peuvent traiter environ 150 000 mots à la fois.
Comment la fenêtre de contexte affecte-t-elle l’utilisation des LLM en pratique ?
Pour résumer un document juridique de 500 pages avec GPT-4 (contexte 128k), un développeur doit diviser le document en morceaux car il dépasse la fenêtre. Claude 3.5 avec une fenêtre de 200k tokens peut traiter l'intégralité du document en un seul appel sans découpage.
Quelle est la différence entre la fenêtre de contexte et la mémoire ?
La fenêtre de contexte contient tous les tokens actuellement dans la conversation active — elle est effacée entre les sessions. La mémoire (dans les agents multi-sessions) est un système de récupération séparé qui stocke et récupère les interactions passées pertinentes. Le contexte est rapide et précis ; la mémoire est persistante mais approximative.
Une fenêtre de contexte plus grande signifie-t-elle des réponses plus lentes ?
Oui — les mécanismes d'attention dans les transformeurs se mettent à l'échelle en O(n²) avec la longueur de la séquence, donc doubler le contexte quadruple environ le calcul d'attention. Les modèles avec de très grandes fenêtres de contexte utilisent une attention optimisée (par exemple, flash attention) pour réduire ce coût, mais les contextes plus longs augmentent toujours la latence et le coût API.

Related

Published May 14, 2026 · Last reviewed May 31, 2026