Qu'est-ce qui compte comme contexte vs sortie ?

Le contexte est le budget d'entrée — tout ce que le modèle lit avant de générer : prompt système, tours de conversation précédents, définitions d'outils/fonctions, documents récupérés et le dernier message utilisateur. La sortie est ce que le modèle écrit en retour. Ils sont facturés et limités séparément, même s'ils consomment le même budget d'attention sous-jacent. Une fenêtre de contexte de 200K tokens avec une limite de sortie de 8K signifie que vous pouvez alimenter ~200K tokens mais n'obtenir que ~8K tokens par appel.

Les prompts système comptent-ils contre la fenêtre ?

Oui. Chaque token que le modèle voit consomme le budget d'entrée — prompt système, instructions développeur, exemples few-shot, schémas d'outils, tours d'assistant précédents, chunks RAG récupérés. Les seuls tokens qui ne comptent pas sont ceux que le modèle émet en sortie. Les longs prompts système dans les conversations multi-tours sont la cause n°1 des erreurs mystérieuses de débordement de contexte.

Qu'est-ce que le RAG et comment interagit-il avec la taille du contexte ?

Retrieval-Augmented Generation (RAG) signifie récupérer des passages pertinents d'un magasin vectoriel au moment de la requête et les coller dans le prompt pour que le modèle puisse ancrer sa réponse dans des faits récents ou spécifiques au domaine. Chaque chunk récupéré consomme du budget de contexte. Une configuration RAG typique récupère 5–20 chunks de 500–1000 tokens chacun, donc 5K–20K tokens de contexte disparaissent avant même que le message utilisateur soit ajouté. Planifiez en conséquence.

Visualisateur de Fenêtre de Contexte LLM

Voyez exactement quelle part du budget de contexte de chaque modèle votre prompt consomme.

Buğra SözeriIA

Updated June 10, 2026 · Published June 10, 2026

Reviewed by Convertitive

Chaque LLM hébergé a une limite stricte sur les tokens d’entrée — la dépasser fait que l’API rejette la requête ou tronque silencieusement le début de votre prompt. Le widget ci-dessous compte les tokens dans ce que vous collez, puis affiche une barre horizontale par modèle montrant la part de sa fenêtre de contexte que votre entrée consommerait. Les barres deviennent ambre au-dessus de 50% d’utilisation et rouges au-dessus de 80%, où les choix d’ingénierie de prompt commencent à dominer la qualité du modèle.

Paste your prompt + context

Characters: 364
Words: 60
Tokens (est.): 91
Style: Prose

Context window utilization

Sort

GPT-4oOpenAI
91 / 128,000 tokens (0.07%)
Max output: 16,384 tokens
GPT-4o miniOpenAI
91 / 128,000 tokens (0.07%)
Max output: 16,384 tokens
GPT-4 TurboOpenAI
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
o1-miniOpenAI
91 / 128,000 tokens (0.07%)
Max output: 65,536 tokens
Llama 3.3 70BMeta
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
Limits vary by host (Together, Groq, Fireworks).
Llama 3.1 405BMeta
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
DeepSeek V3DeepSeek
91 / 128,000 tokens (0.07%)
Max output: 8,192 tokens
Mistral Large 2Mistral
91 / 128,000 tokens (0.07%)
Max output: 8,192 tokens
o1OpenAI
91 / 200,000 tokens (0.05%)
Max output: 100,000 tokens
Includes reasoning tokens in output budget.
Claude Opus 4Anthropic
91 / 200,000 tokens (0.05%)
Max output: 32,000 tokens
Claude 3.5 SonnetAnthropic
91 / 200,000 tokens (0.05%)
Max output: 8,192 tokens
Claude 3.5 HaikuAnthropic
91 / 200,000 tokens (0.05%)
Max output: 8,192 tokens
Claude Sonnet 4Anthropic
91 / 1,000,000 tokens (0.01%)
Max output: 64,000 tokens
1M context tier — beta header required on some endpoints.
Gemini 2.0 FlashGoogle
91 / 1,000,000 tokens (0.01%)
Max output: 8,192 tokens
Gemini 1.5 FlashGoogle
91 / 1,000,000 tokens (0.01%)
Max output: 8,192 tokens
Gemini 1.5 ProGoogle
91 / 2,000,000 tokens (0.00%)
Max output: 8,192 tokens

What does this fit in?

Based on your 91-token input. Models with headroom below 100% accept the prompt; output budget still depends on each model’s output cap.

Accepts (16)

GPT-4o+127,909
GPT-4o mini+127,909
GPT-4 Turbo+127,909
o1-mini+127,909
Llama 3.3 70B+127,909
Llama 3.1 405B+127,909
DeepSeek V3+127,909
Mistral Large 2+127,909
o1+199,909
Claude Opus 4+199,909
Claude 3.5 Sonnet+199,909
Claude 3.5 Haiku+199,909
Claude Sonnet 4+999,909
Gemini 2.0 Flash+999,909
Gemini 1.5 Flash+999,909
Gemini 1.5 Pro+1,999,909

Overflows (0)

—

Token counts are heuristic (~4 chars/token for prose, ~3.5 for code). System prompts, tool definitions, and prior turns all consume the same context budget — paste the full assembled prompt for the most accurate utilization.

How to use

Collez le prompt complet
Incluez le prompt système, chaque tour de conversation précédent, toutes les définitions d'outils et le contexte récupéré — tout compte contre la fenêtre, pas seulement le dernier message utilisateur.
Lisez les barres
Chaque modèle obtient une barre montrant les tokens d'entrée comme fraction de sa fenêtre de contexte. Vert sous 50% est confortable, ambre entre 50–80% signifie que vous devriez commencer à réduire, rouge au-dessus de 80% ne laisse pas de place pour la réponse du modèle.
Triez pour comparer
Changez l'ordre de tri pour faire apparaître soit l'ajustement le plus serré (les plus petites fenêtres en premier) soit la plus grande marge (les plus grandes en premier). Le panneau 'dans quoi ça rentre ?' résume quels modèles acceptent le prompt et lesquels débordent.
Vérifiez la limite de sortie séparément
La fenêtre de contexte est le budget d'entrée ; la limite de sortie (affichée sous chaque barre) est une limite séparée sur la longueur de la réponse. Un modèle avec une fenêtre de 1M tokens ne peut toujours émettre que ~8K tokens par réponse.

Frequently asked questions

Qu'est-ce qui compte comme contexte vs sortie ?: Le contexte est le budget d'entrée — tout ce que le modèle lit avant de générer : prompt système, tours de conversation précédents, définitions d'outils/fonctions, documents récupérés et le dernier message utilisateur. La sortie est ce que le modèle écrit en retour. Ils sont facturés et limités séparément, même s'ils consomment le même budget d'attention sous-jacent. Une fenêtre de contexte de 200K tokens avec une limite de sortie de 8K signifie que vous pouvez alimenter ~200K tokens mais n'obtenir que ~8K tokens par appel.
Les prompts système comptent-ils contre la fenêtre ?: Oui. Chaque token que le modèle voit consomme le budget d'entrée — prompt système, instructions développeur, exemples few-shot, schémas d'outils, tours d'assistant précédents, chunks RAG récupérés. Les seuls tokens qui ne comptent pas sont ceux que le modèle émet en sortie. Les longs prompts système dans les conversations multi-tours sont la cause n°1 des erreurs mystérieuses de débordement de contexte.
Qu'est-ce que le RAG et comment interagit-il avec la taille du contexte ?: Retrieval-Augmented Generation (RAG) signifie récupérer des passages pertinents d'un magasin vectoriel au moment de la requête et les coller dans le prompt pour que le modèle puisse ancrer sa réponse dans des faits récents ou spécifiques au domaine. Chaque chunk récupéré consomme du budget de contexte. Une configuration RAG typique récupère 5–20 chunks de 500–1000 tokens chacun, donc 5K–20K tokens de contexte disparaissent avant même que le message utilisateur soit ajouté. Planifiez en conséquence.

Visualisateur de Fenêtre de Contexte LLM

Context window utilization

What does this fit in?

Accepts (16)

Overflows (0)

How to use

Collez le prompt complet

Lisez les barres

Triez pour comparer

Vérifiez la limite de sortie séparément

Frequently asked questions

Outils associés