Visualisateur de Fenêtre de Contexte LLM
Voyez exactement quelle part du budget de contexte de chaque modèle votre prompt consomme.
Chaque LLM hébergé a une limite stricte sur les tokens d’entrée — la dépasser fait que l’API rejette la requête ou tronque silencieusement le début de votre prompt. Le widget ci-dessous compte les tokens dans ce que vous collez, puis affiche une barre horizontale par modèle montrant la part de sa fenêtre de contexte que votre entrée consommerait. Les barres deviennent ambre au-dessus de 50% d’utilisation et rouges au-dessus de 80%, où les choix d’ingénierie de prompt commencent à dominer la qualité du modèle.
- Characters
- 364
- Words
- 60
- Tokens (est.)
- 91
- Style
- Prose
Context window utilization
- GPT-4oOpenAI91 / 128,000 tokens (0.07%)Max output: 16,384 tokens
- GPT-4o miniOpenAI91 / 128,000 tokens (0.07%)Max output: 16,384 tokens
- GPT-4 TurboOpenAI91 / 128,000 tokens (0.07%)Max output: 4,096 tokens
- o1-miniOpenAI91 / 128,000 tokens (0.07%)Max output: 65,536 tokens
- Llama 3.3 70BMeta91 / 128,000 tokens (0.07%)Max output: 4,096 tokens
Limits vary by host (Together, Groq, Fireworks).
- Llama 3.1 405BMeta91 / 128,000 tokens (0.07%)Max output: 4,096 tokens
- DeepSeek V3DeepSeek91 / 128,000 tokens (0.07%)Max output: 8,192 tokens
- Mistral Large 2Mistral91 / 128,000 tokens (0.07%)Max output: 8,192 tokens
- o1OpenAI91 / 200,000 tokens (0.05%)Max output: 100,000 tokens
Includes reasoning tokens in output budget.
- Claude Opus 4Anthropic91 / 200,000 tokens (0.05%)Max output: 32,000 tokens
- Claude 3.5 SonnetAnthropic91 / 200,000 tokens (0.05%)Max output: 8,192 tokens
- Claude 3.5 HaikuAnthropic91 / 200,000 tokens (0.05%)Max output: 8,192 tokens
- Claude Sonnet 4Anthropic91 / 1,000,000 tokens (0.01%)Max output: 64,000 tokens
1M context tier — beta header required on some endpoints.
- Gemini 2.0 FlashGoogle91 / 1,000,000 tokens (0.01%)Max output: 8,192 tokens
- Gemini 1.5 FlashGoogle91 / 1,000,000 tokens (0.01%)Max output: 8,192 tokens
- Gemini 1.5 ProGoogle91 / 2,000,000 tokens (0.00%)Max output: 8,192 tokens
What does this fit in?
Based on your 91-token input. Models with headroom below 100% accept the prompt; output budget still depends on each model’s output cap.
Accepts (16)
- GPT-4o+127,909
- GPT-4o mini+127,909
- GPT-4 Turbo+127,909
- o1-mini+127,909
- Llama 3.3 70B+127,909
- Llama 3.1 405B+127,909
- DeepSeek V3+127,909
- Mistral Large 2+127,909
- o1+199,909
- Claude Opus 4+199,909
- Claude 3.5 Sonnet+199,909
- Claude 3.5 Haiku+199,909
- Claude Sonnet 4+999,909
- Gemini 2.0 Flash+999,909
- Gemini 1.5 Flash+999,909
- Gemini 1.5 Pro+1,999,909
Overflows (0)
—
Token counts are heuristic (~4 chars/token for prose, ~3.5 for code). System prompts, tool definitions, and prior turns all consume the same context budget — paste the full assembled prompt for the most accurate utilization.
How to use
Collez le prompt complet
Incluez le prompt système, chaque tour de conversation précédent, toutes les définitions d'outils et le contexte récupéré — tout compte contre la fenêtre, pas seulement le dernier message utilisateur.
Lisez les barres
Chaque modèle obtient une barre montrant les tokens d'entrée comme fraction de sa fenêtre de contexte. Vert sous 50% est confortable, ambre entre 50–80% signifie que vous devriez commencer à réduire, rouge au-dessus de 80% ne laisse pas de place pour la réponse du modèle.
Triez pour comparer
Changez l'ordre de tri pour faire apparaître soit l'ajustement le plus serré (les plus petites fenêtres en premier) soit la plus grande marge (les plus grandes en premier). Le panneau 'dans quoi ça rentre ?' résume quels modèles acceptent le prompt et lesquels débordent.
Vérifiez la limite de sortie séparément
La fenêtre de contexte est le budget d'entrée ; la limite de sortie (affichée sous chaque barre) est une limite séparée sur la longueur de la réponse. Un modèle avec une fenêtre de 1M tokens ne peut toujours émettre que ~8K tokens par réponse.
Frequently asked questions
- Qu'est-ce qui compte comme contexte vs sortie ?
- Le contexte est le budget d'entrée — tout ce que le modèle lit avant de générer : prompt système, tours de conversation précédents, définitions d'outils/fonctions, documents récupérés et le dernier message utilisateur. La sortie est ce que le modèle écrit en retour. Ils sont facturés et limités séparément, même s'ils consomment le même budget d'attention sous-jacent. Une fenêtre de contexte de 200K tokens avec une limite de sortie de 8K signifie que vous pouvez alimenter ~200K tokens mais n'obtenir que ~8K tokens par appel.
- Les prompts système comptent-ils contre la fenêtre ?
- Oui. Chaque token que le modèle voit consomme le budget d'entrée — prompt système, instructions développeur, exemples few-shot, schémas d'outils, tours d'assistant précédents, chunks RAG récupérés. Les seuls tokens qui ne comptent pas sont ceux que le modèle émet en sortie. Les longs prompts système dans les conversations multi-tours sont la cause n°1 des erreurs mystérieuses de débordement de contexte.
- Qu'est-ce que le RAG et comment interagit-il avec la taille du contexte ?
- Retrieval-Augmented Generation (RAG) signifie récupérer des passages pertinents d'un magasin vectoriel au moment de la requête et les coller dans le prompt pour que le modèle puisse ancrer sa réponse dans des faits récents ou spécifiques au domaine. Chaque chunk récupéré consomme du budget de contexte. Une configuration RAG typique récupère 5–20 chunks de 500–1000 tokens chacun, donc 5K–20K tokens de contexte disparaissent avant même que le message utilisateur soit ajouté. Planifiez en conséquence.
Outils associés
- Calculateur de Coût d'API LLMEstimer le coût d'appels API pour les modèles LLM.
- Compteur de Tokens et Calculateur de Coût APICompter les tokens et calculer le coût d'inférence API.
- Crédit immobilierMensualité, intérêts totaux et coût du prêt.
- Intérêts composésCroissance du capital avec versements réguliers.
- PourboireCalculer le pourboire et le partager.
- TVAAjouter ou retirer la TVA d'un montant.