Skip to content

Visualisateur de Fenêtre de Contexte LLM

Voyez exactement quelle part du budget de contexte de chaque modèle votre prompt consomme.

Buğra SözeriIA
Updated · Published
Reviewed by Convertitive

Chaque LLM hébergé a une limite stricte sur les tokens d’entrée — la dépasser fait que l’API rejette la requête ou tronque silencieusement le début de votre prompt. Le widget ci-dessous compte les tokens dans ce que vous collez, puis affiche une barre horizontale par modèle montrant la part de sa fenêtre de contexte que votre entrée consommerait. Les barres deviennent ambre au-dessus de 50% d’utilisation et rouges au-dessus de 80%, où les choix d’ingénierie de prompt commencent à dominer la qualité du modèle.

Characters
364
Words
60
Tokens (est.)
91
Style
Prose

Context window utilization

  • GPT-4oOpenAI
    91 / 128,000 tokens (0.07%)
    Max output: 16,384 tokens
  • GPT-4o miniOpenAI
    91 / 128,000 tokens (0.07%)
    Max output: 16,384 tokens
  • GPT-4 TurboOpenAI
    91 / 128,000 tokens (0.07%)
    Max output: 4,096 tokens
  • o1-miniOpenAI
    91 / 128,000 tokens (0.07%)
    Max output: 65,536 tokens
  • Llama 3.3 70BMeta
    91 / 128,000 tokens (0.07%)
    Max output: 4,096 tokens

    Limits vary by host (Together, Groq, Fireworks).

  • Llama 3.1 405BMeta
    91 / 128,000 tokens (0.07%)
    Max output: 4,096 tokens
  • DeepSeek V3DeepSeek
    91 / 128,000 tokens (0.07%)
    Max output: 8,192 tokens
  • Mistral Large 2Mistral
    91 / 128,000 tokens (0.07%)
    Max output: 8,192 tokens
  • o1OpenAI
    91 / 200,000 tokens (0.05%)
    Max output: 100,000 tokens

    Includes reasoning tokens in output budget.

  • Claude Opus 4Anthropic
    91 / 200,000 tokens (0.05%)
    Max output: 32,000 tokens
  • Claude 3.5 SonnetAnthropic
    91 / 200,000 tokens (0.05%)
    Max output: 8,192 tokens
  • Claude 3.5 HaikuAnthropic
    91 / 200,000 tokens (0.05%)
    Max output: 8,192 tokens
  • Claude Sonnet 4Anthropic
    91 / 1,000,000 tokens (0.01%)
    Max output: 64,000 tokens

    1M context tier — beta header required on some endpoints.

  • Gemini 2.0 FlashGoogle
    91 / 1,000,000 tokens (0.01%)
    Max output: 8,192 tokens
  • Gemini 1.5 FlashGoogle
    91 / 1,000,000 tokens (0.01%)
    Max output: 8,192 tokens
  • Gemini 1.5 ProGoogle
    91 / 2,000,000 tokens (0.00%)
    Max output: 8,192 tokens

What does this fit in?

Based on your 91-token input. Models with headroom below 100% accept the prompt; output budget still depends on each model’s output cap.

Accepts (16)

  • GPT-4o+127,909
  • GPT-4o mini+127,909
  • GPT-4 Turbo+127,909
  • o1-mini+127,909
  • Llama 3.3 70B+127,909
  • Llama 3.1 405B+127,909
  • DeepSeek V3+127,909
  • Mistral Large 2+127,909
  • o1+199,909
  • Claude Opus 4+199,909
  • Claude 3.5 Sonnet+199,909
  • Claude 3.5 Haiku+199,909
  • Claude Sonnet 4+999,909
  • Gemini 2.0 Flash+999,909
  • Gemini 1.5 Flash+999,909
  • Gemini 1.5 Pro+1,999,909

Overflows (0)

Token counts are heuristic (~4 chars/token for prose, ~3.5 for code). System prompts, tool definitions, and prior turns all consume the same context budget — paste the full assembled prompt for the most accurate utilization.

How to use

  1. Collez le prompt complet

    Incluez le prompt système, chaque tour de conversation précédent, toutes les définitions d'outils et le contexte récupéré — tout compte contre la fenêtre, pas seulement le dernier message utilisateur.

  2. Lisez les barres

    Chaque modèle obtient une barre montrant les tokens d'entrée comme fraction de sa fenêtre de contexte. Vert sous 50% est confortable, ambre entre 50–80% signifie que vous devriez commencer à réduire, rouge au-dessus de 80% ne laisse pas de place pour la réponse du modèle.

  3. Triez pour comparer

    Changez l'ordre de tri pour faire apparaître soit l'ajustement le plus serré (les plus petites fenêtres en premier) soit la plus grande marge (les plus grandes en premier). Le panneau 'dans quoi ça rentre ?' résume quels modèles acceptent le prompt et lesquels débordent.

  4. Vérifiez la limite de sortie séparément

    La fenêtre de contexte est le budget d'entrée ; la limite de sortie (affichée sous chaque barre) est une limite séparée sur la longueur de la réponse. Un modèle avec une fenêtre de 1M tokens ne peut toujours émettre que ~8K tokens par réponse.

Frequently asked questions

Qu'est-ce qui compte comme contexte vs sortie ?
Le contexte est le budget d'entrée — tout ce que le modèle lit avant de générer : prompt système, tours de conversation précédents, définitions d'outils/fonctions, documents récupérés et le dernier message utilisateur. La sortie est ce que le modèle écrit en retour. Ils sont facturés et limités séparément, même s'ils consomment le même budget d'attention sous-jacent. Une fenêtre de contexte de 200K tokens avec une limite de sortie de 8K signifie que vous pouvez alimenter ~200K tokens mais n'obtenir que ~8K tokens par appel.
Les prompts système comptent-ils contre la fenêtre ?
Oui. Chaque token que le modèle voit consomme le budget d'entrée — prompt système, instructions développeur, exemples few-shot, schémas d'outils, tours d'assistant précédents, chunks RAG récupérés. Les seuls tokens qui ne comptent pas sont ceux que le modèle émet en sortie. Les longs prompts système dans les conversations multi-tours sont la cause n°1 des erreurs mystérieuses de débordement de contexte.
Qu'est-ce que le RAG et comment interagit-il avec la taille du contexte ?
Retrieval-Augmented Generation (RAG) signifie récupérer des passages pertinents d'un magasin vectoriel au moment de la requête et les coller dans le prompt pour que le modèle puisse ancrer sa réponse dans des faits récents ou spécifiques au domaine. Chaque chunk récupéré consomme du budget de contexte. Une configuration RAG typique récupère 5–20 chunks de 500–1000 tokens chacun, donc 5K–20K tokens de contexte disparaissent avant même que le message utilisateur soit ajouté. Planifiez en conséquence.

Outils associés