Skip to content

LLM Kontext-Fenster-Visualizer

Sieh genau, wie viel des Kontext-Budgets jedes Modells dein Prompt verbraucht.

Buğra SözeriKI
Updated · Published
Reviewed by Convertitive

Jedes gehostete LLM hat eine harte Grenze für Eingabe-Token — wird diese überschritten, lehnt die API die Anfrage ab oder kürzt den Anfang deines Prompts stillschweigend ab. Das Widget unten zählt die Token in dem, was du einfügst, und zeigt dann einen horizontalen Balken pro Modell, der den Anteil seines Kontextfensters anzeigt, den deine Eingabe verbrauchen würde. Balken werden bei über 50% Auslastung gelb und bei über 80% rot, wo Prompt-Engineering-Entscheidungen die Modellqualität zu dominieren beginnen.

Characters
364
Words
60
Tokens (est.)
91
Style
Prose

Context window utilization

  • GPT-4oOpenAI
    91 / 128,000 tokens (0.07%)
    Max output: 16,384 tokens
  • GPT-4o miniOpenAI
    91 / 128,000 tokens (0.07%)
    Max output: 16,384 tokens
  • GPT-4 TurboOpenAI
    91 / 128,000 tokens (0.07%)
    Max output: 4,096 tokens
  • o1-miniOpenAI
    91 / 128,000 tokens (0.07%)
    Max output: 65,536 tokens
  • Llama 3.3 70BMeta
    91 / 128,000 tokens (0.07%)
    Max output: 4,096 tokens

    Limits vary by host (Together, Groq, Fireworks).

  • Llama 3.1 405BMeta
    91 / 128,000 tokens (0.07%)
    Max output: 4,096 tokens
  • DeepSeek V3DeepSeek
    91 / 128,000 tokens (0.07%)
    Max output: 8,192 tokens
  • Mistral Large 2Mistral
    91 / 128,000 tokens (0.07%)
    Max output: 8,192 tokens
  • o1OpenAI
    91 / 200,000 tokens (0.05%)
    Max output: 100,000 tokens

    Includes reasoning tokens in output budget.

  • Claude Opus 4Anthropic
    91 / 200,000 tokens (0.05%)
    Max output: 32,000 tokens
  • Claude 3.5 SonnetAnthropic
    91 / 200,000 tokens (0.05%)
    Max output: 8,192 tokens
  • Claude 3.5 HaikuAnthropic
    91 / 200,000 tokens (0.05%)
    Max output: 8,192 tokens
  • Claude Sonnet 4Anthropic
    91 / 1,000,000 tokens (0.01%)
    Max output: 64,000 tokens

    1M context tier — beta header required on some endpoints.

  • Gemini 2.0 FlashGoogle
    91 / 1,000,000 tokens (0.01%)
    Max output: 8,192 tokens
  • Gemini 1.5 FlashGoogle
    91 / 1,000,000 tokens (0.01%)
    Max output: 8,192 tokens
  • Gemini 1.5 ProGoogle
    91 / 2,000,000 tokens (0.00%)
    Max output: 8,192 tokens

What does this fit in?

Based on your 91-token input. Models with headroom below 100% accept the prompt; output budget still depends on each model’s output cap.

Accepts (16)

  • GPT-4o+127,909
  • GPT-4o mini+127,909
  • GPT-4 Turbo+127,909
  • o1-mini+127,909
  • Llama 3.3 70B+127,909
  • Llama 3.1 405B+127,909
  • DeepSeek V3+127,909
  • Mistral Large 2+127,909
  • o1+199,909
  • Claude Opus 4+199,909
  • Claude 3.5 Sonnet+199,909
  • Claude 3.5 Haiku+199,909
  • Claude Sonnet 4+999,909
  • Gemini 2.0 Flash+999,909
  • Gemini 1.5 Flash+999,909
  • Gemini 1.5 Pro+1,999,909

Overflows (0)

Token counts are heuristic (~4 chars/token for prose, ~3.5 for code). System prompts, tool definitions, and prior turns all consume the same context budget — paste the full assembled prompt for the most accurate utilization.

How to use

  1. Den vollständigen Prompt einfügen

    Füge den System-Prompt, jeden vorherigen Gesprächsschritt, alle Werkzeugdefinitionen und den abgerufenen Kontext ein — alles zählt gegen das Fenster, nicht nur die letzte Benutzeranfrage.

  2. Die Balken lesen

    Jedes Modell erhält einen Balken, der die Eingabe-Token als Anteil seines Kontextfensters zeigt. Grün unter 50% ist komfortabel, gelb zwischen 50–80% bedeutet, dass du kürzen solltest, rot über 80% lässt keinen Platz für die Antwort des Modells.

  3. Zum Vergleichen sortieren

    Wechsle die Sortierreihenfolge, um entweder die engste Passform (kleinste Fenster zuerst) oder den meisten Spielraum (größte zuerst) sichtbar zu machen. Das Panel 'Wo passt das rein?' fasst zusammen, welche Modelle den Prompt akzeptieren und welche überlaufen.

  4. Das Ausgabe-Limit separat prüfen

    Das Kontextfenster ist das Eingabe-Budget; das Ausgabe-Limit (unter jedem Balken angezeigt) ist eine separate Beschränkung der Antwortlänge. Ein Modell mit einem 1M-Token-Fenster kann trotzdem nur ~8K Token pro Antwort ausgeben.

Frequently asked questions

Was zählt als Kontext vs. Ausgabe?
Kontext ist das Eingabe-Budget — alles, was das Modell vor der Generierung liest: System-Prompt, vorherige Gesprächsschritte, Werkzeug-/Funktionsdefinitionen, abgerufene Dokumente und die letzte Benutzernachricht. Ausgabe ist das, was das Modell zurückschreibt. Sie werden separat abgerechnet und begrenzt, obwohl beide dasselbe zugrunde liegende Aufmerksamkeitsbudget verbrauchen. Ein 200K-Token-Kontextfenster mit 8K-Ausgabe-Limit bedeutet, dass du ~200K Token eingeben, aber pro Aufruf nur bis zu ~8K Token zurückbekommen kannst.
Zählen System-Prompts gegen das Fenster?
Ja. Jeder Token, den das Modell sieht, verbraucht das Eingabe-Budget — System-Prompt, Entwickleranweisungen, Few-Shot-Beispiele, Werkzeug-Schemas, vorherige Assistentenschritte, abgerufene RAG-Chunks. Die einzigen Token, die nicht zählen, sind die, die das Modell als Ausgabe emittiert. Lange System-Prompts bei Multi-Turn-Gesprächen sind die häufigste Ursache für mysteriöse Kontext-Überlauf-Fehler.
Was ist RAG und wie interagiert es mit der Kontextgröße?
Retrieval-Augmented Generation (RAG) bedeutet, zur Abfragezeit relevante Passagen aus einem Vektorspeicher abzurufen und in den Prompt einzufügen, damit das Modell seine Antwort auf aktuelle oder domänenspezifische Fakten stützen kann. Jeder abgerufene Chunk verbraucht Kontext-Budget. Ein typisches RAG-Setup ruft 5–20 Chunks von je 500–1000 Token ab, sodass 5K–20K Token Kontext verschwinden, bevor die Benutzernachricht überhaupt angehängt wird. Plane dafür.

Verwandte Werkzeuge