Was zählt als Kontext vs. Ausgabe?

Kontext ist das Eingabe-Budget — alles, was das Modell vor der Generierung liest: System-Prompt, vorherige Gesprächsschritte, Werkzeug-/Funktionsdefinitionen, abgerufene Dokumente und die letzte Benutzernachricht. Ausgabe ist das, was das Modell zurückschreibt. Sie werden separat abgerechnet und begrenzt, obwohl beide dasselbe zugrunde liegende Aufmerksamkeitsbudget verbrauchen. Ein 200K-Token-Kontextfenster mit 8K-Ausgabe-Limit bedeutet, dass du ~200K Token eingeben, aber pro Aufruf nur bis zu ~8K Token zurückbekommen kannst.

Zählen System-Prompts gegen das Fenster?

Ja. Jeder Token, den das Modell sieht, verbraucht das Eingabe-Budget — System-Prompt, Entwickleranweisungen, Few-Shot-Beispiele, Werkzeug-Schemas, vorherige Assistentenschritte, abgerufene RAG-Chunks. Die einzigen Token, die nicht zählen, sind die, die das Modell als Ausgabe emittiert. Lange System-Prompts bei Multi-Turn-Gesprächen sind die häufigste Ursache für mysteriöse Kontext-Überlauf-Fehler.

Was ist RAG und wie interagiert es mit der Kontextgröße?

Retrieval-Augmented Generation (RAG) bedeutet, zur Abfragezeit relevante Passagen aus einem Vektorspeicher abzurufen und in den Prompt einzufügen, damit das Modell seine Antwort auf aktuelle oder domänenspezifische Fakten stützen kann. Jeder abgerufene Chunk verbraucht Kontext-Budget. Ein typisches RAG-Setup ruft 5–20 Chunks von je 500–1000 Token ab, sodass 5K–20K Token Kontext verschwinden, bevor die Benutzernachricht überhaupt angehängt wird. Plane dafür.

LLM Kontext-Fenster-Visualizer

Sieh genau, wie viel des Kontext-Budgets jedes Modells dein Prompt verbraucht.

Buğra SözeriKI

Updated June 10, 2026 · Published June 10, 2026

Reviewed by Convertitive

Jedes gehostete LLM hat eine harte Grenze für Eingabe-Token — wird diese überschritten, lehnt die API die Anfrage ab oder kürzt den Anfang deines Prompts stillschweigend ab. Das Widget unten zählt die Token in dem, was du einfügst, und zeigt dann einen horizontalen Balken pro Modell, der den Anteil seines Kontextfensters anzeigt, den deine Eingabe verbrauchen würde. Balken werden bei über 50% Auslastung gelb und bei über 80% rot, wo Prompt-Engineering-Entscheidungen die Modellqualität zu dominieren beginnen.

Paste your prompt + context

Characters: 364
Words: 60
Tokens (est.): 91
Style: Prose

Context window utilization

Sort

GPT-4oOpenAI
91 / 128,000 tokens (0.07%)
Max output: 16,384 tokens
GPT-4o miniOpenAI
91 / 128,000 tokens (0.07%)
Max output: 16,384 tokens
GPT-4 TurboOpenAI
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
o1-miniOpenAI
91 / 128,000 tokens (0.07%)
Max output: 65,536 tokens
Llama 3.3 70BMeta
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
Limits vary by host (Together, Groq, Fireworks).
Llama 3.1 405BMeta
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
DeepSeek V3DeepSeek
91 / 128,000 tokens (0.07%)
Max output: 8,192 tokens
Mistral Large 2Mistral
91 / 128,000 tokens (0.07%)
Max output: 8,192 tokens
o1OpenAI
91 / 200,000 tokens (0.05%)
Max output: 100,000 tokens
Includes reasoning tokens in output budget.
Claude Opus 4Anthropic
91 / 200,000 tokens (0.05%)
Max output: 32,000 tokens
Claude 3.5 SonnetAnthropic
91 / 200,000 tokens (0.05%)
Max output: 8,192 tokens
Claude 3.5 HaikuAnthropic
91 / 200,000 tokens (0.05%)
Max output: 8,192 tokens
Claude Sonnet 4Anthropic
91 / 1,000,000 tokens (0.01%)
Max output: 64,000 tokens
1M context tier — beta header required on some endpoints.
Gemini 2.0 FlashGoogle
91 / 1,000,000 tokens (0.01%)
Max output: 8,192 tokens
Gemini 1.5 FlashGoogle
91 / 1,000,000 tokens (0.01%)
Max output: 8,192 tokens
Gemini 1.5 ProGoogle
91 / 2,000,000 tokens (0.00%)
Max output: 8,192 tokens

What does this fit in?

Based on your 91-token input. Models with headroom below 100% accept the prompt; output budget still depends on each model’s output cap.

Accepts (16)

GPT-4o+127,909
GPT-4o mini+127,909
GPT-4 Turbo+127,909
o1-mini+127,909
Llama 3.3 70B+127,909
Llama 3.1 405B+127,909
DeepSeek V3+127,909
Mistral Large 2+127,909
o1+199,909
Claude Opus 4+199,909
Claude 3.5 Sonnet+199,909
Claude 3.5 Haiku+199,909
Claude Sonnet 4+999,909
Gemini 2.0 Flash+999,909
Gemini 1.5 Flash+999,909
Gemini 1.5 Pro+1,999,909

Overflows (0)

—

Token counts are heuristic (~4 chars/token for prose, ~3.5 for code). System prompts, tool definitions, and prior turns all consume the same context budget — paste the full assembled prompt for the most accurate utilization.

How to use

Den vollständigen Prompt einfügen
Füge den System-Prompt, jeden vorherigen Gesprächsschritt, alle Werkzeugdefinitionen und den abgerufenen Kontext ein — alles zählt gegen das Fenster, nicht nur die letzte Benutzeranfrage.
Die Balken lesen
Jedes Modell erhält einen Balken, der die Eingabe-Token als Anteil seines Kontextfensters zeigt. Grün unter 50% ist komfortabel, gelb zwischen 50–80% bedeutet, dass du kürzen solltest, rot über 80% lässt keinen Platz für die Antwort des Modells.
Zum Vergleichen sortieren
Wechsle die Sortierreihenfolge, um entweder die engste Passform (kleinste Fenster zuerst) oder den meisten Spielraum (größte zuerst) sichtbar zu machen. Das Panel 'Wo passt das rein?' fasst zusammen, welche Modelle den Prompt akzeptieren und welche überlaufen.
Das Ausgabe-Limit separat prüfen
Das Kontextfenster ist das Eingabe-Budget; das Ausgabe-Limit (unter jedem Balken angezeigt) ist eine separate Beschränkung der Antwortlänge. Ein Modell mit einem 1M-Token-Fenster kann trotzdem nur ~8K Token pro Antwort ausgeben.

Frequently asked questions

Was zählt als Kontext vs. Ausgabe?: Kontext ist das Eingabe-Budget — alles, was das Modell vor der Generierung liest: System-Prompt, vorherige Gesprächsschritte, Werkzeug-/Funktionsdefinitionen, abgerufene Dokumente und die letzte Benutzernachricht. Ausgabe ist das, was das Modell zurückschreibt. Sie werden separat abgerechnet und begrenzt, obwohl beide dasselbe zugrunde liegende Aufmerksamkeitsbudget verbrauchen. Ein 200K-Token-Kontextfenster mit 8K-Ausgabe-Limit bedeutet, dass du ~200K Token eingeben, aber pro Aufruf nur bis zu ~8K Token zurückbekommen kannst.
Zählen System-Prompts gegen das Fenster?: Ja. Jeder Token, den das Modell sieht, verbraucht das Eingabe-Budget — System-Prompt, Entwickleranweisungen, Few-Shot-Beispiele, Werkzeug-Schemas, vorherige Assistentenschritte, abgerufene RAG-Chunks. Die einzigen Token, die nicht zählen, sind die, die das Modell als Ausgabe emittiert. Lange System-Prompts bei Multi-Turn-Gesprächen sind die häufigste Ursache für mysteriöse Kontext-Überlauf-Fehler.
Was ist RAG und wie interagiert es mit der Kontextgröße?: Retrieval-Augmented Generation (RAG) bedeutet, zur Abfragezeit relevante Passagen aus einem Vektorspeicher abzurufen und in den Prompt einzufügen, damit das Modell seine Antwort auf aktuelle oder domänenspezifische Fakten stützen kann. Jeder abgerufene Chunk verbraucht Kontext-Budget. Ein typisches RAG-Setup ruft 5–20 Chunks von je 500–1000 Token ab, sodass 5K–20K Token Kontext verschwinden, bevor die Benutzernachricht überhaupt angehängt wird. Plane dafür.

LLM Kontext-Fenster-Visualizer

Context window utilization

What does this fit in?

Accepts (16)

Overflows (0)

How to use

Den vollständigen Prompt einfügen

Die Balken lesen

Zum Vergleichen sortieren

Das Ausgabe-Limit separat prüfen

Frequently asked questions

Verwandte Werkzeuge