Cosa conta come contesto vs output?

Il contesto è il budget di input — tutto ciò che il modello legge prima di generare: prompt di sistema, turni di conversazione precedenti, definizioni di strumenti/funzioni, documenti recuperati e l'ultimo messaggio dell'utente. L'output è ciò che il modello riscrive. Vengono fatturati e limitati separatamente, anche se entrambi consumano lo stesso budget di attenzione sottostante. Una finestra di contesto di 200K token con limite di 8K di output significa che puoi alimentare ~200K token ma ottenere solo fino a ~8K token per chiamata.

I prompt di sistema contano contro la finestra?

Sì. Ogni token che il modello vede consuma il budget di input — prompt di sistema, istruzioni dello sviluppatore, esempi few-shot, schemi di strumenti, turni di assistente precedenti, chunk RAG recuperati. Gli unici token che non contano sono quelli che il modello emette come output. I lunghi prompt di sistema nelle conversazioni multi-turno sono la causa n. 1 degli errori misteriosi di overflow del contesto.

Cos'è il RAG e come interagisce con la dimensione del contesto?

Retrieval-Augmented Generation (RAG) significa recuperare passaggi rilevanti da un archivio vettoriale al momento della query e incollarli nel prompt in modo che il modello possa basare la sua risposta su fatti aggiornati o specifici del dominio. Ogni chunk recuperato consuma budget di contesto. Una tipica configurazione RAG recupera 5–20 chunk di 500–1000 token ciascuno, quindi 5K–20K token di contesto scompaiono prima ancora che il messaggio dell'utente venga aggiunto. Pianifica di conseguenza.

Visualizzatore Finestra di Contesto LLM

Vedi esattamente quanto del budget di contesto di ogni modello consuma il tuo prompt.

Buğra SözeriIA

Updated June 10, 2026 · Published June 10, 2026

Reviewed by Convertitive

Ogni LLM ospitato ha un limite rigido sui token di input — superarlo fa sì che l’API rifiuti la richiesta o tronchi silenziosamente l’inizio del tuo prompt. Il widget qui sotto conta i token in ciò che incolli e poi mostra una barra orizzontale per modello che indica la quota della finestra di contesto che il tuo input consumerebbe. Le barre diventano ambra oltre il 50% di utilizzo e rosse oltre l’80%, dove le scelte di ingegneria del prompt iniziano a dominare la qualità del modello.

Paste your prompt + context

Characters: 364
Words: 60
Tokens (est.): 91
Style: Prose

Context window utilization

Sort

GPT-4oOpenAI
91 / 128,000 tokens (0.07%)
Max output: 16,384 tokens
GPT-4o miniOpenAI
91 / 128,000 tokens (0.07%)
Max output: 16,384 tokens
GPT-4 TurboOpenAI
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
o1-miniOpenAI
91 / 128,000 tokens (0.07%)
Max output: 65,536 tokens
Llama 3.3 70BMeta
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
Limits vary by host (Together, Groq, Fireworks).
Llama 3.1 405BMeta
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
DeepSeek V3DeepSeek
91 / 128,000 tokens (0.07%)
Max output: 8,192 tokens
Mistral Large 2Mistral
91 / 128,000 tokens (0.07%)
Max output: 8,192 tokens
o1OpenAI
91 / 200,000 tokens (0.05%)
Max output: 100,000 tokens
Includes reasoning tokens in output budget.
Claude Opus 4Anthropic
91 / 200,000 tokens (0.05%)
Max output: 32,000 tokens
Claude 3.5 SonnetAnthropic
91 / 200,000 tokens (0.05%)
Max output: 8,192 tokens
Claude 3.5 HaikuAnthropic
91 / 200,000 tokens (0.05%)
Max output: 8,192 tokens
Claude Sonnet 4Anthropic
91 / 1,000,000 tokens (0.01%)
Max output: 64,000 tokens
1M context tier — beta header required on some endpoints.
Gemini 2.0 FlashGoogle
91 / 1,000,000 tokens (0.01%)
Max output: 8,192 tokens
Gemini 1.5 FlashGoogle
91 / 1,000,000 tokens (0.01%)
Max output: 8,192 tokens
Gemini 1.5 ProGoogle
91 / 2,000,000 tokens (0.00%)
Max output: 8,192 tokens

What does this fit in?

Based on your 91-token input. Models with headroom below 100% accept the prompt; output budget still depends on each model’s output cap.

Accepts (16)

GPT-4o+127,909
GPT-4o mini+127,909
GPT-4 Turbo+127,909
o1-mini+127,909
Llama 3.3 70B+127,909
Llama 3.1 405B+127,909
DeepSeek V3+127,909
Mistral Large 2+127,909
o1+199,909
Claude Opus 4+199,909
Claude 3.5 Sonnet+199,909
Claude 3.5 Haiku+199,909
Claude Sonnet 4+999,909
Gemini 2.0 Flash+999,909
Gemini 1.5 Flash+999,909
Gemini 1.5 Pro+1,999,909

Overflows (0)

—

Token counts are heuristic (~4 chars/token for prose, ~3.5 for code). System prompts, tool definitions, and prior turns all consume the same context budget — paste the full assembled prompt for the most accurate utilization.

How to use

Incolla il prompt completo
Includi il prompt di sistema, ogni turno di conversazione precedente, eventuali definizioni di strumenti e il contesto recuperato — tutto conta contro la finestra, non solo l'ultimo messaggio dell'utente.
Leggi le barre
Ogni modello riceve una barra che mostra i token di input come frazione della sua finestra di contesto. Verde sotto il 50% è confortevole, ambra tra 50–80% significa che dovresti iniziare a ridurre, rosso sopra l'80% non lascia spazio per la risposta del modello.
Ordina per confrontare
Cambia l'ordine di ordinamento per far emergere o la corrispondenza più stretta (finestre più piccole prima) o il maggior margine (le più grandi prima). Il pannello 'cosa ci sta dentro?' riassume quali modelli accettano il prompt e quali traboccano.
Controlla il limite di output separatamente
La finestra di contesto è il budget di input; il limite di output (mostrato sotto ogni barra) è un limite separato sulla lunghezza della risposta. Un modello con una finestra di 1M token può comunque emettere solo ~8K token per risposta.

Frequently asked questions

Cosa conta come contesto vs output?: Il contesto è il budget di input — tutto ciò che il modello legge prima di generare: prompt di sistema, turni di conversazione precedenti, definizioni di strumenti/funzioni, documenti recuperati e l'ultimo messaggio dell'utente. L'output è ciò che il modello riscrive. Vengono fatturati e limitati separatamente, anche se entrambi consumano lo stesso budget di attenzione sottostante. Una finestra di contesto di 200K token con limite di 8K di output significa che puoi alimentare ~200K token ma ottenere solo fino a ~8K token per chiamata.
I prompt di sistema contano contro la finestra?: Sì. Ogni token che il modello vede consuma il budget di input — prompt di sistema, istruzioni dello sviluppatore, esempi few-shot, schemi di strumenti, turni di assistente precedenti, chunk RAG recuperati. Gli unici token che non contano sono quelli che il modello emette come output. I lunghi prompt di sistema nelle conversazioni multi-turno sono la causa n. 1 degli errori misteriosi di overflow del contesto.
Cos'è il RAG e come interagisce con la dimensione del contesto?: Retrieval-Augmented Generation (RAG) significa recuperare passaggi rilevanti da un archivio vettoriale al momento della query e incollarli nel prompt in modo che il modello possa basare la sua risposta su fatti aggiornati o specifici del dominio. Ogni chunk recuperato consuma budget di contesto. Una tipica configurazione RAG recupera 5–20 chunk di 500–1000 token ciascuno, quindi 5K–20K token di contesto scompaiono prima ancora che il messaggio dell'utente venga aggiunto. Pianifica di conseguenza.

Visualizzatore Finestra di Contesto LLM

Context window utilization

What does this fit in?

Accepts (16)

Overflows (0)

How to use

Incolla il prompt completo

Leggi le barre

Ordina per confrontare

Controlla il limite di output separatamente

Frequently asked questions

Strumenti correlati