O que conta como contexto vs saída?

Contexto é o orçamento de entrada — tudo que o modelo lê antes de gerar: prompt do sistema, turnos de conversa anteriores, definições de ferramentas/funções, documentos recuperados e a última mensagem do usuário. Saída é o que o modelo escreve de volta. São cobrados e limitados separadamente, embora ambos consumam o mesmo orçamento de atenção subjacente. Uma janela de contexto de 200K tokens com limite de 8K de saída significa que você pode alimentar ~200K tokens mas só obter até ~8K tokens por chamada.

Prompts do sistema contam contra a janela?

Sim. Cada token que o modelo vê consome o orçamento de entrada — prompt do sistema, instruções do desenvolvedor, exemplos few-shot, esquemas de ferramentas, turnos anteriores do assistente, chunks RAG recuperados. Os únicos tokens que não contam são os que o modelo emite como saída. Prompts de sistema longos em conversas multi-turno são a causa número 1 de erros misteriosos de estouro de contexto.

O que é RAG e como interage com o tamanho do contexto?

Retrieval-Augmented Generation (RAG) significa buscar passagens relevantes de um armazenamento vetorial no momento da consulta e colá-las no prompt para que o modelo possa basear sua resposta em fatos frescos ou específicos do domínio. Cada chunk recuperado consome orçamento de contexto. Uma configuração RAG típica recupera 5–20 chunks de 500–1000 tokens cada, então 5K–20K tokens de contexto desaparecem antes mesmo de a mensagem do usuário ser anexada. Planeje para isso.

Visualizador de Janela de Contexto LLM

Veja exatamente quanto do orçamento de contexto de cada modelo seu prompt consome.

Buğra SözeriIA

Updated June 10, 2026 · Published June 10, 2026

Reviewed by Convertitive

Todo LLM hospedado tem um limite fixo de tokens de entrada — excedê-lo faz a API rejeitar a requisição ou truncar silenciosamente o início do seu prompt. O widget abaixo conta os tokens no que você colar e então renderiza uma barra horizontal por modelo mostrando a fração da janela de contexto que sua entrada consumiria. As barras ficam âmbar acima de 50% de utilização e vermelhas acima de 80%, onde as escolhas de engenharia de prompt começam a dominar a qualidade do modelo.

Paste your prompt + context

Characters: 364
Words: 60
Tokens (est.): 91
Style: Prose

Context window utilization

Sort

GPT-4oOpenAI
91 / 128,000 tokens (0.07%)
Max output: 16,384 tokens
GPT-4o miniOpenAI
91 / 128,000 tokens (0.07%)
Max output: 16,384 tokens
GPT-4 TurboOpenAI
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
o1-miniOpenAI
91 / 128,000 tokens (0.07%)
Max output: 65,536 tokens
Llama 3.3 70BMeta
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
Limits vary by host (Together, Groq, Fireworks).
Llama 3.1 405BMeta
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
DeepSeek V3DeepSeek
91 / 128,000 tokens (0.07%)
Max output: 8,192 tokens
Mistral Large 2Mistral
91 / 128,000 tokens (0.07%)
Max output: 8,192 tokens
o1OpenAI
91 / 200,000 tokens (0.05%)
Max output: 100,000 tokens
Includes reasoning tokens in output budget.
Claude Opus 4Anthropic
91 / 200,000 tokens (0.05%)
Max output: 32,000 tokens
Claude 3.5 SonnetAnthropic
91 / 200,000 tokens (0.05%)
Max output: 8,192 tokens
Claude 3.5 HaikuAnthropic
91 / 200,000 tokens (0.05%)
Max output: 8,192 tokens
Claude Sonnet 4Anthropic
91 / 1,000,000 tokens (0.01%)
Max output: 64,000 tokens
1M context tier — beta header required on some endpoints.
Gemini 2.0 FlashGoogle
91 / 1,000,000 tokens (0.01%)
Max output: 8,192 tokens
Gemini 1.5 FlashGoogle
91 / 1,000,000 tokens (0.01%)
Max output: 8,192 tokens
Gemini 1.5 ProGoogle
91 / 2,000,000 tokens (0.00%)
Max output: 8,192 tokens

What does this fit in?

Based on your 91-token input. Models with headroom below 100% accept the prompt; output budget still depends on each model’s output cap.

Accepts (16)

GPT-4o+127,909
GPT-4o mini+127,909
GPT-4 Turbo+127,909
o1-mini+127,909
Llama 3.3 70B+127,909
Llama 3.1 405B+127,909
DeepSeek V3+127,909
Mistral Large 2+127,909
o1+199,909
Claude Opus 4+199,909
Claude 3.5 Sonnet+199,909
Claude 3.5 Haiku+199,909
Claude Sonnet 4+999,909
Gemini 2.0 Flash+999,909
Gemini 1.5 Flash+999,909
Gemini 1.5 Pro+1,999,909

Overflows (0)

—

Token counts are heuristic (~4 chars/token for prose, ~3.5 for code). System prompts, tool definitions, and prior turns all consume the same context budget — paste the full assembled prompt for the most accurate utilization.

How to use

Cole o prompt completo
Inclua o prompt do sistema, cada turno de conversa anterior, quaisquer definições de ferramentas e o contexto recuperado — tudo conta contra a janela, não apenas a última mensagem do usuário.
Leia as barras
Cada modelo recebe uma barra mostrando os tokens de entrada como fração de sua janela de contexto. Verde abaixo de 50% é confortável, âmbar entre 50–80% significa que você deve começar a cortar, vermelho acima de 80% não deixa espaço para a resposta do modelo.
Ordene para comparar
Troque a ordem de classificação para revelar o ajuste mais justo (janelas menores primeiro) ou a maior margem (as maiores primeiro). O painel 'onde isso cabe?' resume quais modelos aceitam o prompt e quais transbordam.
Verifique o limite de saída separadamente
A janela de contexto é o orçamento de entrada; o limite de saída (mostrado sob cada barra) é um limite separado sobre o comprimento da resposta. Um modelo com janela de 1M tokens ainda pode emitir apenas ~8K tokens por resposta.

Frequently asked questions

O que conta como contexto vs saída?: Contexto é o orçamento de entrada — tudo que o modelo lê antes de gerar: prompt do sistema, turnos de conversa anteriores, definições de ferramentas/funções, documentos recuperados e a última mensagem do usuário. Saída é o que o modelo escreve de volta. São cobrados e limitados separadamente, embora ambos consumam o mesmo orçamento de atenção subjacente. Uma janela de contexto de 200K tokens com limite de 8K de saída significa que você pode alimentar ~200K tokens mas só obter até ~8K tokens por chamada.
Prompts do sistema contam contra a janela?: Sim. Cada token que o modelo vê consome o orçamento de entrada — prompt do sistema, instruções do desenvolvedor, exemplos few-shot, esquemas de ferramentas, turnos anteriores do assistente, chunks RAG recuperados. Os únicos tokens que não contam são os que o modelo emite como saída. Prompts de sistema longos em conversas multi-turno são a causa número 1 de erros misteriosos de estouro de contexto.
O que é RAG e como interage com o tamanho do contexto?: Retrieval-Augmented Generation (RAG) significa buscar passagens relevantes de um armazenamento vetorial no momento da consulta e colá-las no prompt para que o modelo possa basear sua resposta em fatos frescos ou específicos do domínio. Cada chunk recuperado consome orçamento de contexto. Uma configuração RAG típica recupera 5–20 chunks de 500–1000 tokens cada, então 5K–20K tokens de contexto desaparecem antes mesmo de a mensagem do usuário ser anexada. Planeje para isso.

Visualizador de Janela de Contexto LLM

Context window utilization

What does this fit in?

Accepts (16)

Overflows (0)

How to use

Cole o prompt completo

Leia as barras

Ordene para comparar

Verifique o limite de saída separadamente

Frequently asked questions

Ferramentas relacionadas