Visualizador de Janela de Contexto LLM
Veja exatamente quanto do orçamento de contexto de cada modelo seu prompt consome.
Todo LLM hospedado tem um limite fixo de tokens de entrada — excedê-lo faz a API rejeitar a requisição ou truncar silenciosamente o início do seu prompt. O widget abaixo conta os tokens no que você colar e então renderiza uma barra horizontal por modelo mostrando a fração da janela de contexto que sua entrada consumiria. As barras ficam âmbar acima de 50% de utilização e vermelhas acima de 80%, onde as escolhas de engenharia de prompt começam a dominar a qualidade do modelo.
- Characters
- 364
- Words
- 60
- Tokens (est.)
- 91
- Style
- Prose
Context window utilization
- GPT-4oOpenAI91 / 128,000 tokens (0.07%)Max output: 16,384 tokens
- GPT-4o miniOpenAI91 / 128,000 tokens (0.07%)Max output: 16,384 tokens
- GPT-4 TurboOpenAI91 / 128,000 tokens (0.07%)Max output: 4,096 tokens
- o1-miniOpenAI91 / 128,000 tokens (0.07%)Max output: 65,536 tokens
- Llama 3.3 70BMeta91 / 128,000 tokens (0.07%)Max output: 4,096 tokens
Limits vary by host (Together, Groq, Fireworks).
- Llama 3.1 405BMeta91 / 128,000 tokens (0.07%)Max output: 4,096 tokens
- DeepSeek V3DeepSeek91 / 128,000 tokens (0.07%)Max output: 8,192 tokens
- Mistral Large 2Mistral91 / 128,000 tokens (0.07%)Max output: 8,192 tokens
- o1OpenAI91 / 200,000 tokens (0.05%)Max output: 100,000 tokens
Includes reasoning tokens in output budget.
- Claude Opus 4Anthropic91 / 200,000 tokens (0.05%)Max output: 32,000 tokens
- Claude 3.5 SonnetAnthropic91 / 200,000 tokens (0.05%)Max output: 8,192 tokens
- Claude 3.5 HaikuAnthropic91 / 200,000 tokens (0.05%)Max output: 8,192 tokens
- Claude Sonnet 4Anthropic91 / 1,000,000 tokens (0.01%)Max output: 64,000 tokens
1M context tier — beta header required on some endpoints.
- Gemini 2.0 FlashGoogle91 / 1,000,000 tokens (0.01%)Max output: 8,192 tokens
- Gemini 1.5 FlashGoogle91 / 1,000,000 tokens (0.01%)Max output: 8,192 tokens
- Gemini 1.5 ProGoogle91 / 2,000,000 tokens (0.00%)Max output: 8,192 tokens
What does this fit in?
Based on your 91-token input. Models with headroom below 100% accept the prompt; output budget still depends on each model’s output cap.
Accepts (16)
- GPT-4o+127,909
- GPT-4o mini+127,909
- GPT-4 Turbo+127,909
- o1-mini+127,909
- Llama 3.3 70B+127,909
- Llama 3.1 405B+127,909
- DeepSeek V3+127,909
- Mistral Large 2+127,909
- o1+199,909
- Claude Opus 4+199,909
- Claude 3.5 Sonnet+199,909
- Claude 3.5 Haiku+199,909
- Claude Sonnet 4+999,909
- Gemini 2.0 Flash+999,909
- Gemini 1.5 Flash+999,909
- Gemini 1.5 Pro+1,999,909
Overflows (0)
—
Token counts are heuristic (~4 chars/token for prose, ~3.5 for code). System prompts, tool definitions, and prior turns all consume the same context budget — paste the full assembled prompt for the most accurate utilization.
How to use
Cole o prompt completo
Inclua o prompt do sistema, cada turno de conversa anterior, quaisquer definições de ferramentas e o contexto recuperado — tudo conta contra a janela, não apenas a última mensagem do usuário.
Leia as barras
Cada modelo recebe uma barra mostrando os tokens de entrada como fração de sua janela de contexto. Verde abaixo de 50% é confortável, âmbar entre 50–80% significa que você deve começar a cortar, vermelho acima de 80% não deixa espaço para a resposta do modelo.
Ordene para comparar
Troque a ordem de classificação para revelar o ajuste mais justo (janelas menores primeiro) ou a maior margem (as maiores primeiro). O painel 'onde isso cabe?' resume quais modelos aceitam o prompt e quais transbordam.
Verifique o limite de saída separadamente
A janela de contexto é o orçamento de entrada; o limite de saída (mostrado sob cada barra) é um limite separado sobre o comprimento da resposta. Um modelo com janela de 1M tokens ainda pode emitir apenas ~8K tokens por resposta.
Frequently asked questions
- O que conta como contexto vs saída?
- Contexto é o orçamento de entrada — tudo que o modelo lê antes de gerar: prompt do sistema, turnos de conversa anteriores, definições de ferramentas/funções, documentos recuperados e a última mensagem do usuário. Saída é o que o modelo escreve de volta. São cobrados e limitados separadamente, embora ambos consumam o mesmo orçamento de atenção subjacente. Uma janela de contexto de 200K tokens com limite de 8K de saída significa que você pode alimentar ~200K tokens mas só obter até ~8K tokens por chamada.
- Prompts do sistema contam contra a janela?
- Sim. Cada token que o modelo vê consome o orçamento de entrada — prompt do sistema, instruções do desenvolvedor, exemplos few-shot, esquemas de ferramentas, turnos anteriores do assistente, chunks RAG recuperados. Os únicos tokens que não contam são os que o modelo emite como saída. Prompts de sistema longos em conversas multi-turno são a causa número 1 de erros misteriosos de estouro de contexto.
- O que é RAG e como interage com o tamanho do contexto?
- Retrieval-Augmented Generation (RAG) significa buscar passagens relevantes de um armazenamento vetorial no momento da consulta e colá-las no prompt para que o modelo possa basear sua resposta em fatos frescos ou específicos do domínio. Cada chunk recuperado consome orçamento de contexto. Uma configuração RAG típica recupera 5–20 chunks de 500–1000 tokens cada, então 5K–20K tokens de contexto desaparecem antes mesmo de a mensagem do usuário ser anexada. Planeje para isso.
Ferramentas relacionadas
- Calculadora de Custo de API LLMEstimar o custo de chamadas à API de modelos de IA.
- Contador de Tokens e Calculadora de Custo de APIContar tokens e calcular custo por modelo de IA.
- Financiamento imobiliárioParcela, juros totais e custo do financiamento.
- Juros compostosCrescimento do capital com aportes regulares.
- GorjetaCalcular a gorjeta e dividir a conta.
- Imposto sobre vendasAdicionar ou remover imposto de um valor.