Skip to content

Visualizador de Janela de Contexto LLM

Veja exatamente quanto do orçamento de contexto de cada modelo seu prompt consome.

Buğra SözeriIA
Updated · Published
Reviewed by Convertitive

Todo LLM hospedado tem um limite fixo de tokens de entrada — excedê-lo faz a API rejeitar a requisição ou truncar silenciosamente o início do seu prompt. O widget abaixo conta os tokens no que você colar e então renderiza uma barra horizontal por modelo mostrando a fração da janela de contexto que sua entrada consumiria. As barras ficam âmbar acima de 50% de utilização e vermelhas acima de 80%, onde as escolhas de engenharia de prompt começam a dominar a qualidade do modelo.

Characters
364
Words
60
Tokens (est.)
91
Style
Prose

Context window utilization

  • GPT-4oOpenAI
    91 / 128,000 tokens (0.07%)
    Max output: 16,384 tokens
  • GPT-4o miniOpenAI
    91 / 128,000 tokens (0.07%)
    Max output: 16,384 tokens
  • GPT-4 TurboOpenAI
    91 / 128,000 tokens (0.07%)
    Max output: 4,096 tokens
  • o1-miniOpenAI
    91 / 128,000 tokens (0.07%)
    Max output: 65,536 tokens
  • Llama 3.3 70BMeta
    91 / 128,000 tokens (0.07%)
    Max output: 4,096 tokens

    Limits vary by host (Together, Groq, Fireworks).

  • Llama 3.1 405BMeta
    91 / 128,000 tokens (0.07%)
    Max output: 4,096 tokens
  • DeepSeek V3DeepSeek
    91 / 128,000 tokens (0.07%)
    Max output: 8,192 tokens
  • Mistral Large 2Mistral
    91 / 128,000 tokens (0.07%)
    Max output: 8,192 tokens
  • o1OpenAI
    91 / 200,000 tokens (0.05%)
    Max output: 100,000 tokens

    Includes reasoning tokens in output budget.

  • Claude Opus 4Anthropic
    91 / 200,000 tokens (0.05%)
    Max output: 32,000 tokens
  • Claude 3.5 SonnetAnthropic
    91 / 200,000 tokens (0.05%)
    Max output: 8,192 tokens
  • Claude 3.5 HaikuAnthropic
    91 / 200,000 tokens (0.05%)
    Max output: 8,192 tokens
  • Claude Sonnet 4Anthropic
    91 / 1,000,000 tokens (0.01%)
    Max output: 64,000 tokens

    1M context tier — beta header required on some endpoints.

  • Gemini 2.0 FlashGoogle
    91 / 1,000,000 tokens (0.01%)
    Max output: 8,192 tokens
  • Gemini 1.5 FlashGoogle
    91 / 1,000,000 tokens (0.01%)
    Max output: 8,192 tokens
  • Gemini 1.5 ProGoogle
    91 / 2,000,000 tokens (0.00%)
    Max output: 8,192 tokens

What does this fit in?

Based on your 91-token input. Models with headroom below 100% accept the prompt; output budget still depends on each model’s output cap.

Accepts (16)

  • GPT-4o+127,909
  • GPT-4o mini+127,909
  • GPT-4 Turbo+127,909
  • o1-mini+127,909
  • Llama 3.3 70B+127,909
  • Llama 3.1 405B+127,909
  • DeepSeek V3+127,909
  • Mistral Large 2+127,909
  • o1+199,909
  • Claude Opus 4+199,909
  • Claude 3.5 Sonnet+199,909
  • Claude 3.5 Haiku+199,909
  • Claude Sonnet 4+999,909
  • Gemini 2.0 Flash+999,909
  • Gemini 1.5 Flash+999,909
  • Gemini 1.5 Pro+1,999,909

Overflows (0)

Token counts are heuristic (~4 chars/token for prose, ~3.5 for code). System prompts, tool definitions, and prior turns all consume the same context budget — paste the full assembled prompt for the most accurate utilization.

How to use

  1. Cole o prompt completo

    Inclua o prompt do sistema, cada turno de conversa anterior, quaisquer definições de ferramentas e o contexto recuperado — tudo conta contra a janela, não apenas a última mensagem do usuário.

  2. Leia as barras

    Cada modelo recebe uma barra mostrando os tokens de entrada como fração de sua janela de contexto. Verde abaixo de 50% é confortável, âmbar entre 50–80% significa que você deve começar a cortar, vermelho acima de 80% não deixa espaço para a resposta do modelo.

  3. Ordene para comparar

    Troque a ordem de classificação para revelar o ajuste mais justo (janelas menores primeiro) ou a maior margem (as maiores primeiro). O painel 'onde isso cabe?' resume quais modelos aceitam o prompt e quais transbordam.

  4. Verifique o limite de saída separadamente

    A janela de contexto é o orçamento de entrada; o limite de saída (mostrado sob cada barra) é um limite separado sobre o comprimento da resposta. Um modelo com janela de 1M tokens ainda pode emitir apenas ~8K tokens por resposta.

Frequently asked questions

O que conta como contexto vs saída?
Contexto é o orçamento de entrada — tudo que o modelo lê antes de gerar: prompt do sistema, turnos de conversa anteriores, definições de ferramentas/funções, documentos recuperados e a última mensagem do usuário. Saída é o que o modelo escreve de volta. São cobrados e limitados separadamente, embora ambos consumam o mesmo orçamento de atenção subjacente. Uma janela de contexto de 200K tokens com limite de 8K de saída significa que você pode alimentar ~200K tokens mas só obter até ~8K tokens por chamada.
Prompts do sistema contam contra a janela?
Sim. Cada token que o modelo vê consome o orçamento de entrada — prompt do sistema, instruções do desenvolvedor, exemplos few-shot, esquemas de ferramentas, turnos anteriores do assistente, chunks RAG recuperados. Os únicos tokens que não contam são os que o modelo emite como saída. Prompts de sistema longos em conversas multi-turno são a causa número 1 de erros misteriosos de estouro de contexto.
O que é RAG e como interage com o tamanho do contexto?
Retrieval-Augmented Generation (RAG) significa buscar passagens relevantes de um armazenamento vetorial no momento da consulta e colá-las no prompt para que o modelo possa basear sua resposta em fatos frescos ou específicos do domínio. Cada chunk recuperado consome orçamento de contexto. Uma configuração RAG típica recupera 5–20 chunks de 500–1000 tokens cada, então 5K–20K tokens de contexto desaparecem antes mesmo de a mensagem do usuário ser anexada. Planeje para isso.

Ferramentas relacionadas