Por que minha contagem de tokens não corresponde exatamente?

Cada família de modelos usa um tokenizador diferente. Os modelos mais novos da OpenAI usam o200k_base; GPT-4 Turbo e 3.5 usam cl100k_base; a Anthropic usa seu próprio tokenizador derivado do SentencePiece; o Google usa SentencePiece; o Llama usa uma variante compatível com tiktoken. O modo 'Colar texto' usa uma heurística de 4 caracteres por token que fica dentro de ±10% de qualquer um desses tokenizadores para texto em inglês, mas pode se desviar mais para código ou scripts não-latinos. Para um número exato, use 'Especificar tokens' com a contagem do próprio tokenizador de cada provedor.

Por que a taxa de saída é maior que a de entrada?

Os tokens de saída são gerados sequencialmente e cada um requer um passe completo pelo modelo — eles custam mais computação do que os tokens de entrada, que podem ser processados em lote. Os provedores repassam isso: a maioria precifica a saída a 3–5 vezes a taxa de entrada. É por isso que a relação saída:entrada importa tanto para os gastos totais.

Isso inclui descontos da API em lote?

Não. OpenAI, Anthropic e Google oferecem endpoints em lote com aproximadamente 50% de desconto no preço de tabela para cargas de trabalho não em tempo real. Se você pode tolerar um prazo de 24 horas, divida pela metade os valores mostrados aqui. O cache de prompts (também 50–90% de desconto na parte em cache) também está excluído — modele a parte em cache separadamente.

Calculadora de Custo de API LLM

Custo por chamada, projeção mensal, todos os principais modelos em uma tela.

Buğra SözeriIA

Updated June 10, 2026 · Published June 10, 2026

Reviewed by Convertitive

Os preços entre os principais LLMs hospedados abrangem duas ordens de magnitude — o GPT-4o custa aproximadamente 17 vezes mais por token de saída que o Gemini 1.5 Flash, e o Claude Opus está outras 7 vezes acima disso. Escolher o modelo certo é metade questão de orçamento, metade questão de capacidade. Cole um prompt (ou digite uma contagem de tokens se já tiver uma do nosso contador de tokens), escolha um perfil de carga de trabalho, e a calculadora exibe o custo por chamada, uma projeção mensal e uma comparação lado a lado de todos os modelos da tabela.

Prompt text

Heuristic token estimate (~4 chars/token for prose). Drop a real prompt — system message + user turn + any tool defs — for the closest cost reading.

Workload preset

Model

Calls per day

Input tokens: 42
Output tokens: 42
Per call: $0.000756
Per month: $22.68

Claude 3.5 Sonnet — $3.00 / 1M input, $15.00 / 1M output · context 200k. Output ratio 1×. Monthly = per-call × calls/day × 30.

Compare all models

Model	Provider	Per call	Per month
Gemini 1.5 Flash	Google	<$0.0001	$0.4725
Gemini 2.0 Flash	Google	<$0.0001	$0.6300
GPT-4o mini	OpenAI	<$0.0001	$0.9450
Llama 3.3 70B (Together / Fireworks)	Meta	<$0.0001	$2.22
GPT-3.5 Turbo	OpenAI	<$0.0001	$2.52
Claude 3.5 Haiku	Anthropic	$0.000202	$6.05
Gemini 1.5 Pro	Google	$0.000263	$7.88
Llama 3.1 405B (Together / Fireworks)	Meta	$0.000294	$8.82
GPT-4o	OpenAI	$0.000525	$15.75
o1-mini	OpenAI	$0.00063	$18.90
Claude Sonnet 4	Anthropic	$0.000756	$22.68
Claude 3.5 Sonnet	Anthropic	$0.000756	$22.68
GPT-4 Turbo	OpenAI	$0.00168	$50.40
o1 (reasoning)	OpenAI	$0.00315	$94.50
Claude Opus 4	Anthropic	$0.00378	$113.40

Pricing as of 2026-05-30. Discounts (batch API, prompt caching, enterprise contracts) and fine-tuning surcharges are not applied — check the vendor’s live pricing page before committing to spend.

How to use

Escolha um modo de entrada
Cole o prompt completo (mensagem do sistema + turno do usuário + definições de ferramentas) para uma contagem heurística de tokens, ou mude para 'Especificar tokens' se já souber a contagem do tiktoken ou do endpoint count_tokens da Anthropic.
Escolha um preset de carga de trabalho
A relação saída:entrada determina grande parte do custo — os tokens de saída são 3–5 vezes mais caros que os de entrada na maioria dos provedores. Chat ≈ 1×, classificação ≈ 0,05×, geração de código 3×, sumarização 0,2×.
Defina as chamadas por dia
Custo por chamada × chamadas/dia × 30 = projeção mensal. Use a tabela de comparação para ver qual modelo cabe no orçamento no seu nível de tráfego.
Copie a comparação
Clique em 'Copiar como tabela Markdown' para colar a matriz de custos lado a lado em um documento, ticket ou mensagem do Slack.

Frequently asked questions

Por que minha contagem de tokens não corresponde exatamente?: Cada família de modelos usa um tokenizador diferente. Os modelos mais novos da OpenAI usam o200k_base; GPT-4 Turbo e 3.5 usam cl100k_base; a Anthropic usa seu próprio tokenizador derivado do SentencePiece; o Google usa SentencePiece; o Llama usa uma variante compatível com tiktoken. O modo 'Colar texto' usa uma heurística de 4 caracteres por token que fica dentro de ±10% de qualquer um desses tokenizadores para texto em inglês, mas pode se desviar mais para código ou scripts não-latinos. Para um número exato, use 'Especificar tokens' com a contagem do próprio tokenizador de cada provedor.
Por que a taxa de saída é maior que a de entrada?: Os tokens de saída são gerados sequencialmente e cada um requer um passe completo pelo modelo — eles custam mais computação do que os tokens de entrada, que podem ser processados em lote. Os provedores repassam isso: a maioria precifica a saída a 3–5 vezes a taxa de entrada. É por isso que a relação saída:entrada importa tanto para os gastos totais.
Isso inclui descontos da API em lote?: Não. OpenAI, Anthropic e Google oferecem endpoints em lote com aproximadamente 50% de desconto no preço de tabela para cargas de trabalho não em tempo real. Se você pode tolerar um prazo de 24 horas, divida pela metade os valores mostrados aqui. O cache de prompts (também 50–90% de desconto na parte em cache) também está excluído — modele a parte em cache separadamente.

Calculadora de Custo de API LLM

Compare all models

How to use

Escolha um modo de entrada

Escolha um preset de carga de trabalho

Defina as chamadas por dia

Copie a comparação

Frequently asked questions

Ferramentas relacionadas