Skip to content

Calculadora de Custo de API LLM

Custo por chamada, projeção mensal, todos os principais modelos em uma tela.

Buğra SözeriIA
Updated · Published
Reviewed by Convertitive

Os preços entre os principais LLMs hospedados abrangem duas ordens de magnitude — o GPT-4o custa aproximadamente 17 vezes mais por token de saída que o Gemini 1.5 Flash, e o Claude Opus está outras 7 vezes acima disso. Escolher o modelo certo é metade questão de orçamento, metade questão de capacidade. Cole um prompt (ou digite uma contagem de tokens se já tiver uma do nosso contador de tokens), escolha um perfil de carga de trabalho, e a calculadora exibe o custo por chamada, uma projeção mensal e uma comparação lado a lado de todos os modelos da tabela.

Heuristic token estimate (~4 chars/token for prose). Drop a real prompt — system message + user turn + any tool defs — for the closest cost reading.

Input tokens
42
Output tokens
42
Per call
$0.000756
Per month
$22.68

Claude 3.5 Sonnet — $3.00 / 1M input, $15.00 / 1M output · context 200k. Output ratio 1×. Monthly = per-call × calls/day × 30.

Compare all models

ModelProviderPer callPer month
Gemini 1.5 FlashGoogle<$0.0001$0.4725
Gemini 2.0 FlashGoogle<$0.0001$0.6300
GPT-4o miniOpenAI<$0.0001$0.9450
Llama 3.3 70B (Together / Fireworks)Meta<$0.0001$2.22
GPT-3.5 TurboOpenAI<$0.0001$2.52
Claude 3.5 HaikuAnthropic$0.000202$6.05
Gemini 1.5 ProGoogle$0.000263$7.88
Llama 3.1 405B (Together / Fireworks)Meta$0.000294$8.82
GPT-4oOpenAI$0.000525$15.75
o1-miniOpenAI$0.00063$18.90
Claude Sonnet 4Anthropic$0.000756$22.68
Claude 3.5 SonnetAnthropic$0.000756$22.68
GPT-4 TurboOpenAI$0.00168$50.40
o1 (reasoning)OpenAI$0.00315$94.50
Claude Opus 4Anthropic$0.00378$113.40

Pricing as of . Discounts (batch API, prompt caching, enterprise contracts) and fine-tuning surcharges are not applied — check the vendor’s live pricing page before committing to spend.

How to use

  1. Escolha um modo de entrada

    Cole o prompt completo (mensagem do sistema + turno do usuário + definições de ferramentas) para uma contagem heurística de tokens, ou mude para 'Especificar tokens' se já souber a contagem do tiktoken ou do endpoint count_tokens da Anthropic.

  2. Escolha um preset de carga de trabalho

    A relação saída:entrada determina grande parte do custo — os tokens de saída são 3–5 vezes mais caros que os de entrada na maioria dos provedores. Chat ≈ 1×, classificação ≈ 0,05×, geração de código 3×, sumarização 0,2×.

  3. Defina as chamadas por dia

    Custo por chamada × chamadas/dia × 30 = projeção mensal. Use a tabela de comparação para ver qual modelo cabe no orçamento no seu nível de tráfego.

  4. Copie a comparação

    Clique em 'Copiar como tabela Markdown' para colar a matriz de custos lado a lado em um documento, ticket ou mensagem do Slack.

Frequently asked questions

Por que minha contagem de tokens não corresponde exatamente?
Cada família de modelos usa um tokenizador diferente. Os modelos mais novos da OpenAI usam o200k_base; GPT-4 Turbo e 3.5 usam cl100k_base; a Anthropic usa seu próprio tokenizador derivado do SentencePiece; o Google usa SentencePiece; o Llama usa uma variante compatível com tiktoken. O modo 'Colar texto' usa uma heurística de 4 caracteres por token que fica dentro de ±10% de qualquer um desses tokenizadores para texto em inglês, mas pode se desviar mais para código ou scripts não-latinos. Para um número exato, use 'Especificar tokens' com a contagem do próprio tokenizador de cada provedor.
Por que a taxa de saída é maior que a de entrada?
Os tokens de saída são gerados sequencialmente e cada um requer um passe completo pelo modelo — eles custam mais computação do que os tokens de entrada, que podem ser processados em lote. Os provedores repassam isso: a maioria precifica a saída a 3–5 vezes a taxa de entrada. É por isso que a relação saída:entrada importa tanto para os gastos totais.
Isso inclui descontos da API em lote?
Não. OpenAI, Anthropic e Google oferecem endpoints em lote com aproximadamente 50% de desconto no preço de tabela para cargas de trabalho não em tempo real. Se você pode tolerar um prazo de 24 horas, divida pela metade os valores mostrados aqui. O cache de prompts (também 50–90% de desconto na parte em cache) também está excluído — modele a parte em cache separadamente.

Ferramentas relacionadas