Calculadora de Custo de API LLM
Custo por chamada, projeção mensal, todos os principais modelos em uma tela.
Os preços entre os principais LLMs hospedados abrangem duas ordens de magnitude — o GPT-4o custa aproximadamente 17 vezes mais por token de saída que o Gemini 1.5 Flash, e o Claude Opus está outras 7 vezes acima disso. Escolher o modelo certo é metade questão de orçamento, metade questão de capacidade. Cole um prompt (ou digite uma contagem de tokens se já tiver uma do nosso contador de tokens), escolha um perfil de carga de trabalho, e a calculadora exibe o custo por chamada, uma projeção mensal e uma comparação lado a lado de todos os modelos da tabela.
Heuristic token estimate (~4 chars/token for prose). Drop a real prompt — system message + user turn + any tool defs — for the closest cost reading.
- Input tokens
- 42
- Output tokens
- 42
- Per call
- $0.000756
- Per month
- $22.68
Claude 3.5 Sonnet — $3.00 / 1M input, $15.00 / 1M output · context 200k. Output ratio 1×. Monthly = per-call × calls/day × 30.
Compare all models
| Model | Provider | Per call | Per month |
|---|---|---|---|
| Gemini 1.5 Flash | <$0.0001 | $0.4725 | |
| Gemini 2.0 Flash | <$0.0001 | $0.6300 | |
| GPT-4o mini | OpenAI | <$0.0001 | $0.9450 |
| Llama 3.3 70B (Together / Fireworks) | Meta | <$0.0001 | $2.22 |
| GPT-3.5 Turbo | OpenAI | <$0.0001 | $2.52 |
| Claude 3.5 Haiku | Anthropic | $0.000202 | $6.05 |
| Gemini 1.5 Pro | $0.000263 | $7.88 | |
| Llama 3.1 405B (Together / Fireworks) | Meta | $0.000294 | $8.82 |
| GPT-4o | OpenAI | $0.000525 | $15.75 |
| o1-mini | OpenAI | $0.00063 | $18.90 |
| Claude Sonnet 4 | Anthropic | $0.000756 | $22.68 |
| Claude 3.5 Sonnet | Anthropic | $0.000756 | $22.68 |
| GPT-4 Turbo | OpenAI | $0.00168 | $50.40 |
| o1 (reasoning) | OpenAI | $0.00315 | $94.50 |
| Claude Opus 4 | Anthropic | $0.00378 | $113.40 |
Pricing as of . Discounts (batch API, prompt caching, enterprise contracts) and fine-tuning surcharges are not applied — check the vendor’s live pricing page before committing to spend.
How to use
Escolha um modo de entrada
Cole o prompt completo (mensagem do sistema + turno do usuário + definições de ferramentas) para uma contagem heurística de tokens, ou mude para 'Especificar tokens' se já souber a contagem do tiktoken ou do endpoint count_tokens da Anthropic.
Escolha um preset de carga de trabalho
A relação saída:entrada determina grande parte do custo — os tokens de saída são 3–5 vezes mais caros que os de entrada na maioria dos provedores. Chat ≈ 1×, classificação ≈ 0,05×, geração de código 3×, sumarização 0,2×.
Defina as chamadas por dia
Custo por chamada × chamadas/dia × 30 = projeção mensal. Use a tabela de comparação para ver qual modelo cabe no orçamento no seu nível de tráfego.
Copie a comparação
Clique em 'Copiar como tabela Markdown' para colar a matriz de custos lado a lado em um documento, ticket ou mensagem do Slack.
Frequently asked questions
- Por que minha contagem de tokens não corresponde exatamente?
- Cada família de modelos usa um tokenizador diferente. Os modelos mais novos da OpenAI usam o200k_base; GPT-4 Turbo e 3.5 usam cl100k_base; a Anthropic usa seu próprio tokenizador derivado do SentencePiece; o Google usa SentencePiece; o Llama usa uma variante compatível com tiktoken. O modo 'Colar texto' usa uma heurística de 4 caracteres por token que fica dentro de ±10% de qualquer um desses tokenizadores para texto em inglês, mas pode se desviar mais para código ou scripts não-latinos. Para um número exato, use 'Especificar tokens' com a contagem do próprio tokenizador de cada provedor.
- Por que a taxa de saída é maior que a de entrada?
- Os tokens de saída são gerados sequencialmente e cada um requer um passe completo pelo modelo — eles custam mais computação do que os tokens de entrada, que podem ser processados em lote. Os provedores repassam isso: a maioria precifica a saída a 3–5 vezes a taxa de entrada. É por isso que a relação saída:entrada importa tanto para os gastos totais.
- Isso inclui descontos da API em lote?
- Não. OpenAI, Anthropic e Google oferecem endpoints em lote com aproximadamente 50% de desconto no preço de tabela para cargas de trabalho não em tempo real. Se você pode tolerar um prazo de 24 horas, divida pela metade os valores mostrados aqui. O cache de prompts (também 50–90% de desconto na parte em cache) também está excluído — modele a parte em cache separadamente.
Ferramentas relacionadas
- Visualizador de Janela de Contexto LLMVisualizar o uso da janela de contexto de LLMs.
- Contador de Tokens e Calculadora de Custo de APIContar tokens e calcular custo por modelo de IA.
- Financiamento imobiliárioParcela, juros totais e custo do financiamento.
- Juros compostosCrescimento do capital com aportes regulares.
- GorjetaCalcular a gorjeta e dividir a conta.
- Imposto sobre vendasAdicionar ou remover imposto de um valor.