Guide
Como o preço por token das APIs de LLM funciona de verdade (e onde te pega de surpresa)
Tokens de saída custam 4-5× os de entrada. Prompts em cache custam 10× menos. A maioria das surpresas na fatura vem de não entender esses dois números.
By Buğra SözeriPublished
Toda API de LLM importante — OpenAI, Anthropic, Google, Meta via cloud — cobra por token. As páginas de marketing citam preços como “$5 por milhão de tokens de entrada, $15 por milhão de tokens de saída.” A matemática parece simples. Cinco lugares onde a fatura real diverge da estimativa simples:
1. Saída custa 4-5× a entrada
Todo modelo de fronteira moderno cobra significativamente mais por saída do que por entrada. Proporções típicas no momento da escrita: família OpenAI GPT-4 ~5×, família Claude ~3-5×, família Gemini ~4×. A economia é direta: tokens de entrada são consumidos pela passagem de processamento de contexto do modelo uma vez; tokens de saída são gerados um de cada vez através de dezenas ou centenas de passagens para a frente.
Implicação prática: aplicações de recuperação de contexto longo (onde você insere muito contexto e pede uma resposta curta) são mais baratas por resposta útil do que aplicações de geração longa. Se sua fatura é alta e você está gerando pouca saída, o inchaço da entrada é o culpado. Se você está gerando muita saída, foque em saídas mais curtas primeiro.
2. Prompts em cache são radicalmente mais baratos
OpenAI e Anthropic oferecem cache de prompt: tokens de entrada que correspondem a um prefixo visto recentemente cobram 10-90% de desconto sobre os preços normais de entrada. O cache tipicamente dura 5-10 minutos. As taxas de acerto de cache dependem de quão previsíveis são seus prompts.
Implicação prática: projete prompts para que o prefixo seja estável entre chamadas. Coloque as instruções do sistema e qualquer contexto estático no topo; coloque a variação por solicitação do usuário na parte inferior. Um chatbot com um prompt de sistema consistente pode ver as faturas de entrada caírem 70-90% com acertos de cache em uma conversa de múltiplos turnos.
3. APIs de lote têm 50% de desconto
O endpoint de lote da OpenAI e a API de agrupamento de mensagens da Anthropic oferecem 50% de desconto no preço de tabela em troca de entrega assíncrona (tipicamente dentro de 24 horas). Para cargas de trabalho que não precisam de respostas imediatas — processamento de dados noturno, pipelines de geração de conteúdo, preenchimentos de embeddings — mudar para lote é uma economia de 50% gratuita.
4. Diminua o modelo em etapas de recuperação
Um padrão comum em IA de produção: uma cadeia de chamadas de modelo onde a primeira etapa é “decidir o que recuperar” e a segunda é “responder usando o que foi recuperado.” A etapa de decisão raramente precisa do modelo mais inteligente disponível — GPT-4o-mini ou Claude Haiku geralmente é suficiente. Reservar o modelo de fronteira para a etapa de resposta final normalmente reduz o custo do pipeline em 80-90% com impacto mínimo na qualidade.
5. Estime o comprimento da saída agressivamente
A maior fonte de surpresas na fatura: você assume que o modelo produzirá uma resposta curta; ele produz uma longa. Um limite de “max_tokens: 4096” significa que você pode pagar por 4096 tokens de saída por chamada. A maioria das APIs cobra o que foi gerado, não o que foi solicitado, mas o hábito de permitir 4096 define a suposição de orçamento errada.
Prático: defina max_tokens para aproximadamente 1,5× o comprimento que você realmente espera, não o máximo que toleraria. Limites mais baixos de max_tokens também empurram o modelo a produzir respostas mais curtas (ele se adapta com base no sinal de orçamento). As economias se acumulam.
A ferramenta de estimativa
Nosso contador de tokens de IA estima tokens de entrada e calcula o custo por chamada nas principais famílias de modelos. Ele usa heurísticas de proporção de caracteres (dentro de ~10% de precisão para inglês; menos preciso para código e scripts não latinos), então a estimativa é aproximada, mas útil para decisões de dimensionamento. Para previsão de custo exata, use a biblioteca de tokenizador oficial do fornecedor.
Exemplo trabalhado: um chatbot de suporte ao cliente com 100 mil conversas/mês
Pipeline concreto. Cada turno do usuário inclui um prompt de sistema de 3.500 tokens (docs do produto, diretrizes de tom, regras de recusa), uma mensagem de usuário média de 200 tokens e uma resposta de modelo média de 400 tokens. As conversas têm em média 4 turnos. Por conversa:
- Entrada por turno: 3.500 (sistema) + histórico acumulado + 200 (novo usuário) ≈ 3.700 no primeiro turno, crescendo para ~5.800 no turno 4. Média por turno ~4.750.
- Total de entrada/conversa: 4 × 4.750 = 19.000 tokens de entrada
- Total de saída/conversa: 4 × 400 = 1.600 tokens de saída
Custo ingênuo com Claude Sonnet 4 ($3 por milhão de entrada, $15 por milhão de saída) em 100 mil conversas:
- Entrada: 100.000 × 19.000 × $3 / 1M = $5.700
- Saída: 100.000 × 1.600 × $15 / 1M = $2.400
- Total: $8.100/mês
Agora aplique cache de prompt. O prompt de sistema de 3.500 tokens é idêntico em todos os 100k × 4 = 400k turnos. Com o cache da Anthropic (leituras de cache a $0,30/M, desconto de 90% na entrada em cache), apenas as mensagens do usuário e o histórico crescente pagam o preço total.
- Novo custo de entrada: $420 + $1.500 = $1.920 (de $5.700)
- Saída inalterada: $2.400
- Novo total: $4.320/mês
Redução de 47% com uma mudança de configuração. Mude 30% das conversas mais simples para Haiku 4.5 a $1/$5 por milhão, e a fatura cai mais ~$1.000 para aproximadamente $3.300. A economia total — 59% — vem de cache e divisão de modelo, nenhuma das quais é automática.
Erros comuns que inflam a fatura
- Colocar a mensagem do usuário no topo do prompt. As chaves de cache fazem hash do prefixo. Se a estrutura do seu prompt é
[variação do usuário] [sistema estático]o cache nunca acerta. Sempre coloque as partes estáticas primeiro. - Definir
max_tokenspara o teto do modelo. A maioria das APIs cobra a geração real, não o limite — mas o modelo usa o limite como sinal de comprimento. Definirmax_tokens: 4096quando você queria uma resposta de 200 tokens produz respostas mais longas e uma fatura maior. - Incorporar todos os documentos repetidamente. Pipelines de recuperação que re-incorporam o mesmo corpus em cada consulta estão pagando por embeddings que já têm. Faça cache dos embeddings no seu banco de dados vetorial; a fatura deve ser quase zero após o preenchimento inicial.
- Usar GPT-4 / Opus / Gemini Pro para classificação. Um classificador de intenção de 5 classes quase nunca precisa de um modelo de fronteira. Haiku, GPT-4o-mini ou Gemini Flash são 10-30× mais baratos e combinam a precisão em tarefas com ~10 tokens de saída.
- Fazer streaming quando não precisa. O streaming não tem custo adicional, mas cada token é pago no momento em que é gerado. Se você abortar no meio do stream devido a um timeout downstream, você ainda deve pelo que foi produzido. Defina timeouts rígidos por solicitação no seu cliente.
Quando este guia NÃO se aplica
- Modelos auto-hospedados / de pesos abertos. Llama, Mistral, Qwen nas suas próprias GPUs convertem o custo de API por token em custo de horas de GPU. A economia é dominada pela utilização e não pelos tokens.
- Implantações ajustadas e de capacidade dedicada.As Unidades de Throughput Provisionado da OpenAI, a capacidade reservada da Anthropic e o “Throughput Provisionado” do Google cobram flat por mês por capacidade garantida. A alto QPS isso é mais barato do que por token; a baixo QPS muito mais caro.
- Cargas de trabalho somente de embedding. Modelos de embedding são 100-1000× mais baratos que a completação de chat (tipicamente $0,02-0,13 por milhão de tokens). As cinco alavancas acima em grande parte não se aplicam; a fatura é dominada pelo tamanho do corpus e frequência de embedding.
Para definições funcionais das unidades por trás do faturamento, consulte nossa entrada de glossário de token GPT e a entrada de janela de contexto. Para uma comparação de custo concreto por modelo, a calculadora de custo de LLM lida com as tabelas de taxas por fornecedor.
O resumo honesto
Em escala pequena (alguns milhares de chamadas por mês) o preço dos LLMs é tão barato que nada aqui importa. Em escala média a grande, a diferença entre a estimativa de custo ingênua e a fatura real pode facilmente ser de 5-10× quando você considera o inchaço da saída, falhas de cache e uso desnecessário do modelo de fronteira. Cada uma das cinco alavancas acima pode de forma independente economizar 50-90% em padrões de chamada específicos. Audite seus padrões de prompt uma vez, configure o cache onde a estrutura permite, e a fatura torna-se previsível.
Tabela de taxas por milhão de tokens (início de 2026)
| Modelo | Entrada ($/M tok) | Saída ($/M tok) | Entrada em cache |
|---|---|---|---|
| OpenAI GPT-4.1 | $2,00 | $8,00 | $0,50 (75% off) |
| OpenAI GPT-4.1 mini | $0,40 | $1,60 | $0,10 |
| OpenAI o1 | $15,00 | $60,00 | $7,50 |
| Anthropic Claude Opus 4 | $15,00 | $75,00 | $1,50 (90% off) |
| Anthropic Claude Sonnet 4 | $3,00 | $15,00 | $0,30 |
| Anthropic Claude Haiku 4.5 | $1,00 | $5,00 | $0,10 |
| Google Gemini 2.5 Pro | $1,25 | $10,00 | $0,31 |
| Google Gemini 2.5 Flash | $0,30 | $2,50 | $0,075 |
Para uma comparação de taxas trabalhadas com os formatos reais do seu prompt, a calculadora de custo de LLM pega suas estimativas de tokens de entrada/saída e calcula faturas mensais em todos os principais fornecedores de uma vez.
Frequently asked questions
- Por que as APIs de LLM cobram mais por tokens de saída do que por tokens de entrada?
- Tokens de entrada são processados em uma única passagem paralela pelo modelo; tokens de saída são gerados um de cada vez através de dezenas ou centenas de passagens sequenciais para a frente. O custo de computação por token de saída é 4–5× mais alto, o que se reflete nos preços da OpenAI, Anthropic e Google.
- O que é cache de prompt e quanto pode reduzir minha fatura de API de LLM?
- O cache de prompt armazena o cache KV para um prefixo de prompt repetido e cobra 10–25% das taxas normais de entrada em acertos de cache. Um chatbot com um prompt de sistema de 3.500 tokens repetido em 400.000 turnos pode reduzir os custos de entrada em 70–90% — a otimização de maior alavancagem para cargas de trabalho com muita entrada.
- Qual é o desconto da API de lote da OpenAI ou Anthropic?
- Tanto o endpoint de lote da OpenAI quanto a API de agrupamento de mensagens da Anthropic oferecem 50% de desconto no preço de tabela em troca de entrega assíncrona dentro de 24 horas. Para pipelines de processamento de dados e trabalhos de geração de conteúdo que não precisam de respostas imediatas, essa é uma economia de custo gratuita.
- Qual é o custo aproximado de executar um chatbot de suporte ao cliente no Claude Sonnet 4 com 100.000 conversas por mês?
- Sem otimização: aproximadamente $8.100/mês. Com cache de prompt no prompt de sistema estático: aproximadamente $4.320/mês (redução de 47%). Adicionar divisão de modelo (roteando conversas mais simples para o Haiku) reduz ainda mais a fatura para cerca de $3.300/mês — uma economia total de 59%.
- Quantos tokens há em uma palavra em inglês típica?
- Aproximadamente 1,3 tokens por palavra (cerca de 4 caracteres por token) para prosa em inglês. Código tem em média cerca de 2,5 caracteres por token. Scripts não latinos como chinês e japonês têm em média 1–2 caracteres por token e são proporcionalmente mais caros de processar.
Related
Published May 14, 2026