Skip to content

Data study

Preços de API de LLM em junho de 2026: custo de tokens de entrada vs saída

Tokens de saída custam 3–6× mais do que tokens de entrada na maioria dos modelos de fronteira. A relação importa tanto quanto o preço absoluto.

By Published

A precificação de API de LLM segue uma estrutura consistente: você paga separadamente pelos tokens de entrada (seu prompt) e pelos tokens de saída (a resposta do modelo). Os tokens de saída são quase sempre mais caros do que os de entrada porque gerar cada token de saída requer uma passagem completa para frente pelo modelo, enquanto os tokens de entrada são processados em paralelo. Entender a relação importa tanto quanto o preço principal.

Use nossa calculadora de custo de LLM para estimar custos para os comprimentos específicos de prompt e resposta usando os preços nesta tabela.

Tabela de preços — junho de 2026

Todos os preços estão em USD por 1 milhão de tokens ($/1M). Os preços são das páginas públicas de preços de cada provedor em junho de 2026 e estão sujeitos a alterações. Preços padrão de API (sem lote, sem cache) são mostrados.

ModeloProvedorEntrada $/1MSaída $/1MRelação saída/entradaJanela de contexto
GPT-4oOpenAI$2,50$10,004,0×128K
GPT-4o miniOpenAI$0,15$0,604,0×128K
GPT-4.1OpenAI$2,00$8,004,0×1M
o3OpenAI$10,00$40,004,0×200K
o4-miniOpenAI$1,10$4,404,0×200K
Claude Sonnet 4Anthropic$3,00$15,005,0×200K
Claude Haiku 3.5Anthropic$0,80$4,005,0×200K
Gemini 2.5 ProGoogle$1,25$10,008,0×1M
Gemini 2.5 FlashGoogle$0,15$0,604,0×1M
Gemini 1.5 FlashGoogle$0,075$0,304,0×1M
Llama 3.3 70B (Together)Together.ai$0,18$0,181,0×128K
Llama 3.1 405B (Together)Together.ai$3,50$3,501,0×128K
Mistral Large 2Mistral$2,00$6,003,0×128K
Mistral Small 3.1Mistral$0,10$0,303,0×128K
Command R+Cohere$2,50$10,004,0×128K

Preços verificados nas páginas de preços dos provedores em junho de 2026. Sempre verifique a página de preços atual do provedor antes de comprometer um orçamento de produção.

Análise da relação saída/entrada

A relação de custo saída/entrada revela a filosofia de precificação de cada provedor. Quatro padrões são visíveis nos dados:

  • Relação 4× (OpenAI, Gemini Flash, Cohere). A relação mais comum. Reflete a assimetria computacional da geração autoregressiva vs. pré-preenchimento paralelo.
  • Relação 5× (Anthropic Claude). A Anthropic cobra um prêmio de saída maior, consistente com seus benchmarks de saída média mais longa e capacidades de raciocínio estendido.
  • Relação 8× (Gemini 2.5 Pro). A maior relação em nossa tabela — o prêmio de saída do Gemini 2.5 Pro reflete suas capacidades de raciocínio estendido e geração de contexto longo.
  • Relação 1× (Meta Llama via Together.ai). Modelos de peso aberto hospedados em provedores de inferência frequentemente cobram a mesma taxa para entrada e saída, tratando tokens como uma unidade de computação commodity em vez de diferenciar por direção de geração.

Para cargas de trabalho onde a saída é longa em relação à entrada (ex.: geração de documentos, síntese de código, sumarização), a taxa de token de saída domina o custo total. Para pipelines RAG com grandes janelas de contexto e respostas curtas, a taxa de entrada domina.

Custo por 10.000 tokens

10.000 tokens equivalem a aproximadamente 7.500 palavras de prosa em inglês — um artigo curto, um arquivo de código médio ou uma conversa com múltiplas voltas. A 100 tokens de saída por 1.000 tokens de entrada (uma relação típica estilo RAG):

ModeloCusto / 10K tokens entradaCusto / 10K tokens saídaCusto por 10K entrada + 1K saída
GPT-4o$0,025$0,100$0,026
GPT-4o mini$0,0015$0,006$0,00156
Claude Sonnet 4$0,030$0,150$0,0315
Gemini 2.5 Flash$0,0015$0,006$0,00156
Gemini 1.5 Flash$0,00075$0,003$0,00078
Llama 3.3 70B (Together)$0,0018$0,0018$0,00198
Mistral Large 2$0,020$0,060$0,026
o3$0,100$0,400$0,104

Use a calculadora de custo de LLM para modelar sua relação real de prompt/saída e comparar o custo mensal total entre provedores.

Principais observações

  • Mais barato por token (entrada): Gemini 1.5 Flash a $0,075/1M — menos de um centésimo de centavo por 1.000 tokens.
  • Mais caro por token (saída): o3 a $40/1M de saída — 533× mais caro do que a saída do Gemini 1.5 Flash a $0,30/1M.
  • Melhor paridade de custo (entrada = saída): Meta Llama 3.3 70B via Together.ai a $0,18/1M em ambos os sentidos. Adequado para cargas de trabalho simétricas.
  • Melhor custo para RAG de contexto longo: Gemini 1.5 Flash — tanto o menor preço de entrada quanto uma janela de contexto de 1M de tokens.
  • Descontos de cache de prompt (não mostrados) podem reduzir os custos efetivos de entrada em 50–90% para prompts de sistema repetidos. Anthropic, OpenAI (Batch API) e Google todos oferecem cache ou descontos em lote que mudam materialmente a economia para uso de produção de alto volume.

Limitações e ressalvas

  • Preços mudam frequentemente. Os preços de API de LLM diminuíram ~10× por ano para capacidade comparável desde 2023. Os valores nesta tabela refletem os preços públicos de junho de 2026 e podem já estar desatualizados na leitura.
  • Qualidade não é igual. Um preço mais baixo por token não significa custo total mais baixo se o modelo requer prompts mais longos para desempenho equivalente de tarefa, mais tentativas ou pós-processamento.
  • Throughput e latência variam. O baixo preço do Gemini 1.5 Flash vem com limites de cota compartilhada; throughput provisionado no GPT-4o custa mais por token, mas garante capacidade.
  • Tokens de ajuste fino, embedding e imagem são excluídos. Esta tabela cobre apenas geração de texto.

Fontes

Página de preços da OpenAI (openai.com/api/pricing); Preços de API da Anthropic (anthropic.com/pricing); Preços do Google AI Studio e Vertex AI (ai.google.dev/pricing); Preços Together.ai (together.ai/pricing); Preços Mistral AI (mistral.ai/technology); Preços Cohere (cohere.com/pricing). Todos os preços verificados em junho de 2026.

Frequently asked questions

Por que tokens de saída custam mais do que tokens de entrada?
Gerar cada token de saída requer uma passagem completa para frente pelo modelo, enquanto os tokens de entrada são processados em paralelo. Essa assimetria computacional é refletida nos preços — a maioria dos provedores cobra 3–6× mais por tokens de saída do que por tokens de entrada.
Qual é o modelo de LLM mais barato por token em junho de 2026?
O Gemini 1.5 Flash tem o menor preço de entrada a $0,075/1M tokens — menos de um centésimo de centavo por 1.000 tokens.

Related

Published May 31, 2026