Skip to content

Contador de Tokens e Calculadora de Custo de API

Tokens no seu prompt, reais na sua fatura — ambos estimados enquanto você digita.

Buğra SözeriFerramentas de IA
Updated · Published
Reviewed by Equipe editorial da Convertitive

A contagem de tokens e os gastos com API escalam de forma linear. Conhecer a contagem antecipadamente permite dimensionar corretamente as janelas de contexto, orçar execuções de API e identificar prompts que não caberão. O widget abaixo estima contagens de tokens de forma heurística (sem tokenizador no navegador), aplica o resultado aos preços atuais por milhão para os principais modelos hospedados e calcula um custo por chamada com base em uma proporção escolhida de saída para entrada.

Characters
219
Words
33
Tokens (est.)
55
Style detected
Prose

Per-call API cost

Estimates assume the input above plus an output of length 1× the input.

Input cost
$0.000165
Output cost
$0.000825
Total per call
$0.00099

Claude Sonnet 4.6 pricing — $3.00 / 1M input, $15.00 / 1M output. Context window: 200k tokens.

Token counts are heuristic (~4 chars / token for prose, ~3.5 for code). Real tokenizer output may differ by ±10% — the ‘exact’ count needs the model’s BPE tables, which we don’t ship in the browser.

How to use

  1. Cole seu prompt

    Tudo o que você enviaria ao modelo — prompt de sistema, mensagem do usuário, definições de ferramentas, etc. A contagem de tokens e a detecção de estilo são atualizadas enquanto você digita.

  2. Escolha o modelo e a proporção de saída

    Os tokens de saída custam 3–5× mais do que os tokens de entrada na maioria dos fornecedores, então acertar a proporção importa. 1× é um padrão seguro para respostas curtas; 0,3× para tarefas de classificação; 3–5× para geração de código.

  3. Leia a linha de custo

    Custo de entrada + custo de saída = total por chamada. Multiplique pelo volume esperado de requisições para projetar os gastos mensais.

Frequently asked questions

Por que a contagem não é exata?
A tokenização exata requer a tabela BPE / SentencePiece do próprio modelo. A OpenAI fornece tiktoken; Anthropic e Google fornecem seus próprios SDKs. Carregar essas tabelas em um navegador adicionaria ~10 MB de JavaScript por modelo, o que não vale a pena para uma estimativa rápida. A heurística fica dentro de 10% para texto em inglês e código.
Como o estilo é detectado?
Se mais de 6% dos caracteres são símbolos típicos de código ou JSON ({ } [ ] < > ; : = ( ) | ", '), o estilo é classificado como 'código' e a proporção de caracteres por token cai de 4 para 3,5. Todo o resto é tratado como prosa.
Os preços estão atualizados?
Os preços são atualizados periodicamente e refletem o preço de lista público de cada fornecedor para acesso direto à API. Descontos (API em lote, cache de prompt, contratos empresariais) não são aplicados. Verifique a página de preços do fornecedor antes de assinar um contrato.
O que significa 'proporção de saída'?
Quão longa será a resposta do modelo em relação ao seu prompt. Uma proporção de 1× significa que a saída tem aproximadamente o mesmo tamanho que a entrada. Tarefas de classificação têm proporções de ~0,05; geração de código de 2–5×; reescrita de formato longo de 1,5–3×.
O custo inclui a janela de contexto?
Sim. A cobrança moderna de API cobra por cada token na conversa, incluindo qualquer prompt de sistema, turnos anteriores e definições de ferramentas. Execute seu prompt completo montado pelo widget para a estimativa mais precisa.
E o cache de prompt?
A maioria dos grandes fornecedores agora oferece uma taxa com desconto (50–90% de desconto) para partes repetidas de um prompt. Esta calculadora não aplica descontos de cache porque dependem da taxa de acerto; para um sistema em produção, modele a parte em cache separadamente ao preço de entrada em cache do fornecedor.
O texto em outros idiomas é mais caro?
Sim, significativamente. Os tokenizadores foram treinados predominantemente em inglês; scripts latinos não ingleses pagam um prêmio de 10–20% em tokens, e scripts CJK podem pagar 2–4 vezes a taxa por caractere. Até fornecermos um tokenizador real, trate a heurística como um limite inferior para conteúdo em idiomas diferentes do inglês.

About

Por que tokens e não caracteres

Grandes modelos de linguagem cobram por tokens porque essa é a unidade de computação. Um tokenizador BPE divide o texto em pedaços de sub-palavras: palavras comuns geralmente são um único token, palavras raras ou compostas podem ser várias. 'Convertitive', por exemplo, é tipicamente 4 tokens, enquanto 'the' é 1 — não há uma regra limpa por caractere ou por palavra. A heurística aqui é uma calibração que funciona porque, calculada a média sobre texto suficiente, a proporção é estável.

Notas de planejamento de custos

Para um produto de chat esperando 100K conversas por dia com ~3K tokens de entrada e ~600 tokens de saída por turno nas taxas do GPT-4o: 100.000 × 3.000 × US$ 2,50 / 1M = US$ 750/dia de entrada, 100.000 × 600 × US$ 10 / 1M = US$ 600/dia de saída. Total ≈ US$ 1.350/dia ou ~US$ 40.000/mês. Corte pela metade com GPT-4o mini, pela metade novamente com cache de prompt.

Ferramentas relacionadas