Skip to content

Methodology

Metodologia de tokens de IA

A contagem de tokens é uma estimativa heurística. O preço é exato no momento da atualização. Diferentes limites de precisão.

By Published

O contador de tokens estima quantos tokens um trecho de texto usará para uma determinada API de modelo de linguagem grande e multiplica pela precificação publicada atual para estimar o custo. Ambas as partes dessa frase têm limites de precisão significativos.

Estimativa de tokens: heurística, não exata

Todo LLM moderno usa um tokenizador — tipicamente BPE (Byte Pair Encoding) para GPT e Claude, SentencePiece para Gemini e Llama — que converte texto em uma sequência de IDs de tokens inteiros. O mapeamento exato é específico de cada modelo e proprietário; executar o tokenizador real requer o arquivo do modelo de tokenização (tipicamente 1-5 MB) empacotado no cliente.

Não empacotamos tokenizadores porque eles são atualizados com cada lançamento de modelo e o tamanho do pacote se acumula em 4+ provedores. Em vez disso, usamos as proporções de caractere por token publicadas na documentação de cada provedor:

  • GPT-3.5/4/5: ~4 caracteres por token para inglês; maior para código; menor para scripts não latinos.
  • Claude 3/4: ~3,5 caracteres por token. O tokenizador do Claude é ligeiramente mais agressivo que o do GPT.
  • Gemini: ~4 caracteres por token para inglês.
  • Llama 3/4: ~4 caracteres por token.

Essas proporções ficam dentro de ~10% da contagem real de tokens para prosa típica em inglês. Elas desviam mais para código (que se tokeniza em mais partes por causa de divisões de identificadores), scripts não latinos (chinês, japonês, árabe — às vezes 2-3× mais tokens por caractere) e dados estruturados (JSON, XML — entre inglês e código).

Precificação: exata mas desatualizada

Cada modelo tem precificação por token publicada para entrada e (separadamente) para tokens de saída. Codificamos esses preços em um registro que atualizamos manualmente quando os provedores atualizam sua precificação (tipicamente a cada 1-3 meses conforme novos modelos chegam e modelos antigos têm preços revisados).

A precificação no registro está correta a partir do deploy mais recente. Para previsão de custos real em produção, verifique com a página de preços do provedor — e orce com uma margem de 15-30% porque o custo real depende do comprimento da saída, que é não determinístico.

O que modelamos

  • Tokens de entrada (do prompt do usuário).
  • Tokens de saída (de uma estimativa fornecida pelo usuário ou padrão do provedor).
  • Custo = tokens_entrada × preço_entrada + tokens_saída × preço_saída.
  • O total em USD com 6 casas decimais.

O que não modelamos

  • Precificação de entrada em cache. Vários provedores (OpenAI, Anthropic) oferecem precificação com desconto para tokens de entrada que correspondem a um prefixo de prompt visto recentemente.
  • Descontos da API em lote. Endpoints de lote assíncrono costumam oferecer 50% de desconto; não modelado.
  • Entradas de imagem/áudio/vídeo. Os custos de tokens multimodais variam por modelo e são calculados de forma diferente do texto.
  • Precificação de modelos ajustados. Os provedores precificam modelos ajustados de forma diferente dos modelos base.

Detalhes do algoritmo: o loop de mesclagem do BPE

Tanto o GPT quanto o Claude usam variantes de Byte Pair Encoding. O procedimento de treinamento (Sennrich et al., 2016) começa com um vocabulário base de bytes individuais e aplica repetidamente a mesclagem:encontre o par adjacente mais frequente (a, b) no corpus, adicione um novo token “ab” ao vocabulário, substitua cada ocorrência de (a, b) por ele. O procedimento para quando o vocabulário atinge o tamanho alvo — 100.277 para o cl100k_base do GPT-4o, ~128k para o Llama 3, ~256k para o Gemini.

Nossa heurística de proporção de caracteres ignora completamente o loop de mesclagem. Para um texto comN caracteres e proporção média tokens-por-caractere r: tokens ≈ ⌈N × r⌉. As constantes que usamos:

Família de modelosr (tokens/char)1/r (chars/token)Fonte
GPT-4o / 4.10,254,0Docs OpenAI e benchmark tiktoken
Claude 3.5 / 40,2863,5Docs Anthropic
Gemini 1.5+0,254,0Docs Google AI Studio
Llama 3 / 40,254,0Ficha técnica do modelo Meta

Pressupostos e limitações

  • Calibração apenas para prosa em inglês. As constantes de tokens por caractere são ajustadas para textos da Wikipédia em inglês. Código, JSON, chinês, japonês, árabe e outros scripts não latinos podem divergir 30-300%.
  • Sem suporte a precificação de entrada em cache. OpenAI e Anthropic oferecem descontos de 50-90% em tokens de prefixo reutilizados. A estimativa de custo usa precificação completa sem cache.
  • Sem desconto de API em lote. Endpoints de lote assíncrono costumam reduzir o custo por token pela metade; não refletido aqui.
  • O comprimento da saída é fornecido pelo usuário. Não é possível prever o comprimento da resposta; ±50% emT_out é típico dependendo do prompt.
  • Entradas de visão e áudio não modeladas.
  • A precificação é um instantâneo. O registro é atualizado mensalmente; mudanças de preço feitas pelos provedores no meio do mês não são refletidas até o próximo deploy.

Frequently asked questions

Como o Convertitive estima a contagem de tokens?
As contagens de tokens são estimativas heurísticas, não valores exatos. A aproximação segue a proporção amplamente observada de ~4 caracteres por token para prosa em inglês, o que está alinhado com o algoritmo Byte Pair Encoding (BPE) descrito por Sennrich et al. (2016). Para código, texto multilíngue ou emoji a proporção difere — código tem em média ~3 chars/token, e muitos pontos de código Unicode fora do Plano Multilíngue Básico custam 1–3 tokens cada no vocabulário cl100k_base do GPT-4o.
Qual algoritmo de tokenização os modelos da OpenAI usam?
GPT-3.5, GPT-4 e GPT-4o usam Byte Pair Encoding (BPE) com o vocabulário cl100k_base (100.000 tokens). O BPE mescla pares de bytes frequentes iterativamente até atingir o tamanho do vocabulário. A biblioteca tiktoken (openai/tiktoken no GitHub) é a implementação open-source canônica. Claude e Gemini usam tokenizadores baseados em SentencePiece com vocabulários sobrepostos mas distintos — as contagens exatas de tokens diferem entre provedores.
Qual é a precisão da estimativa de custo de LLM?
O componente de precificação é exato no momento da última atualização manual; as estimativas de custo são tão atuais quanto a tabela de preços incorporada. A contagem de tokens é heurística (±10–30% dependendo do tipo de conteúdo), então a estimativa de custo final carrega a mesma variação. Para previsão de faturamento em produção, use o tokenizador oficial do provedor e a API de preços em tempo real.
Quais são os pressupostos por trás do cálculo de custo de tokens?
Assumimos: (1) todos os tokens são cobrados a taxas padrão de entrada/saída sem desconto de cache de prompt; (2) a entrada completa é enviada em cada solicitação (sem truncamento de contexto); (3) o comprimento da saída é fornecido pelo usuário ou definido como o padrão publicado pelo provedor. Descontos da API em lote (por exemplo, 50% de desconto na API Batch da OpenAI) e créditos de cache de contexto (por exemplo, cache de prompt da Anthropic) não estão refletidos.
De onde vêm os dados de precificação?
Os preços são obtidos manualmente das páginas de precificação pública de cada provedor: openai.com/pricing, anthropic.com/pricing, ai.google.dev/pricing, together.ai e replicate.com. Eles são atualizados com base no melhor esforço e podem ficar desatualizados em relação a mudanças anunciadas por dias a semanas. Sempre verifique as taxas atuais na página de preços do provedor antes de se comprometer com um orçamento de produção.

Related

Published May 14, 2026