Glossary
Token GPT
A unidade atômica de entrada e saída de LLM
By Buğra SözeriPublished Updated
Um token GPT (mais geralmente, um token) é a unidade que um grande modelo de linguagem processa. Os modelos não veem caracteres ou palavras diretamente — o texto é primeiro tokenizado em uma sequência de IDs inteiros de um vocabulário fixo, tipicamente de 50.000 a 200.000 tokens.
O GPT-3, GPT-4 e GPT-5 da OpenAI usam tokenizadores BPE (Byte Pair Encoding). Palavras comuns em inglês geralmente são um token (“the” → 1, “and” → 1); palavras mais longas ou raras se dividem em múltiplos tokens (“tokenization” → talvez 3); o código se divide muito mais (identificadores, colchetes, recuo se tornam seus próprios tokens).
Proporções práticas:
- Prosa em inglês: ~4 caracteres por token, ~0,75 palavras por token
- Código: ~2-3 caracteres por token (divisão mais pesada)
- Scripts não latinos (chinês, japonês, árabe): pode ser 1 caractere por token ou pior
Tanto os tokens de entrada quanto os de saída são cobrados. Os tokens de saída geralmente custam 3-5× mais que a entrada. Use nosso contador de tokens para estimativa em tempo real para modelos GPT, Claude, Gemini e Llama.
O imposto do script não latino: um parágrafo em turco, grego ou russo com o mesmo conteúdo semântico que o inglês geralmente custa 2-3× mais tokens porque o tokenizador foi treinado predominantemente em texto em inglês e recorre à divisão em nível de caractere para scripts mais raros. Um parágrafo em chinês pode ter 4-6× mais tokens. Isso se traduz diretamente em custo — executar o mesmo chatbot em japonês versus inglês pode facilmente dobrar a conta por conversa. Os tokenizadores de 2024 (OpenAI o200k_base, o tokenizador mais novo do Claude) adicionaram muitos mais tokens não latinos e reduziram a diferença, mas o inglês continua sendo o idioma mais barato para operar um LLM.
O cache de prompt muda o cálculo: OpenAI, Anthropic e Google oferecem cache de prompt desde 2024-25 — prefixos de entrada repetidos são cobrados a 25-90% da taxa de entrada regular após o primeiro uso. Para cargas de trabalho de chatbot com prompts de sistema estáveis e contextos longos, isso reduz o custo efetivo de entrada drasticamente. O cache é por prefixo (hash dos tokens iniciais), então reordenar o quebra; estruture prompts com conteúdo estável primeiro, conteúdo dinâmico por último. Referência: OpenAI tiktoken — o tokenizador BPE de referência.
Exemplo prático: contando tokens em um prompt real
Prompt: “Resuma a seguinte transcrição de reunião em três pontos de destaque.” seguido de 2.000 palavras de transcrição em inglês e uma solicitação de resumo de 200 palavras. Usando o tokenizador cl100k_base (família GPT-4, GPT-4o): a instrução tem 11 tokens; 2.000 palavras em inglês tokenizam em cerca de 2.700 tokens; o modelo retorna 200 palavras ≈ 270 tokens de saída. A preços ilustrativos do GPT-4o em 2026 (USD 2,50/M entrada, USD 10/M saída): custo de entrada 2.711 / 1.000.000 × 2,50 ≈ 0,0068 USD; custo de saída 270 / 1.000.000 × 10 ≈ 0,0027 USD. Total ≈ 0,95 centavo por chamada. Traduza a mesma transcrição para o japonês (~6.500 tokens no mesmo tokenizador) e o custo por chamada triplica aproximadamente — sem o modelo fazer mais raciocínio.
Quando as contagens de tokens importam operacionalmente
Além do preço, os tokens determinam o ajuste da janela de contexto. Um modelo de 128.000 tokens pode conter aproximadamente 96.000 palavras em inglês, 64.000 linhas de Python, ou 24.000 caracteres japoneses antes que o conteúdo mais antigo seja descartado. Pipelines RAG (geração aumentada por recuperação) devem fragmentar documentos de origem em janelas de 200-1.000 tokens para qualidade de embedding; fragmentos muito grandes desfocam o embedding, fragmentos muito pequenos fragmentam conteúdo semanticamente relacionado. Ferramentas: tiktoken (OpenAI), @anthropic-ai/tokenizer (Anthropic), AutoTokenizer do Hugging Face (modelos abertos). Relacionado: janela de contexto, LLM. Referência: Hugging Face — Resumo do Tokenizador.
Frequently asked questions
- O que é um token GPT?
- Um token é a menor unidade que um LLM processa — aproximadamente 4 caracteres em inglês ou 0,75 palavras. O texto é dividido em tokens usando um tokenizador (ex.: BPE) antes de o modelo processá-lo.
- Quantos tokens um parágrafo típico usa?
- Um parágrafo médio em inglês de 100 palavras tokeniza em cerca de 130-140 tokens. O mesmo parágrafo em japonês ou chinês pode custar 3-6× mais tokens porque o tokenizador foi treinado predominantemente em inglês.
- Qual é a diferença entre tokens de entrada e de saída?
- Tokens de entrada são o prompt enviado ao modelo; tokens de saída são a resposta gerada. Tokens de saída geralmente custam 3-5× mais do que tokens de entrada na maioria dos planos de preços comerciais.
- Por que o cache de prompt importa para os custos de tokens?
- Prefixos de entrada em cache são cobrados a 10-25% da taxa normal em chamadas repetidas. Estruturar prompts com instruções de sistema estáveis primeiro e conteúdo dinâmico por último maximiza a taxa de acerto do cache e pode reduzir drasticamente os custos por chamada.
Related
Published May 14, 2026 · Last reviewed May 31, 2026