Skip to content

Guide

Cómo funciona realmente la tokenización de GPT (y por qué tu factura depende de ello)

Palabras comunes = 1 token. Palabras raras = 2-5 tokens. Los emoji, los símbolos de código y el texto en idiomas distintos al inglés gastan tokens rápidamente.

By Published Updated

Cada llamada a la API de un modelo de lenguaje grande se mide entokens — ni caracteres ni palabras. Los tokens son la unidad que el modelo consume realmente después de que el texto es codificado por un tokenizador de codificación de pares de bytes(BPE). Entender cómo funciona la tokenización importa porque (a) determina tu factura, y (b) es la razón por la que “un documento de 1000 palabras” no se traduce limpiamente a “un coste de 1000 tokens.”

Cómo funcionan los tokenizadores BPE

El algoritmo en pocas líneas:

  1. Comienza con un vocabulario de bytes individuales (256 entradas).
  2. Encuentra el par adyacente más frecuente de entradas del vocabulario en un gran corpus de entrenamiento.
  3. Añade ese par como una nueva entrada del vocabulario.
  4. Repite hasta que el vocabulario alcanza el tamaño objetivo (50k-100k entradas para los modelos modernos).
  5. Para tokenizar texto nuevo, reemplaza de forma greedy los pares del más largo al más corto.

Resultado: las palabras comunes en inglés como “the”, “and”, “understanding” se convierten cada una en un solo token. Las palabras raras como “rambunctious” se dividen en 2-4 tokens. Los emoji y los caracteres no ingleses a menudo toman 2-6 tokens cada uno.

Recuentos de tokens para contenido común

Recuentos aproximados de tokens para GPT-4 (tokenizador cl100k_base):

ContenidoTokensTokens / palabra
Prosa en inglés~1,3 / palabra1,3
Artículos de noticias~1,3 / palabra1,3
Escritura técnica / científica~1,5 / palabra1,5
Código de programación (Python)~2 / palabra2,0
JSON / XML (mucha puntuación)~2,5 / palabra2,5
Español / Francés / Alemán~1,6 / palabra1,6
Ruso / Griego (escrituras cirílica / griega)~3-4 / palabra3-4
Chino (simplificado)~1,5 / carácter1,5/car
Japonés / Coreano~1-2 / carácter1-2/car
Emoji ✨~2-3 cada uno

La cifra de referencia para el inglés es ~750 palabras por 1.000 tokens. Las escrituras no latinas cuestan significativamente más tokens por carácter porque no estaban representadas tan densamente en el corpus de entrenamiento.

Por qué importa la brecha de costes

El precio por token significa que el contenido en idiomas distintos al inglés cuesta 2-4 veces más por la misma idea. Un documento de 1.000 palabras cuesta:

  • Inglés: ~1.300 tokens → $0,013 al precio de entrada de GPT-4o (~$10/M tokens).
  • Ruso: ~3.500 tokens → $0,035 (2,7 veces más por el mismo contenido).
  • Chino: ~1.500 tokens (por carácter, los scripts densos compensan ligeramente) → $0,015.

Diferencias de tokenizador entre modelos

  • OpenAI cl100k_base (GPT-3.5, GPT-4): vocabulario de ~100.000 tokens. El tokenizador moderno de referencia para inglés.
  • OpenAI o200k_base (GPT-4o, serie o): vocabulario de 200.000 tokens. Mejor con idiomas distintos al inglés y código. Un documento dado necesita ~10-15% menos tokens que con cl100k.
  • Tokenizador de Anthropic Claude: propietario. Densidad aproximadamente similar a cl100k para inglés; difiere notablemente para código y texto no inglés. Anthropic publica un endpoint de recuento de tokens para estimar antes de enviar.
  • Google Gemini: usa SentencePiece. Densidad aproximadamente comparable a cl100k.

Dónde afecta la tokenización al diseño de prompts

  1. Costes de contexto largo. Una ventana de contexto de 100k tokens que contiene toda tu documentación es genial hasta que te das cuenta de que el coste por llamada es $1+ para un uso típico.
  2. JSON vs lenguaje natural. Pedir salida en JSON cuesta ~30-50% más tokens que pedir prosa equivalente. La puntuación de JSON se tokeniza agresivamente.
  3. Tareas de código. El código es aproximadamente el doble de denso en tokens que la prosa. Un archivo de 200 líneas puede ser 2.000-3.000 tokens.
  4. Idiomas distintos al inglés. 2-4 veces más tokens por carácter. Para productos multilingües, este es un coste de primer orden.

Cómo estimar tokens antes de pagar

  1. Usa una herramienta de recuento de tokens. Nuestro contador de tokens de IA implementa múltiples tokenizadores e informa del recuento exacto para tu entrada.
  2. Usa la biblioteca oficial del tokenizador. El tiktoken de OpenAI (Python), la API de tokenizador de Anthropic o contadores de tokens alojados. Estos son la referencia real para la facturación.
  3. Regla general. Para prosa en inglés: 1 palabra ≈ 1,3 tokens. Para código: 1 línea ≈ 8-15 tokens. Para chino: 1 carácter ≈ 1,5 tokens.
  4. Presupuesta también la salida. Muchos proveedores cobran más por la salida que por la entrada (típicamente 3-5 veces por token). Una salida de 2.000 tokens es más cara que una entrada de 2.000 tokens.

Errores comunes

  • Estimar tokens a partir del recuento de caracteres. La regla general de “1 token ≈ 4 caracteres” es muy imprecisa para código, JSON y texto en idiomas distintos al inglés.
  • Olvidar los tokens del prompt del sistema. Un prompt del sistema de 2.000 tokens se incluye en cada solicitud y se factura en cada llamada. Los agentes de múltiples turnos con historial de chat creciente pagan por toda la conversación previa en cada turno.
  • Los beneficios de la caché dependen de la estabilidad del prefijo. El caché de prompts solo se activa cuando la secuencia de tokens es byte-idéntica en el prefijo. Una marca de tiempo insertada dinámicamente en la posición 50 invalida la caché para cada token posterior.
  • Usar el tokenizador equivocado para la estimación de costes. cl100k_base y o200k_base producen recuentos de tokens ~10-15% diferentes para la misma entrada.
  • Eliminar espacios en blanco agresivamente. Muchos tokens comienzan con un espacio inicial. Eliminar todos los espacios y concatenar palabras puede producir más tokens, no menos.

Para más información, consulta nuestra entrada del glosario de tokens de GPT, la guía sobre cómo funciona el precio por token, y el tutorial de expresiones cron para un primitivo de análisis igualmente denso pero no relacionado.

Frequently asked questions

¿Qué es un token en el contexto de GPT y los LLM?
Un token es la unidad básica de texto que procesa un modelo de lenguaje — ni un carácter ni una palabra completa. Las palabras comunes en inglés como 'the' o 'cat' son tokens individuales; las palabras menos frecuentes se dividen en 2-5 subunidades de palabra. Un token corresponde a aproximadamente 4 caracteres o 0,75 palabras en promedio para texto en inglés.
¿Cómo funciona la tokenización por codificación de pares de bytes (BPE)?
BPE comienza con bytes individuales como vocabulario (256 entradas), luego fusiona iterativamente el par adyacente más frecuente en una nueva entrada del vocabulario. Después de cientos de miles de fusiones en un corpus de entrenamiento, el vocabulario resultante captura palabras comunes y fragmentos de subpalabras de forma eficiente.
¿Por qué el texto en idiomas distintos al inglés usa más tokens que el inglés?
Los tokenizadores de GPT se entrenan predominantemente en texto en inglés, por lo que los caracteres raros en escrituras no inglesas (chino, árabe, coreano) pueden asignarse cada uno a 1-3 bytes o caracteres individuales en lugar de palabras completas. Una frase en chino puede usar 2-4 veces más tokens por palabra en comparación con el inglés equivalente.
¿Cuántos tokens contiene una página típica de texto?
Una página de 500 palabras de texto en inglés sencillo contiene aproximadamente 650-700 tokens, ya que las palabras cortas y la puntuación consumen tokens cada una. El código, JSON y el texto técnico con símbolos inusuales puede generar un 20-40% más de tokens por palabra que la prosa.
¿Un emoji siempre cuenta como un token?
No — un emoji individual a menudo ocupa 2-8 tokens porque los emoji complejos (especialmente los modificadores de tono de piel y las secuencias ZWJ) se dividen en múltiples bytes UTF-8, cada uno potencialmente tokenizado por separado. Un emoji de familia con tono de piel puede usar 6-10 tokens.
¿Por qué la tokenización afecta al coste de usar las API de LLM?
Las API de LLM como OpenAI y Anthropic cobran por token tanto para la entrada (prompt) como para la salida (completado). Un prompt escrito en lenguaje ineficiente (muchas palabras raras, código, texto en idiomas distintos al inglés) puede costar 2-3 veces más que un prompt semánticamente equivalente en frases comunes en inglés.

Related

Published May 16, 2026 · Last reviewed May 31, 2026