¿Qué es un GPT token?

Un token es la unidad más pequeña que procesa un LLM, aproximadamente 4 caracteres en inglés o 0,75 palabras. El texto se divide en tokens usando un tokenizador (p. ej., BPE) antes de que el modelo lo procese.

¿Cuántos tokens usa un párrafo típico?

Un párrafo promedio en inglés de 100 palabras se tokeniza en unos 130–140 tokens. El mismo párrafo en japonés o chino puede costar 3–6 veces más tokens porque el tokenizador se entrenó predominantemente con texto en inglés.

¿Cuál es la diferencia entre tokens de entrada y de salida?

Los tokens de entrada son el prompt enviado al modelo; los tokens de salida son la respuesta generada. Los tokens de salida suelen costar entre 3 y 5 veces más que los de entrada en la mayoría de los niveles de precios comerciales.

¿Por qué importa el caché de prompts para los costos de tokens?

Los prefijos de entrada cacheados se vuelven a cobrar al 10–25% de la tarifa normal en llamadas repetidas. Estructurar los prompts con instrucciones de sistema estables primero y contenido dinámico al final maximiza la tasa de aciertos en caché y puede reducir drásticamente los costos por llamada.

Glossary

GPT token

La unidad atómica de entrada y salida de un LLM

By Buğra SözeriPublished May 14, 2026Updated May 31, 2026

Un GPT token (más generalmente, un token) es la unidad que procesa un modelo de lenguaje grande. Los modelos no ven directamente caracteres ni palabras: el texto primero se tokeniza en una secuencia de IDs enteros de un vocabulario fijo, típicamente de 50.000 a 200.000 tokens.

GPT-3, GPT-4 y GPT-5 de OpenAI usan tokenizadores BPE (Byte Pair Encoding). Las palabras comunes en inglés suelen ser un token (“the” → 1, “and” → 1); las palabras más largas o raras se dividen en varios tokens (“tokenization” → quizás 3); el código se divide mucho más (identificadores, corchetes, sangría se convierten cada uno en sus propios tokens).

Ratios prácticos:

Prosa en inglés: ~4 caracteres por token, ~0,75 palabras por token
Código: ~2-3 caracteres por token (división más intensa)
Escrituras no latinas (chino, japonés, árabe): puede ser 1 carácter por token o peor

Tanto los tokens de entrada como los de salida se facturan. Los tokens de salida suelen costar entre 3 y 5 veces los de entrada. Usa nuestro contador de tokens para estimaciones en tiempo real entre modelos GPT, Claude, Gemini y Llama.

El impuesto a los scripts no latinos: un párrafo en turco, griego o ruso del mismo contenido semántico que en inglés suele costar entre 2 y 3 veces más tokens porque el tokenizador se entrenó predominantemente con texto en inglés y recurre a la división a nivel de caracteres para scripts más raros. Un párrafo en chino puede costar entre 4 y 6 veces más tokens. Los tokenizadores de 2024 (OpenAI o200k_base, el tokenizador más reciente de Claude) añadieron muchos más tokens no latinos y redujeron la brecha, pero el inglés sigue siendo el idioma más barato para operar un LLM.

El caché de prompts cambia los cálculos: OpenAI, Anthropic y Google ofrecen caché de prompts a partir de 2024-25: los prefijos de entrada repetidos se cobran al 25-90% de la tarifa de entrada normal tras el primer uso. Para cargas de trabajo de chatbot con prompts de sistema estables y contextos largos, esto reduce drásticamente el costo efectivo de entrada. El caché es por prefijo (hash de los tokens iniciales), así que reordenarlos lo rompe; estructura los prompts con contenido estable primero, contenido dinámico al final. Referencia: OpenAI tiktoken — el tokenizador BPE de referencia.

Ejemplo práctico: contar tokens en un prompt real

Prompt: “Resume la siguiente transcripción de reunión en tres puntos.” seguido de 2.000 palabras de transcripción en inglés y una solicitud de resumen de 200 palabras. Usando el tokenizador cl100k_base (familia GPT-4, GPT-4o): la instrucción es 11 tokens; 2.000 palabras en inglés se tokenizan en aproximadamente 2.700 tokens; el modelo devuelve 200 palabras ≈ 270 tokens de salida. A precios ilustrativos de GPT-4o para 2026 (USD 2,50/M entrada, USD 10/M salida): costo de entrada 2.711 / 1.000.000 × 2,50 ≈ 0,0068 USD; costo de salida 270 / 1.000.000 × 10 ≈ 0,0027 USD. Total ≈ 0,95 centavos por llamada. Traduce la misma transcripción al japonés (~6.500 tokens con el mismo tokenizador) y el costo por llamada se triplica aproximadamente, sin que el modelo haga más razonamiento.

Cuándo importan los recuentos de tokens operacionalmente

Más allá del precio, los tokens determinan el ajuste a la ventana de contexto. Un modelo de 128.000 tokens puede contener aproximadamente 96.000 palabras en inglés, 64.000 líneas de Python o 24.000 caracteres japoneses antes de que el contenido más antiguo se descarte. Los pipelines RAG (generación aumentada por recuperación) deben dividir los documentos fuente en ventanas de 200 a 1.000 tokens para la calidad de los embeddings; fragmentos demasiado grandes difuminan el embedding, fragmentos demasiado pequeños fragmentan el contenido semánticamente relacionado. Herramientas: tiktoken (OpenAI), @anthropic-ai/tokenizer (Anthropic), AutoTokenizer de Hugging Face (modelos abiertos). Relacionado: ventana de contexto, LLM. Referencia: Hugging Face — Resumen del tokenizador.

Frequently asked questions

¿Qué es un GPT token?: Un token es la unidad más pequeña que procesa un LLM, aproximadamente 4 caracteres en inglés o 0,75 palabras. El texto se divide en tokens usando un tokenizador (p. ej., BPE) antes de que el modelo lo procese.
¿Cuántos tokens usa un párrafo típico?: Un párrafo promedio en inglés de 100 palabras se tokeniza en unos 130–140 tokens. El mismo párrafo en japonés o chino puede costar 3–6 veces más tokens porque el tokenizador se entrenó predominantemente con texto en inglés.
¿Cuál es la diferencia entre tokens de entrada y de salida?: Los tokens de entrada son el prompt enviado al modelo; los tokens de salida son la respuesta generada. Los tokens de salida suelen costar entre 3 y 5 veces más que los de entrada en la mayoría de los niveles de precios comerciales.
¿Por qué importa el caché de prompts para los costos de tokens?: Los prefijos de entrada cacheados se vuelven a cobrar al 10–25% de la tarifa normal en llamadas repetidas. Estructurar los prompts con instrucciones de sistema estables primero y contenido dinámico al final maximiza la tasa de aciertos en caché y puede reducir drásticamente los costos por llamada.

Published May 14, 2026 · Last reviewed May 31, 2026

GPT token

Ejemplo práctico: contar tokens en un prompt real

Cuándo importan los recuentos de tokens operacionalmente

Frequently asked questions

Related