Skip to content

Guide

Cómo funciona realmente el precio por token en las APIs LLM (y dónde te pica)

La salida cuesta 4-5 veces la entrada. Los prompts en caché cuestan 10 veces menos. La mayoría de las sorpresas en la facturación vienen de malentender estos dos números.

By Published

Cada API LLM importante — OpenAI, Anthropic, Google, Meta vía nube — cobra por token. Las páginas de marketing citan precios como “$5 por millón de tokens de entrada, $15 por millón de tokens de salida.” La matemática parece simple. Cinco lugares donde la factura real diverge de la estimación simple:

1. La salida cuesta 4-5 veces la entrada

Cada modelo de frontera moderno cobra significativamente más por la salida que por la entrada. Proporciones típicas al momento de escribir: familia OpenAI GPT-4 ~5x, familia Claude ~3-5x, familia Gemini ~4x. La economía es directa: los tokens de entrada son consumidos por la pasada de procesamiento de contexto del modelo una vez; los tokens de salida se generan uno a la vez a través de docenas o cientos de pasadas hacia adelante.

Implicación práctica: las aplicaciones de recuperación con contexto extenso (donde insertas mucho contexto y pides una respuesta corta) son más baratas por respuesta útil que las aplicaciones de generación larga (donde el modelo escribe páginas). Si tu factura es alta y estás generando poca salida, el exceso de entrada es el culpable. Si estás generando mucha salida, enfócate primero en salidas más cortas.

2. Los prompts en caché son radicalmente más baratos

OpenAI y Anthropic ofrecen almacenamiento en caché de prompts: los tokens de entrada que coinciden con un prefijo visto recientemente se facturan con un 10-90% de descuento sobre el precio de entrada regular. La caché típicamente dura 5-10 minutos. Las tasas de aciertos de caché dependen de cuán predecibles sean tus prompts.

Implicación práctica: diseña los prompts para que el prefijo sea estable entre llamadas. Pon las instrucciones del sistema y cualquier contexto estático al principio; pon la variación por solicitud del usuario al final. Un chatbot con un prompt de sistema consistente puede ver que las facturas de entrada caen un 70-90% gracias a los aciertos de caché en una conversación de múltiples turnos.

3. Las APIs por lotes tienen un 50% de descuento

El endpoint de lotes de OpenAI y la API de mensajes por lotes de Anthropic ofrecen un 50% de descuento sobre el precio de lista a cambio de entrega asíncrona (típicamente dentro de 24 horas). Para cargas de trabajo que no necesitan respuestas inmediatas — procesamiento de datos nocturno, pipelines de generación de contenido, retroalimentación de embeddings — cambiar a lotes es ahorro gratuito del 50%.

4. Niveles inferiores de modelo en pasos de recuperación

Un patrón común en IA de producción: una cadena de llamadas de modelo donde el primer paso es “decidir qué recuperar” y el segundo es “responder usando lo que se recuperó.” El paso de decisión rara vez necesita el modelo más inteligente disponible — GPT-4o-mini o Claude Haiku suele ser suficiente. Reservar el modelo de nivel frontera para el paso de respuesta final típicamente reduce el costo del pipeline un 80-90% con un impacto mínimo en la calidad.

5. Estima agresivamente la longitud de salida

La única fuente más grande de sorpresas en la facturación: asumes que el modelo producirá una respuesta corta; produce una larga. Un límite de seguridad de “max_tokens: 4096” significa que podrías pagar por 4096 tokens de salida por llamada.

Práctico: establece max_tokens a aproximadamente 1,5 veces la longitud que realmente esperas, no el máximo que tolerarías. Los límites de max_tokens más bajos también empujan al modelo a producir respuestas más cortas. Los ahorros se componen.

La herramienta de estimación

Nuestro contador de tokens de IA estima los tokens de entrada y calcula el costo por llamada en las familias de modelos principales. Usa heurísticas de proporción de caracteres (con precisión de ~10% para inglés; menos precisa para código y escrituras no latinas). Para pronósticos de costo exactos, usa la biblioteca oficial de tokenizador del proveedor.

Ejemplo trabajado: un chatbot de atención al cliente a 100K conversaciones/mes

Pipeline concreto. Cada turno de usuario incluye un prompt de sistema de 3.500 tokens (documentos del producto, pautas de tono, reglas de rechazo), un mensaje de usuario promedio de 200 tokens y una respuesta de modelo promedio de 400 tokens. Las conversaciones promedian 4 turnos. Por conversación:

  • Entrada por turno: 3.500 (sistema) + historial acumulado + 200 (nuevo usuario) ≈ 3.700 en el primer turno, creciendo a ~5.800 en el turno 4. Promedio por turno ~4.750.
  • Entrada total/conversación: 4 × 4.750 = 19.000 tokens de entrada
  • Salida total/conversación: 4 × 400 = 1.600 tokens de salida

Costo ingenuo con Claude Sonnet 4 ($3 por millón de entrada, $15 por millón de salida) a 100K conversaciones:

  • Entrada: 100.000 × 19.000 × $3 / 1M = $5.700
  • Salida: 100.000 × 1.600 × $15 / 1M = $2.400
  • Total: $8.100/mes

Ahora aplica el almacenamiento en caché de prompts. El prompt de sistema de 3.500 tokens es idéntico en los 100K × 4 = 400K turnos. Con la caché de Anthropic (lecturas de caché a $0,30/M, 90% de descuento en entrada en caché), solo los mensajes de usuario y el historial creciente pagan precio completo. Porción en caché: 400K × 3.500 × $0,30 / 1M = $420. Sin caché: 400K × ~1.250 × $3 / 1M = $1.500.

  • Nuevo costo de entrada: $420 + $1.500 = $1.920 (bajando de $5.700)
  • Salida sin cambios: $2.400
  • Nuevo total: $4.320/mes

Reducción del 47% con un cambio de configuración. Cambia el 30% fácil de conversaciones (las que no necesitan el modelo completo) a Haiku 4.5 a $1/$5 por millón, y la factura baja otros ~$1.000 a aproximadamente $3.300. El ahorro total — 59% — proviene del almacenamiento en caché y la nivelación, ninguno de los cuales es automático.

Errores comunes que inflan la factura

  • Poner el mensaje del usuario al principio del prompt. Las claves de caché se hashean desde el prefijo. Si la estructura de tu prompt es [variación del usuario] [sistema estático] la caché nunca acierta. Siempre pon las partes estáticas primero.
  • Establecer max_tokens al techo del modelo. La mayoría de las APIs facturan la generación real, no el límite — pero el modelo usa el límite como señal de longitud. Establecer max_tokens: 4096 cuando querías una respuesta de 200 tokens produce respuestas más largas y una factura mayor.
  • Embeber cada documento repetidamente. Los pipelines de recuperación que vuelven a embeber el mismo corpus en cada consulta están pagando por embeddings que ya tienen. Almacena en caché los embeddings en tu almacén vectorial.
  • Usar GPT-4 / Opus / Gemini Pro para clasificación. Un clasificador de intención de 5 clases casi nunca necesita un modelo de frontera. Haiku, GPT-4o-mini o Gemini Flash son 10-30× más baratos y coinciden en precisión en tareas con menos de ~10 tokens de salida.
  • Streaming cuando no lo necesitas. El streaming no tiene cargo adicional, pero cada token se paga en el momento en que se genera. Si aborts a mitad del streaming por un timeout downstream, igual debes lo que se produjo. Establece timeouts duros por solicitud en tu cliente.

Cuándo esta guía NO aplica

  • Modelos autoalojados / de código abierto. Llama, Mistral, Qwen en tus propias GPU convierten el costo de API por token en costo por hora de GPU. La economía está dominada por la utilización y no por los tokens.
  • Implementaciones de ajuste fino y capacidad dedicada.Las Unidades de Rendimiento Aprovisionadas de OpenAI, la capacidad reservada de Anthropic y el “Rendimiento Aprovisionado” de Google facturan mensualmente a tarifa fija por capacidad garantizada. A alto QPS esto es más barato que por token; a bajo QPS mucho más caro.
  • Cargas de trabajo solo de embedding. Los modelos de embedding son 100-1000× más baratos que la completación de chat. Los cinco palancas anteriores mayormente no aplican.

Para definiciones de trabajo de las unidades subyacentes a la facturación, consulta nuestra entrada del glosario de tokens GPT y la entrada de ventana de contexto. Para una comparación de costos por modelo, la calculadora de costos LLM maneja las hojas de tarifas por proveedor.

Hoja de tarifas por millón de tokens (principios de 2026)

Precios del proveedor al momento de escribir. Las tarifas cambian con frecuencia; siempre confirma en la página de precios del proveedor antes de comprometerte con un presupuesto.

ModeloEntrada ($/M tok)Salida ($/M tok)Entrada en caché
OpenAI GPT-4.1$2,00$8,00$0,50 (75% dto.)
OpenAI GPT-4.1 mini$0,40$1,60$0,10
OpenAI o1$15,00$60,00$7,50
Anthropic Claude Opus 4$15,00$75,00$1,50 (90% dto.)
Anthropic Claude Sonnet 4$3,00$15,00$0,30
Anthropic Claude Haiku 4.5$1,00$5,00$0,10
Google Gemini 2.5 Pro$1,25$10,00$0,31
Google Gemini 2.5 Flash$0,30$2,50$0,075

El resumen honesto

A pequeña escala (unos pocos miles de llamadas al mes) el precio de los LLM es tan barato que nada de esto importa. A escala mediana o grande, la brecha entre la estimación de costo ingenuo y la factura real puede ser fácilmente de 5-10× cuando se tienen en cuenta el exceso de salida, los fallos de caché y el uso innecesario del modelo de frontera. Cada una de las cinco palancas anteriores puede ahorrar independientemente entre el 50-90% en patrones de llamada específicos.

Frequently asked questions

¿Por qué las APIs LLM cobran más por tokens de salida que por tokens de entrada?
Los tokens de entrada se procesan en una sola pasada paralela a través del modelo; los tokens de salida se generan uno a la vez a través de docenas o cientos de pasadas secuenciales hacia adelante. El costo computacional por token de salida es 4–5 veces mayor, lo que se refleja en los precios de OpenAI, Anthropic y Google.
¿Qué es el almacenamiento en caché de prompts y cuánto puede reducir mi factura de API LLM?
El almacenamiento en caché de prompts guarda la caché KV para un prefijo de prompt repetido y cobra el 10–25% de las tarifas de entrada normales en los aciertos de caché. Un chatbot con un prompt de sistema de 3.500 tokens repetido en 400.000 turnos puede reducir los costos de entrada en un 70–90% — la optimización de mayor apalancamiento para cargas de trabajo con mucha entrada.
¿Cuánto descuenta la API por lotes de OpenAI o Anthropic?
Tanto el endpoint de lotes de OpenAI como la API de mensajes por lotes de Anthropic ofrecen un 50% de descuento sobre el precio de lista a cambio de entrega asíncrona en 24 horas. Para pipelines de procesamiento de datos y trabajos de generación de contenido que no necesitan respuestas inmediatas, esto es ahorro gratuito del 50%.
¿Cuál es el costo aproximado de ejecutar un chatbot de atención al cliente en Claude Sonnet 4 a 100.000 conversaciones por mes?
Sin optimización: aproximadamente $8.100/mes. Con almacenamiento en caché de prompts en el prompt de sistema estático: aproximadamente $4.320/mes (reducción del 47%). Añadir niveles de modelo (enrutar conversaciones más simples a Haiku) reduce la factura aún más a alrededor de $3.300/mes — un ahorro total del 59%.
¿Cuántos tokens hay en una palabra típica en inglés?
Aproximadamente 1,3 tokens por palabra (unas 4 caracteres por token) para prosa en inglés. El código promedia unas 2,5 caracteres por token. Las escrituras no latinas como el chino y el japonés promedian 1–2 caracteres por token y son proporcionalmente más caras de procesar.

Related

Published May 14, 2026