Data study
Precios de API de LLM en junio de 2026: desglose del coste de tokens de entrada frente a salida
Los tokens de salida cuestan entre 3 y 6 veces más que los de entrada en la mayoría de los modelos de frontera. La ratio importa tanto como el precio absoluto.
By Buğra SözeriPublished
Los precios de la API de LLM siguen una estructura coherente: se paga por separado los tokens de entrada (su prompt) y los tokens de salida (la respuesta del modelo). Los tokens de salida son casi siempre más caros que los de entrada porque generar cada token de salida requiere un pase hacia delante completo a través del modelo, mientras que los tokens de entrada se procesan en paralelo. Entender la ratio importa tanto como el precio de titular.
Use nuestra calculadora de coste de LLM para estimar costes según las longitudes específicas de su prompt y respuesta usando los precios de esta tabla.
Tabla de precios — junio de 2026
Todos los precios están en dólares estadounidenses por 1 millón de tokens ($/1M). Los precios proceden de la página de precios pública de cada proveedor a junio de 2026 y están sujetos a cambios. Se muestran los precios estándar de la API (sin lotes, sin caché).
| Modelo | Proveedor | Entrada $/1M | Salida $/1M | Ratio salida/entrada | Ventana de contexto |
|---|---|---|---|---|---|
| GPT-4o | OpenAI | 2,50 $ | 10,00 $ | 4,0× | 128K |
| GPT-4o mini | OpenAI | 0,15 $ | 0,60 $ | 4,0× | 128K |
| GPT-4.1 | OpenAI | 2,00 $ | 8,00 $ | 4,0× | 1M |
| o3 | OpenAI | 10,00 $ | 40,00 $ | 4,0× | 200K |
| o4-mini | OpenAI | 1,10 $ | 4,40 $ | 4,0× | 200K |
| Claude Sonnet 4 | Anthropic | 3,00 $ | 15,00 $ | 5,0× | 200K |
| Claude Haiku 3.5 | Anthropic | 0,80 $ | 4,00 $ | 5,0× | 200K |
| Gemini 2.5 Pro | 1,25 $ | 10,00 $ | 8,0× | 1M | |
| Gemini 2.5 Flash | 0,15 $ | 0,60 $ | 4,0× | 1M | |
| Gemini 1.5 Flash | 0,075 $ | 0,30 $ | 4,0× | 1M | |
| Llama 3.3 70B (Together) | Together.ai | 0,18 $ | 0,18 $ | 1,0× | 128K |
| Llama 3.1 405B (Together) | Together.ai | 3,50 $ | 3,50 $ | 1,0× | 128K |
| Mistral Large 2 | Mistral | 2,00 $ | 6,00 $ | 3,0× | 128K |
| Mistral Small 3.1 | Mistral | 0,10 $ | 0,30 $ | 3,0× | 128K |
| Command R+ | Cohere | 2,50 $ | 10,00 $ | 4,0× | 128K |
Precios verificados en las páginas de precios de los proveedores en junio de 2026. Compruebe siempre la página de precios actual del proveedor antes de comprometerse con un presupuesto de producción.
Análisis de la ratio salida/entrada
La ratio de coste salida/entrada revela la filosofía de precios de cada proveedor. En los datos se aprecian cuatro patrones:
- Ratio 4× (OpenAI, Gemini Flash, Cohere). La ratio más común. Refleja la asimetría computacional de la generación autorregresiva frente al prefill en paralelo.
- Ratio 5× (Anthropic Claude). Anthropic cobra una prima de salida mayor, coherente con sus benchmarks de salida media más larga y sus capacidades de pensamiento extendido.
- Ratio 8× (Gemini 2.5 Pro). La ratio más alta de nuestra tabla —la prima de salida de Gemini 2.5 Pro refleja su razonamiento extendido y sus capacidades de generación de contexto largo.
- Ratio 1× (Meta Llama a través de Together.ai). Los modelos de pesos abiertos alojados en proveedores de inferencia suelen cobrar la misma tarifa por entrada y salida, tratando los tokens como una unidad de cómputo básica en lugar de diferenciar por dirección de generación.
Para cargas de trabajo donde la salida es larga en relación con la entrada (p. ej., generación de documentos, síntesis de código, resumen), la tarifa de tokens de salida domina el coste total. Para pipelines de RAG con grandes ventanas de contexto y respuestas cortas, la tarifa de entrada domina.
Coste por 10.000 tokens
10.000 tokens equivalen aproximadamente a 7.500 palabras de prosa en inglés —un artículo corto, un archivo de código de tamaño medio o una conversación multiturn. Con 100 tokens de salida por 1.000 tokens de entrada (una ratio típica de estilo RAG):
| Modelo | Coste / 10K tokens de entrada | Coste / 10K tokens de salida | Coste por 10K entrada + 1K salida |
|---|---|---|---|
| GPT-4o | 0,025 $ | 0,100 $ | 0,026 $ |
| GPT-4o mini | 0,0015 $ | 0,006 $ | 0,00156 $ |
| Claude Sonnet 4 | 0,030 $ | 0,150 $ | 0,0315 $ |
| Gemini 2.5 Flash | 0,0015 $ | 0,006 $ | 0,00156 $ |
| Gemini 1.5 Flash | 0,00075 $ | 0,003 $ | 0,00078 $ |
| Llama 3.3 70B (Together) | 0,0018 $ | 0,0018 $ | 0,00198 $ |
| Mistral Large 2 | 0,020 $ | 0,060 $ | 0,026 $ |
| o3 | 0,100 $ | 0,400 $ | 0,104 $ |
Use la calculadora de coste de LLM para modelar su ratio prompt/salida real y comparar el coste mensual total entre proveedores.
Observaciones clave
- Más barato por token (entrada): Gemini 1.5 Flash a 0,075 $/1M —menos de una centésima de centavo por 1.000 tokens.
- Más caro por token (salida): o3 a 40 $/1M de salida —533 veces más caro que la salida de Gemini 1.5 Flash a 0,30 $/1M.
- Mejor paridad de coste (entrada = salida): Meta Llama 3.3 70B a través de Together.ai a 0,18 $/1M en ambas direcciones. Adecuado para cargas de trabajo simétricas.
- Mejor coste para RAG de contexto largo: Gemini 1.5 Flash —tanto el precio de entrada más bajo como la ventana de contexto de 1M de tokens.
- Los descuentos de caché de prompts (no mostrados) pueden reducir los costes efectivos de entrada entre un 50 y un 90 % en prompts de sistema repetidos. Anthropic, OpenAI (API por lotes) y Google ofrecen todos descuentos de caché o por lotes que cambian materialmente la economía para el uso en producción de alto volumen.
Limitaciones y advertencias
- Los precios cambian con frecuencia. Los precios de la API de LLM han caído ~10 veces al año para capacidades comparables desde 2023. Los valores de esta tabla reflejan los precios públicos a junio de 2026 y pueden ya estar desactualizados en el momento de la lectura.
- La calidad no es igual. Un precio más bajo por token no significa un coste total menor si el modelo requiere prompts más largos para un rendimiento equivalente en la tarea, más reintentos o posprocesamiento.
- El rendimiento y la latencia varían. El bajo precio de Gemini 1.5 Flash viene con límites de cuota compartida; el rendimiento aprovisionado en GPT-4o cuesta más por token pero garantiza capacidad.
- Se excluyen el ajuste fino, las incrustaciones y los tokens de imagen. Esta tabla cubre únicamente la generación de texto.
Fuentes
Página de precios de OpenAI (openai.com/api/pricing); precios de la API de Anthropic (anthropic.com/pricing); precios de Google AI Studio y Vertex AI (ai.google.dev/pricing); precios de Together.ai (together.ai/pricing); precios de Mistral AI (mistral.ai/technology); precios de Cohere (cohere.com/pricing). Todos los precios verificados en junio de 2026.
Related
Published May 31, 2026