Data study

Precios de API de LLM en junio de 2026: desglose del coste de tokens de entrada frente a salida

Los tokens de salida cuestan entre 3 y 6 veces más que los de entrada en la mayoría de los modelos de frontera. La ratio importa tanto como el precio absoluto.

By Buğra SözeriPublished May 31, 2026

Los precios de la API de LLM siguen una estructura coherente: se paga por separado los tokens de entrada (su prompt) y los tokens de salida (la respuesta del modelo). Los tokens de salida son casi siempre más caros que los de entrada porque generar cada token de salida requiere un pase hacia delante completo a través del modelo, mientras que los tokens de entrada se procesan en paralelo. Entender la ratio importa tanto como el precio de titular.

Use nuestra calculadora de coste de LLM para estimar costes según las longitudes específicas de su prompt y respuesta usando los precios de esta tabla.

Tabla de precios — junio de 2026

Todos los precios están en dólares estadounidenses por 1 millón de tokens ($/1M). Los precios proceden de la página de precios pública de cada proveedor a junio de 2026 y están sujetos a cambios. Se muestran los precios estándar de la API (sin lotes, sin caché).

Modelo	Proveedor	Entrada $/1M	Salida $/1M	Ratio salida/entrada	Ventana de contexto
GPT-4o	OpenAI	2,50 $	10,00 $	4,0×	128K
GPT-4o mini	OpenAI	0,15 $	0,60 $	4,0×	128K
GPT-4.1	OpenAI	2,00 $	8,00 $	4,0×	1M
o3	OpenAI	10,00 $	40,00 $	4,0×	200K
o4-mini	OpenAI	1,10 $	4,40 $	4,0×	200K
Claude Sonnet 4	Anthropic	3,00 $	15,00 $	5,0×	200K
Claude Haiku 3.5	Anthropic	0,80 $	4,00 $	5,0×	200K
Gemini 2.5 Pro	Google	1,25 $	10,00 $	8,0×	1M
Gemini 2.5 Flash	Google	0,15 $	0,60 $	4,0×	1M
Gemini 1.5 Flash	Google	0,075 $	0,30 $	4,0×	1M
Llama 3.3 70B (Together)	Together.ai	0,18 $	0,18 $	1,0×	128K
Llama 3.1 405B (Together)	Together.ai	3,50 $	3,50 $	1,0×	128K
Mistral Large 2	Mistral	2,00 $	6,00 $	3,0×	128K
Mistral Small 3.1	Mistral	0,10 $	0,30 $	3,0×	128K
Command R+	Cohere	2,50 $	10,00 $	4,0×	128K

Precios verificados en las páginas de precios de los proveedores en junio de 2026. Compruebe siempre la página de precios actual del proveedor antes de comprometerse con un presupuesto de producción.

Análisis de la ratio salida/entrada

La ratio de coste salida/entrada revela la filosofía de precios de cada proveedor. En los datos se aprecian cuatro patrones:

Ratio 4× (OpenAI, Gemini Flash, Cohere). La ratio más común. Refleja la asimetría computacional de la generación autorregresiva frente al prefill en paralelo.
Ratio 5× (Anthropic Claude). Anthropic cobra una prima de salida mayor, coherente con sus benchmarks de salida media más larga y sus capacidades de pensamiento extendido.
Ratio 8× (Gemini 2.5 Pro). La ratio más alta de nuestra tabla —la prima de salida de Gemini 2.5 Pro refleja su razonamiento extendido y sus capacidades de generación de contexto largo.
Ratio 1× (Meta Llama a través de Together.ai). Los modelos de pesos abiertos alojados en proveedores de inferencia suelen cobrar la misma tarifa por entrada y salida, tratando los tokens como una unidad de cómputo básica en lugar de diferenciar por dirección de generación.

Para cargas de trabajo donde la salida es larga en relación con la entrada (p. ej., generación de documentos, síntesis de código, resumen), la tarifa de tokens de salida domina el coste total. Para pipelines de RAG con grandes ventanas de contexto y respuestas cortas, la tarifa de entrada domina.

Coste por 10.000 tokens

10.000 tokens equivalen aproximadamente a 7.500 palabras de prosa en inglés —un artículo corto, un archivo de código de tamaño medio o una conversación multiturn. Con 100 tokens de salida por 1.000 tokens de entrada (una ratio típica de estilo RAG):

Modelo	Coste / 10K tokens de entrada	Coste / 10K tokens de salida	Coste por 10K entrada + 1K salida
GPT-4o	0,025 $	0,100 $	0,026 $
GPT-4o mini	0,0015 $	0,006 $	0,00156 $
Claude Sonnet 4	0,030 $	0,150 $	0,0315 $
Gemini 2.5 Flash	0,0015 $	0,006 $	0,00156 $
Gemini 1.5 Flash	0,00075 $	0,003 $	0,00078 $
Llama 3.3 70B (Together)	0,0018 $	0,0018 $	0,00198 $
Mistral Large 2	0,020 $	0,060 $	0,026 $
o3	0,100 $	0,400 $	0,104 $

Use la calculadora de coste de LLM para modelar su ratio prompt/salida real y comparar el coste mensual total entre proveedores.

Observaciones clave

Más barato por token (entrada): Gemini 1.5 Flash a 0,075 $/1M —menos de una centésima de centavo por 1.000 tokens.
Más caro por token (salida): o3 a 40 $/1M de salida —533 veces más caro que la salida de Gemini 1.5 Flash a 0,30 $/1M.
Mejor paridad de coste (entrada = salida): Meta Llama 3.3 70B a través de Together.ai a 0,18 $/1M en ambas direcciones. Adecuado para cargas de trabajo simétricas.
Mejor coste para RAG de contexto largo: Gemini 1.5 Flash —tanto el precio de entrada más bajo como la ventana de contexto de 1M de tokens.
Los descuentos de caché de prompts (no mostrados) pueden reducir los costes efectivos de entrada entre un 50 y un 90 % en prompts de sistema repetidos. Anthropic, OpenAI (API por lotes) y Google ofrecen todos descuentos de caché o por lotes que cambian materialmente la economía para el uso en producción de alto volumen.

Limitaciones y advertencias

Los precios cambian con frecuencia. Los precios de la API de LLM han caído ~10 veces al año para capacidades comparables desde 2023. Los valores de esta tabla reflejan los precios públicos a junio de 2026 y pueden ya estar desactualizados en el momento de la lectura.
La calidad no es igual. Un precio más bajo por token no significa un coste total menor si el modelo requiere prompts más largos para un rendimiento equivalente en la tarea, más reintentos o posprocesamiento.
El rendimiento y la latencia varían. El bajo precio de Gemini 1.5 Flash viene con límites de cuota compartida; el rendimiento aprovisionado en GPT-4o cuesta más por token pero garantiza capacidad.
Se excluyen el ajuste fino, las incrustaciones y los tokens de imagen. Esta tabla cubre únicamente la generación de texto.

Fuentes

Página de precios de OpenAI (openai.com/api/pricing); precios de la API de Anthropic (anthropic.com/pricing); precios de Google AI Studio y Vertex AI (ai.google.dev/pricing); precios de Together.ai (together.ai/pricing); precios de Mistral AI (mistral.ai/technology); precios de Cohere (cohere.com/pricing). Todos los precios verificados en junio de 2026.

Published May 31, 2026