¿Por qué no coinciden exactamente mis conteos de tokens?

Cada familia de modelos usa un tokenizador diferente. Los modelos más nuevos de OpenAI usan o200k_base; GPT-4 Turbo y 3.5 usan cl100k_base; Anthropic incluye su propio tokenizador derivado de SentencePiece; Google usa SentencePiece; Llama usa una variante compatible con tiktoken. El modo 'Pegar texto' usa una heurística de 4 caracteres por token que se sitúa dentro del ±10% de cualquiera de estos para texto en inglés, pero puede desviarse más para código o scripts no latinos. Para una cifra exacta, usa 'Especificar tokens' con el conteo del tokenizador propio de cada proveedor.

¿Por qué la tasa de salida es mayor que la de entrada?

Los tokens de salida se generan secuencialmente y cada uno requiere un pase completo hacia adelante por el modelo — cuestan más cómputo que los tokens de entrada, que se pueden procesar en lote. Los proveedores lo trasladan: la mayoría precio la salida a 3–5 veces la tasa de entrada. Por eso la relación salida:entrada importa tanto para el gasto total.

¿Incluye descuentos de la API por lotes?

No. OpenAI, Anthropic y Google ofrecen endpoints por lotes con aproximadamente un 50% de descuento sobre el precio de lista para cargas de trabajo no en tiempo real. Si puedes tolerar una espera de 24 horas, divide a la mitad las cifras mostradas aquí. El caché de prompts (también 50–90% de descuento en la parte cacheada) también está excluido — modela la parte cacheada por separado.

Calculadora de Coste de API LLM

Coste por llamada, proyección mensual, todos los modelos principales en una pantalla.

Buğra SözeriIA

Updated June 10, 2026 · Published June 10, 2026

Reviewed by Convertitive

Los precios entre los principales LLM alojados abarcan dos órdenes de magnitud — GPT-4o cuesta aproximadamente 17 veces más por token de salida que Gemini 1.5 Flash, y Claude Opus está otros 7 veces por encima. Elegir el modelo adecuado es mitad pregunta de presupuesto, mitad pregunta de capacidad. Pega un prompt (o escribe un conteo de tokens si ya lo tienes de nuestro contador de tokens), elige una forma de carga de trabajo, y la calculadora muestra el coste por llamada, una proyección mensual y una comparación lado a lado de todos los modelos de la tabla.

Prompt text

Heuristic token estimate (~4 chars/token for prose). Drop a real prompt — system message + user turn + any tool defs — for the closest cost reading.

Workload preset

Model

Calls per day

Input tokens: 42
Output tokens: 42
Per call: $0.000756
Per month: $22.68

Claude 3.5 Sonnet — $3.00 / 1M input, $15.00 / 1M output · context 200k. Output ratio 1×. Monthly = per-call × calls/day × 30.

Compare all models

Model	Provider	Per call	Per month
Gemini 1.5 Flash	Google	<$0.0001	$0.4725
Gemini 2.0 Flash	Google	<$0.0001	$0.6300
GPT-4o mini	OpenAI	<$0.0001	$0.9450
Llama 3.3 70B (Together / Fireworks)	Meta	<$0.0001	$2.22
GPT-3.5 Turbo	OpenAI	<$0.0001	$2.52
Claude 3.5 Haiku	Anthropic	$0.000202	$6.05
Gemini 1.5 Pro	Google	$0.000263	$7.88
Llama 3.1 405B (Together / Fireworks)	Meta	$0.000294	$8.82
GPT-4o	OpenAI	$0.000525	$15.75
o1-mini	OpenAI	$0.00063	$18.90
Claude Sonnet 4	Anthropic	$0.000756	$22.68
Claude 3.5 Sonnet	Anthropic	$0.000756	$22.68
GPT-4 Turbo	OpenAI	$0.00168	$50.40
o1 (reasoning)	OpenAI	$0.00315	$94.50
Claude Opus 4	Anthropic	$0.00378	$113.40

Pricing as of 2026-05-30. Discounts (batch API, prompt caching, enterprise contracts) and fine-tuning surcharges are not applied — check the vendor’s live pricing page before committing to spend.

How to use

Elige un modo de entrada
Pega el prompt completo (mensaje de sistema + turno de usuario + definiciones de herramientas) para un conteo heurístico de tokens, o cambia a 'Especificar tokens' si ya conoces el conteo de tiktoken o el endpoint count_tokens de Anthropic.
Elige un preset de carga de trabajo
La relación salida:entrada determina gran parte del coste — los tokens de salida son 3–5 veces más caros que los de entrada en la mayoría de proveedores. Chat ≈ 1×, clasificación ≈ 0,05×, generación de código 3×, resumen 0,2×.
Establece las llamadas por día
Coste por llamada × llamadas/día × 30 = proyección mensual. Usa la tabla de comparación para ver qué modelo cabe dentro del presupuesto a tu nivel de tráfico.
Copia la comparación
Pulsa 'Copiar como tabla Markdown' para pegar la matriz de costes lado a lado en un documento, ticket o mensaje de Slack.

Frequently asked questions

¿Por qué no coinciden exactamente mis conteos de tokens?: Cada familia de modelos usa un tokenizador diferente. Los modelos más nuevos de OpenAI usan o200k_base; GPT-4 Turbo y 3.5 usan cl100k_base; Anthropic incluye su propio tokenizador derivado de SentencePiece; Google usa SentencePiece; Llama usa una variante compatible con tiktoken. El modo 'Pegar texto' usa una heurística de 4 caracteres por token que se sitúa dentro del ±10% de cualquiera de estos para texto en inglés, pero puede desviarse más para código o scripts no latinos. Para una cifra exacta, usa 'Especificar tokens' con el conteo del tokenizador propio de cada proveedor.
¿Por qué la tasa de salida es mayor que la de entrada?: Los tokens de salida se generan secuencialmente y cada uno requiere un pase completo hacia adelante por el modelo — cuestan más cómputo que los tokens de entrada, que se pueden procesar en lote. Los proveedores lo trasladan: la mayoría precio la salida a 3–5 veces la tasa de entrada. Por eso la relación salida:entrada importa tanto para el gasto total.
¿Incluye descuentos de la API por lotes?: No. OpenAI, Anthropic y Google ofrecen endpoints por lotes con aproximadamente un 50% de descuento sobre el precio de lista para cargas de trabajo no en tiempo real. Si puedes tolerar una espera de 24 horas, divide a la mitad las cifras mostradas aquí. El caché de prompts (también 50–90% de descuento en la parte cacheada) también está excluido — modela la parte cacheada por separado.

Calculadora de Coste de API LLM

Compare all models

How to use

Elige un modo de entrada

Elige un preset de carga de trabajo

Establece las llamadas por día

Copia la comparación

Frequently asked questions

Herramientas relacionadas