Skip to content

Calculadora de Coste de API LLM

Coste por llamada, proyección mensual, todos los modelos principales en una pantalla.

Buğra SözeriIA
Updated · Published
Reviewed by Convertitive

Los precios entre los principales LLM alojados abarcan dos órdenes de magnitud — GPT-4o cuesta aproximadamente 17 veces más por token de salida que Gemini 1.5 Flash, y Claude Opus está otros 7 veces por encima. Elegir el modelo adecuado es mitad pregunta de presupuesto, mitad pregunta de capacidad. Pega un prompt (o escribe un conteo de tokens si ya lo tienes de nuestro contador de tokens), elige una forma de carga de trabajo, y la calculadora muestra el coste por llamada, una proyección mensual y una comparación lado a lado de todos los modelos de la tabla.

Heuristic token estimate (~4 chars/token for prose). Drop a real prompt — system message + user turn + any tool defs — for the closest cost reading.

Input tokens
42
Output tokens
42
Per call
$0.000756
Per month
$22.68

Claude 3.5 Sonnet — $3.00 / 1M input, $15.00 / 1M output · context 200k. Output ratio 1×. Monthly = per-call × calls/day × 30.

Compare all models

ModelProviderPer callPer month
Gemini 1.5 FlashGoogle<$0.0001$0.4725
Gemini 2.0 FlashGoogle<$0.0001$0.6300
GPT-4o miniOpenAI<$0.0001$0.9450
Llama 3.3 70B (Together / Fireworks)Meta<$0.0001$2.22
GPT-3.5 TurboOpenAI<$0.0001$2.52
Claude 3.5 HaikuAnthropic$0.000202$6.05
Gemini 1.5 ProGoogle$0.000263$7.88
Llama 3.1 405B (Together / Fireworks)Meta$0.000294$8.82
GPT-4oOpenAI$0.000525$15.75
o1-miniOpenAI$0.00063$18.90
Claude Sonnet 4Anthropic$0.000756$22.68
Claude 3.5 SonnetAnthropic$0.000756$22.68
GPT-4 TurboOpenAI$0.00168$50.40
o1 (reasoning)OpenAI$0.00315$94.50
Claude Opus 4Anthropic$0.00378$113.40

Pricing as of . Discounts (batch API, prompt caching, enterprise contracts) and fine-tuning surcharges are not applied — check the vendor’s live pricing page before committing to spend.

How to use

  1. Elige un modo de entrada

    Pega el prompt completo (mensaje de sistema + turno de usuario + definiciones de herramientas) para un conteo heurístico de tokens, o cambia a 'Especificar tokens' si ya conoces el conteo de tiktoken o el endpoint count_tokens de Anthropic.

  2. Elige un preset de carga de trabajo

    La relación salida:entrada determina gran parte del coste — los tokens de salida son 3–5 veces más caros que los de entrada en la mayoría de proveedores. Chat ≈ 1×, clasificación ≈ 0,05×, generación de código 3×, resumen 0,2×.

  3. Establece las llamadas por día

    Coste por llamada × llamadas/día × 30 = proyección mensual. Usa la tabla de comparación para ver qué modelo cabe dentro del presupuesto a tu nivel de tráfico.

  4. Copia la comparación

    Pulsa 'Copiar como tabla Markdown' para pegar la matriz de costes lado a lado en un documento, ticket o mensaje de Slack.

Frequently asked questions

¿Por qué no coinciden exactamente mis conteos de tokens?
Cada familia de modelos usa un tokenizador diferente. Los modelos más nuevos de OpenAI usan o200k_base; GPT-4 Turbo y 3.5 usan cl100k_base; Anthropic incluye su propio tokenizador derivado de SentencePiece; Google usa SentencePiece; Llama usa una variante compatible con tiktoken. El modo 'Pegar texto' usa una heurística de 4 caracteres por token que se sitúa dentro del ±10% de cualquiera de estos para texto en inglés, pero puede desviarse más para código o scripts no latinos. Para una cifra exacta, usa 'Especificar tokens' con el conteo del tokenizador propio de cada proveedor.
¿Por qué la tasa de salida es mayor que la de entrada?
Los tokens de salida se generan secuencialmente y cada uno requiere un pase completo hacia adelante por el modelo — cuestan más cómputo que los tokens de entrada, que se pueden procesar en lote. Los proveedores lo trasladan: la mayoría precio la salida a 3–5 veces la tasa de entrada. Por eso la relación salida:entrada importa tanto para el gasto total.
¿Incluye descuentos de la API por lotes?
No. OpenAI, Anthropic y Google ofrecen endpoints por lotes con aproximadamente un 50% de descuento sobre el precio de lista para cargas de trabajo no en tiempo real. Si puedes tolerar una espera de 24 horas, divide a la mitad las cifras mostradas aquí. El caché de prompts (también 50–90% de descuento en la parte cacheada) también está excluido — modela la parte cacheada por separado.

Herramientas relacionadas