Calculadora de Coste de API LLM
Coste por llamada, proyección mensual, todos los modelos principales en una pantalla.
Los precios entre los principales LLM alojados abarcan dos órdenes de magnitud — GPT-4o cuesta aproximadamente 17 veces más por token de salida que Gemini 1.5 Flash, y Claude Opus está otros 7 veces por encima. Elegir el modelo adecuado es mitad pregunta de presupuesto, mitad pregunta de capacidad. Pega un prompt (o escribe un conteo de tokens si ya lo tienes de nuestro contador de tokens), elige una forma de carga de trabajo, y la calculadora muestra el coste por llamada, una proyección mensual y una comparación lado a lado de todos los modelos de la tabla.
Heuristic token estimate (~4 chars/token for prose). Drop a real prompt — system message + user turn + any tool defs — for the closest cost reading.
- Input tokens
- 42
- Output tokens
- 42
- Per call
- $0.000756
- Per month
- $22.68
Claude 3.5 Sonnet — $3.00 / 1M input, $15.00 / 1M output · context 200k. Output ratio 1×. Monthly = per-call × calls/day × 30.
Compare all models
| Model | Provider | Per call | Per month |
|---|---|---|---|
| Gemini 1.5 Flash | <$0.0001 | $0.4725 | |
| Gemini 2.0 Flash | <$0.0001 | $0.6300 | |
| GPT-4o mini | OpenAI | <$0.0001 | $0.9450 |
| Llama 3.3 70B (Together / Fireworks) | Meta | <$0.0001 | $2.22 |
| GPT-3.5 Turbo | OpenAI | <$0.0001 | $2.52 |
| Claude 3.5 Haiku | Anthropic | $0.000202 | $6.05 |
| Gemini 1.5 Pro | $0.000263 | $7.88 | |
| Llama 3.1 405B (Together / Fireworks) | Meta | $0.000294 | $8.82 |
| GPT-4o | OpenAI | $0.000525 | $15.75 |
| o1-mini | OpenAI | $0.00063 | $18.90 |
| Claude Sonnet 4 | Anthropic | $0.000756 | $22.68 |
| Claude 3.5 Sonnet | Anthropic | $0.000756 | $22.68 |
| GPT-4 Turbo | OpenAI | $0.00168 | $50.40 |
| o1 (reasoning) | OpenAI | $0.00315 | $94.50 |
| Claude Opus 4 | Anthropic | $0.00378 | $113.40 |
Pricing as of . Discounts (batch API, prompt caching, enterprise contracts) and fine-tuning surcharges are not applied — check the vendor’s live pricing page before committing to spend.
How to use
Elige un modo de entrada
Pega el prompt completo (mensaje de sistema + turno de usuario + definiciones de herramientas) para un conteo heurístico de tokens, o cambia a 'Especificar tokens' si ya conoces el conteo de tiktoken o el endpoint count_tokens de Anthropic.
Elige un preset de carga de trabajo
La relación salida:entrada determina gran parte del coste — los tokens de salida son 3–5 veces más caros que los de entrada en la mayoría de proveedores. Chat ≈ 1×, clasificación ≈ 0,05×, generación de código 3×, resumen 0,2×.
Establece las llamadas por día
Coste por llamada × llamadas/día × 30 = proyección mensual. Usa la tabla de comparación para ver qué modelo cabe dentro del presupuesto a tu nivel de tráfico.
Copia la comparación
Pulsa 'Copiar como tabla Markdown' para pegar la matriz de costes lado a lado en un documento, ticket o mensaje de Slack.
Frequently asked questions
- ¿Por qué no coinciden exactamente mis conteos de tokens?
- Cada familia de modelos usa un tokenizador diferente. Los modelos más nuevos de OpenAI usan o200k_base; GPT-4 Turbo y 3.5 usan cl100k_base; Anthropic incluye su propio tokenizador derivado de SentencePiece; Google usa SentencePiece; Llama usa una variante compatible con tiktoken. El modo 'Pegar texto' usa una heurística de 4 caracteres por token que se sitúa dentro del ±10% de cualquiera de estos para texto en inglés, pero puede desviarse más para código o scripts no latinos. Para una cifra exacta, usa 'Especificar tokens' con el conteo del tokenizador propio de cada proveedor.
- ¿Por qué la tasa de salida es mayor que la de entrada?
- Los tokens de salida se generan secuencialmente y cada uno requiere un pase completo hacia adelante por el modelo — cuestan más cómputo que los tokens de entrada, que se pueden procesar en lote. Los proveedores lo trasladan: la mayoría precio la salida a 3–5 veces la tasa de entrada. Por eso la relación salida:entrada importa tanto para el gasto total.
- ¿Incluye descuentos de la API por lotes?
- No. OpenAI, Anthropic y Google ofrecen endpoints por lotes con aproximadamente un 50% de descuento sobre el precio de lista para cargas de trabajo no en tiempo real. Si puedes tolerar una espera de 24 horas, divide a la mitad las cifras mostradas aquí. El caché de prompts (también 50–90% de descuento en la parte cacheada) también está excluido — modela la parte cacheada por separado.
Herramientas relacionadas
- Visualizador de Ventana de Contexto LLMVisualiza el uso de tokens en la ventana de contexto.
- Contador de Tokens y Calculadora de Coste APICuenta tokens y calcula el coste para distintos modelos.
- Calculadora de hipotecaCuota mensual, intereses totales y amortización.
- Interés compuestoCrecimiento del capital con aportaciones periódicas.
- Calculadora de propinaPropina, reparto entre comensales e IVA.
- Calculadora de IVAAñadir o quitar el IVA de un precio.