Calculateur de Coût d'API LLM
Coût par appel, projection mensuelle, tous les grands modèles sur un seul écran.
Les tarifs des grands LLM hébergés couvrent deux ordres de grandeur — GPT-4o coûte environ 17 fois plus par token de sortie que Gemini 1.5 Flash, et Claude Opus est encore 7 fois au-dessus. Choisir le bon modèle est à moitié une question de budget, à moitié une question de capacité. Collez un prompt (ou entrez un nombre de tokens si vous l'avez déjà depuis notre compteur de tokens), choisissez un profil de charge, et le calculateur affiche le coût par appel, une projection mensuelle et une comparaison côte à côte de tous les modèles du tableau.
Heuristic token estimate (~4 chars/token for prose). Drop a real prompt — system message + user turn + any tool defs — for the closest cost reading.
- Input tokens
- 42
- Output tokens
- 42
- Per call
- $0.000756
- Per month
- $22.68
Claude 3.5 Sonnet — $3.00 / 1M input, $15.00 / 1M output · context 200k. Output ratio 1×. Monthly = per-call × calls/day × 30.
Compare all models
| Model | Provider | Per call | Per month |
|---|---|---|---|
| Gemini 1.5 Flash | <$0.0001 | $0.4725 | |
| Gemini 2.0 Flash | <$0.0001 | $0.6300 | |
| GPT-4o mini | OpenAI | <$0.0001 | $0.9450 |
| Llama 3.3 70B (Together / Fireworks) | Meta | <$0.0001 | $2.22 |
| GPT-3.5 Turbo | OpenAI | <$0.0001 | $2.52 |
| Claude 3.5 Haiku | Anthropic | $0.000202 | $6.05 |
| Gemini 1.5 Pro | $0.000263 | $7.88 | |
| Llama 3.1 405B (Together / Fireworks) | Meta | $0.000294 | $8.82 |
| GPT-4o | OpenAI | $0.000525 | $15.75 |
| o1-mini | OpenAI | $0.00063 | $18.90 |
| Claude Sonnet 4 | Anthropic | $0.000756 | $22.68 |
| Claude 3.5 Sonnet | Anthropic | $0.000756 | $22.68 |
| GPT-4 Turbo | OpenAI | $0.00168 | $50.40 |
| o1 (reasoning) | OpenAI | $0.00315 | $94.50 |
| Claude Opus 4 | Anthropic | $0.00378 | $113.40 |
Pricing as of . Discounts (batch API, prompt caching, enterprise contracts) and fine-tuning surcharges are not applied — check the vendor’s live pricing page before committing to spend.
How to use
Choisissez un mode d'entrée
Collez le prompt complet (message système + tour utilisateur + définitions d'outils) pour un comptage heuristique de tokens, ou passez en mode 'Spécifier les tokens' si vous connaissez déjà le compte depuis tiktoken ou l'endpoint count_tokens d'Anthropic.
Choisissez un preset de charge de travail
Le ratio sortie:entrée détermine une grande partie du coût — les tokens de sortie sont 3 à 5 fois plus chers que les tokens d'entrée chez la plupart des fournisseurs. Chat ≈ 1×, classification ≈ 0,05×, génération de code 3×, résumé 0,2×.
Définissez les appels par jour
Coût par appel × appels/jour × 30 = projection mensuelle. Utilisez le tableau de comparaison pour voir quel modèle reste dans le budget à votre niveau de trafic.
Copiez la comparaison
Cliquez sur 'Copier en tableau Markdown' pour coller la matrice de coûts côte à côte dans un document, un ticket ou un message Slack.
Frequently asked questions
- Pourquoi mes comptages de tokens ne correspondent-ils pas exactement ?
- Chaque famille de modèles utilise un tokenizer différent. Les modèles plus récents d'OpenAI utilisent o200k_base ; GPT-4 Turbo et 3.5 utilisent cl100k_base ; Anthropic fournit son propre tokenizer dérivé de SentencePiece ; Google utilise SentencePiece ; Llama utilise une variante compatible tiktoken. Le mode 'Coller du texte' utilise une heuristique de 4 caractères par token qui se situe dans ±10% de n'importe lequel de ces tokenizers pour du texte en anglais, mais peut dériver davantage pour du code ou des scripts non-latins. Pour un chiffre exact, utilisez 'Spécifier les tokens' avec le comptage du tokenizer de chaque fournisseur.
- Pourquoi le tarif de sortie est-il plus élevé que le tarif d'entrée ?
- Les tokens de sortie sont générés séquentiellement et chacun nécessite un passage complet en avant dans le modèle — ils coûtent plus de calcul que les tokens d'entrée, qui peuvent être traités en lot. Les fournisseurs répercutent cela : la plupart facturent la sortie à 3–5 fois le tarif d'entrée. C'est pourquoi le ratio sortie:entrée est si important pour les dépenses totales.
- Cela inclut-il les remises de l'API batch ?
- Non. OpenAI, Anthropic et Google proposent des endpoints batch à environ 50% de réduction sur le prix catalogue pour les charges de travail non-temps-réel. Si vous pouvez tolérer un délai de traitement de 24 heures, divisez par deux les chiffres présentés ici. Le cache de prompts (également 50–90% de réduction sur la partie mise en cache) est également exclu — modélisez la partie mise en cache séparément.
Outils associés
- Visualisateur de Fenêtre de Contexte LLMVisualiser l'utilisation de la fenêtre de contexte LLM.
- Compteur de Tokens et Calculateur de Coût APICompter les tokens et calculer le coût d'inférence API.
- Crédit immobilierMensualité, intérêts totaux et coût du prêt.
- Intérêts composésCroissance du capital avec versements réguliers.
- PourboireCalculer le pourboire et le partager.
- TVAAjouter ou retirer la TVA d'un montant.