Skip to content

Calculateur de Coût d'API LLM

Coût par appel, projection mensuelle, tous les grands modèles sur un seul écran.

Buğra SözeriIA
Updated · Published
Reviewed by Convertitive

Les tarifs des grands LLM hébergés couvrent deux ordres de grandeur — GPT-4o coûte environ 17 fois plus par token de sortie que Gemini 1.5 Flash, et Claude Opus est encore 7 fois au-dessus. Choisir le bon modèle est à moitié une question de budget, à moitié une question de capacité. Collez un prompt (ou entrez un nombre de tokens si vous l'avez déjà depuis notre compteur de tokens), choisissez un profil de charge, et le calculateur affiche le coût par appel, une projection mensuelle et une comparaison côte à côte de tous les modèles du tableau.

Heuristic token estimate (~4 chars/token for prose). Drop a real prompt — system message + user turn + any tool defs — for the closest cost reading.

Input tokens
42
Output tokens
42
Per call
$0.000756
Per month
$22.68

Claude 3.5 Sonnet — $3.00 / 1M input, $15.00 / 1M output · context 200k. Output ratio 1×. Monthly = per-call × calls/day × 30.

Compare all models

ModelProviderPer callPer month
Gemini 1.5 FlashGoogle<$0.0001$0.4725
Gemini 2.0 FlashGoogle<$0.0001$0.6300
GPT-4o miniOpenAI<$0.0001$0.9450
Llama 3.3 70B (Together / Fireworks)Meta<$0.0001$2.22
GPT-3.5 TurboOpenAI<$0.0001$2.52
Claude 3.5 HaikuAnthropic$0.000202$6.05
Gemini 1.5 ProGoogle$0.000263$7.88
Llama 3.1 405B (Together / Fireworks)Meta$0.000294$8.82
GPT-4oOpenAI$0.000525$15.75
o1-miniOpenAI$0.00063$18.90
Claude Sonnet 4Anthropic$0.000756$22.68
Claude 3.5 SonnetAnthropic$0.000756$22.68
GPT-4 TurboOpenAI$0.00168$50.40
o1 (reasoning)OpenAI$0.00315$94.50
Claude Opus 4Anthropic$0.00378$113.40

Pricing as of . Discounts (batch API, prompt caching, enterprise contracts) and fine-tuning surcharges are not applied — check the vendor’s live pricing page before committing to spend.

How to use

  1. Choisissez un mode d'entrée

    Collez le prompt complet (message système + tour utilisateur + définitions d'outils) pour un comptage heuristique de tokens, ou passez en mode 'Spécifier les tokens' si vous connaissez déjà le compte depuis tiktoken ou l'endpoint count_tokens d'Anthropic.

  2. Choisissez un preset de charge de travail

    Le ratio sortie:entrée détermine une grande partie du coût — les tokens de sortie sont 3 à 5 fois plus chers que les tokens d'entrée chez la plupart des fournisseurs. Chat ≈ 1×, classification ≈ 0,05×, génération de code 3×, résumé 0,2×.

  3. Définissez les appels par jour

    Coût par appel × appels/jour × 30 = projection mensuelle. Utilisez le tableau de comparaison pour voir quel modèle reste dans le budget à votre niveau de trafic.

  4. Copiez la comparaison

    Cliquez sur 'Copier en tableau Markdown' pour coller la matrice de coûts côte à côte dans un document, un ticket ou un message Slack.

Frequently asked questions

Pourquoi mes comptages de tokens ne correspondent-ils pas exactement ?
Chaque famille de modèles utilise un tokenizer différent. Les modèles plus récents d'OpenAI utilisent o200k_base ; GPT-4 Turbo et 3.5 utilisent cl100k_base ; Anthropic fournit son propre tokenizer dérivé de SentencePiece ; Google utilise SentencePiece ; Llama utilise une variante compatible tiktoken. Le mode 'Coller du texte' utilise une heuristique de 4 caractères par token qui se situe dans ±10% de n'importe lequel de ces tokenizers pour du texte en anglais, mais peut dériver davantage pour du code ou des scripts non-latins. Pour un chiffre exact, utilisez 'Spécifier les tokens' avec le comptage du tokenizer de chaque fournisseur.
Pourquoi le tarif de sortie est-il plus élevé que le tarif d'entrée ?
Les tokens de sortie sont générés séquentiellement et chacun nécessite un passage complet en avant dans le modèle — ils coûtent plus de calcul que les tokens d'entrée, qui peuvent être traités en lot. Les fournisseurs répercutent cela : la plupart facturent la sortie à 3–5 fois le tarif d'entrée. C'est pourquoi le ratio sortie:entrée est si important pour les dépenses totales.
Cela inclut-il les remises de l'API batch ?
Non. OpenAI, Anthropic et Google proposent des endpoints batch à environ 50% de réduction sur le prix catalogue pour les charges de travail non-temps-réel. Si vous pouvez tolérer un délai de traitement de 24 heures, divisez par deux les chiffres présentés ici. Le cache de prompts (également 50–90% de réduction sur la partie mise en cache) est également exclu — modélisez la partie mise en cache séparément.

Outils associés