Pourquoi mes comptages de tokens ne correspondent-ils pas exactement ?

Chaque famille de modèles utilise un tokenizer différent. Les modèles plus récents d'OpenAI utilisent o200k_base ; GPT-4 Turbo et 3.5 utilisent cl100k_base ; Anthropic fournit son propre tokenizer dérivé de SentencePiece ; Google utilise SentencePiece ; Llama utilise une variante compatible tiktoken. Le mode 'Coller du texte' utilise une heuristique de 4 caractères par token qui se situe dans ±10% de n'importe lequel de ces tokenizers pour du texte en anglais, mais peut dériver davantage pour du code ou des scripts non-latins. Pour un chiffre exact, utilisez 'Spécifier les tokens' avec le comptage du tokenizer de chaque fournisseur.

Pourquoi le tarif de sortie est-il plus élevé que le tarif d'entrée ?

Les tokens de sortie sont générés séquentiellement et chacun nécessite un passage complet en avant dans le modèle — ils coûtent plus de calcul que les tokens d'entrée, qui peuvent être traités en lot. Les fournisseurs répercutent cela : la plupart facturent la sortie à 3–5 fois le tarif d'entrée. C'est pourquoi le ratio sortie:entrée est si important pour les dépenses totales.

Cela inclut-il les remises de l'API batch ?

Non. OpenAI, Anthropic et Google proposent des endpoints batch à environ 50% de réduction sur le prix catalogue pour les charges de travail non-temps-réel. Si vous pouvez tolérer un délai de traitement de 24 heures, divisez par deux les chiffres présentés ici. Le cache de prompts (également 50–90% de réduction sur la partie mise en cache) est également exclu — modélisez la partie mise en cache séparément.

Calculateur de Coût d'API LLM

Coût par appel, projection mensuelle, tous les grands modèles sur un seul écran.

Buğra SözeriIA

Updated June 10, 2026 · Published June 10, 2026

Reviewed by Convertitive

Les tarifs des grands LLM hébergés couvrent deux ordres de grandeur — GPT-4o coûte environ 17 fois plus par token de sortie que Gemini 1.5 Flash, et Claude Opus est encore 7 fois au-dessus. Choisir le bon modèle est à moitié une question de budget, à moitié une question de capacité. Collez un prompt (ou entrez un nombre de tokens si vous l'avez déjà depuis notre compteur de tokens), choisissez un profil de charge, et le calculateur affiche le coût par appel, une projection mensuelle et une comparaison côte à côte de tous les modèles du tableau.

Prompt text

Heuristic token estimate (~4 chars/token for prose). Drop a real prompt — system message + user turn + any tool defs — for the closest cost reading.

Workload preset

Model

Calls per day

Input tokens: 42
Output tokens: 42
Per call: $0.000756
Per month: $22.68

Claude 3.5 Sonnet — $3.00 / 1M input, $15.00 / 1M output · context 200k. Output ratio 1×. Monthly = per-call × calls/day × 30.

Compare all models

Model	Provider	Per call	Per month
Gemini 1.5 Flash	Google	<$0.0001	$0.4725
Gemini 2.0 Flash	Google	<$0.0001	$0.6300
GPT-4o mini	OpenAI	<$0.0001	$0.9450
Llama 3.3 70B (Together / Fireworks)	Meta	<$0.0001	$2.22
GPT-3.5 Turbo	OpenAI	<$0.0001	$2.52
Claude 3.5 Haiku	Anthropic	$0.000202	$6.05
Gemini 1.5 Pro	Google	$0.000263	$7.88
Llama 3.1 405B (Together / Fireworks)	Meta	$0.000294	$8.82
GPT-4o	OpenAI	$0.000525	$15.75
o1-mini	OpenAI	$0.00063	$18.90
Claude Sonnet 4	Anthropic	$0.000756	$22.68
Claude 3.5 Sonnet	Anthropic	$0.000756	$22.68
GPT-4 Turbo	OpenAI	$0.00168	$50.40
o1 (reasoning)	OpenAI	$0.00315	$94.50
Claude Opus 4	Anthropic	$0.00378	$113.40

Pricing as of 2026-05-30. Discounts (batch API, prompt caching, enterprise contracts) and fine-tuning surcharges are not applied — check the vendor’s live pricing page before committing to spend.

How to use

Choisissez un mode d'entrée
Collez le prompt complet (message système + tour utilisateur + définitions d'outils) pour un comptage heuristique de tokens, ou passez en mode 'Spécifier les tokens' si vous connaissez déjà le compte depuis tiktoken ou l'endpoint count_tokens d'Anthropic.
Choisissez un preset de charge de travail
Le ratio sortie:entrée détermine une grande partie du coût — les tokens de sortie sont 3 à 5 fois plus chers que les tokens d'entrée chez la plupart des fournisseurs. Chat ≈ 1×, classification ≈ 0,05×, génération de code 3×, résumé 0,2×.
Définissez les appels par jour
Coût par appel × appels/jour × 30 = projection mensuelle. Utilisez le tableau de comparaison pour voir quel modèle reste dans le budget à votre niveau de trafic.
Copiez la comparaison
Cliquez sur 'Copier en tableau Markdown' pour coller la matrice de coûts côte à côte dans un document, un ticket ou un message Slack.

Frequently asked questions

Pourquoi mes comptages de tokens ne correspondent-ils pas exactement ?: Chaque famille de modèles utilise un tokenizer différent. Les modèles plus récents d'OpenAI utilisent o200k_base ; GPT-4 Turbo et 3.5 utilisent cl100k_base ; Anthropic fournit son propre tokenizer dérivé de SentencePiece ; Google utilise SentencePiece ; Llama utilise une variante compatible tiktoken. Le mode 'Coller du texte' utilise une heuristique de 4 caractères par token qui se situe dans ±10% de n'importe lequel de ces tokenizers pour du texte en anglais, mais peut dériver davantage pour du code ou des scripts non-latins. Pour un chiffre exact, utilisez 'Spécifier les tokens' avec le comptage du tokenizer de chaque fournisseur.
Pourquoi le tarif de sortie est-il plus élevé que le tarif d'entrée ?: Les tokens de sortie sont générés séquentiellement et chacun nécessite un passage complet en avant dans le modèle — ils coûtent plus de calcul que les tokens d'entrée, qui peuvent être traités en lot. Les fournisseurs répercutent cela : la plupart facturent la sortie à 3–5 fois le tarif d'entrée. C'est pourquoi le ratio sortie:entrée est si important pour les dépenses totales.
Cela inclut-il les remises de l'API batch ?: Non. OpenAI, Anthropic et Google proposent des endpoints batch à environ 50% de réduction sur le prix catalogue pour les charges de travail non-temps-réel. Si vous pouvez tolérer un délai de traitement de 24 heures, divisez par deux les chiffres présentés ici. Le cache de prompts (également 50–90% de réduction sur la partie mise en cache) est également exclu — modélisez la partie mise en cache séparément.

Calculateur de Coût d'API LLM

Compare all models

How to use

Choisissez un mode d'entrée

Choisissez un preset de charge de travail

Définissez les appels par jour

Copiez la comparaison

Frequently asked questions

Outils associés