Guide
Comment fonctionne vraiment la tarification des API LLM (et où elle vous surprend)
Les tokens de sortie coûtent 4-5× les tokens d’entrée. Les prompts en cache coûtent 10× moins. La plupart des surprises de facturation viennent d’une mauvaise compréhension de ces deux chiffres.
By Buğra SözeriPublished
Chaque grande API LLM — OpenAI, Anthropic, Google, Meta via le cloud — facture par token. Les pages marketing citent des prix comme « 5 $ par million de tokens d’entrée, 15 $ par million de tokens de sortie. » Les maths semblent simples. Cinq endroits où la facture réelle diverge de l’estimation simple :
1. La sortie coûte 4-5× l’entrée
Chaque modèle frontalier moderne facture significativement plus pour la sortie que pour l’entrée. Ratios typiques au moment de la rédaction : famille OpenAI GPT-4 ~5×, famille Claude ~3-5×, famille Gemini ~4×. L’économie est simple : les tokens d’entrée sont consommés par la passe de traitement de contexte du modèle une fois ; les tokens de sortie sont générés un à la fois à travers des dizaines ou centaines de passes directes.
Implication pratique : les applications de récupération augmentée de contexte long (où vous injectez beaucoup de contexte et demandez une réponse courte) sont moins chères par réponse utile que les applications de longue génération (où le modèle écrit des pages). Si votre facture est élevée et que vous générez peu de sortie, le gonflement d’entrée est la cause. Si vous générez beaucoup de sortie, concentrez-vous d’abord sur des sorties plus courtes.
2. Les prompts en cache sont radicalement moins chers
OpenAI et Anthropic proposent tous deux le cache de prompts : les tokens d’entrée correspondant à un préfixe récemment vu sont facturés à 10-90 % de réduction sur le tarif d’entrée normal. Le cache vit généralement 5-10 minutes. Les taux de correspondance dépendent de la prévisibilité de vos prompts.
Implication pratique : concevez les prompts pour que le préfixe soit stable entre les appels. Mettez les instructions système et tout contexte statique en haut ; mettez la variation par requête de l’utilisateur en bas. Un chatbot avec un prompt système cohérent peut voir les factures d’entrée baisser de 70-90 % grâce aux correspondances de cache sur une conversation multi-tour.
3. Les API batch offrent 50 % de réduction
L’endpoint batch d’OpenAI et l’API de mise en lot de messages d’Anthropic offrent tous deux 50 % de réduction sur le tarif catalogue en échange d’une livraison asynchrone (généralement dans les 24 heures). Pour les charges de travail qui n’ont pas besoin de réponses immédiates — traitement de données de nuit, pipelines de génération de contenu, remplissages d’embeddings — passer au batch représente des économies gratuites de 50 %.
4. Réduisez le niveau des modèles pour les étapes de récupération
Un motif courant en IA de production : une chaîne d’appels de modèles où la première étape est « décider quoi récupérer » et la seconde est « répondre en utilisant ce qui a été récupéré. » L’étape de décision a rarement besoin du modèle le plus intelligent disponible — GPT-4o-mini ou Claude Haiku suffit généralement. Réserver le modèle de niveau frontalier pour l’étape de réponse finale réduit généralement le coût du pipeline de 80-90 % avec un impact minimal sur la qualité.
5. Estimez la longueur de sortie de manière agressive
La principale source de surprises de facturation : vous supposez que le modèle produira une réponse courte ; il en produit une longue. Une limite de sécurité « max_tokens : 4096 » signifie que vous pourriez payer pour 4 096 tokens de sortie par appel. La plupart des API facturent ce qui a été généré, pas ce qui a été demandé, mais l’habitude d’autoriser 4 096 fixe la mauvaise hypothèse budgétaire.
Pratique : réglez max_tokensà environ 1,5× la longueur que vous attendez réellement, pas le maximum que vous toléreriez. Des max_tokens plus bas poussent également le modèle à produire des réponses plus courtes (il s’adapte en fonction du signal budgétaire). Les économies se cumulent.
L’outil d’estimation
Notre compteur de tokens IA estime les tokens d’entrée et calcule le coût par appel sur les principales familles de modèles. Il utilise des heuristiques de ratio de caractères (précision ~10 % pour l’anglais ; moins précis pour le code et les scripts non latins) donc l’estimation est approximative mais utile pour les décisions de dimensionnement.
Exemple concret : un chatbot de support client à 100K conversations/mois
Pipeline concret. Chaque tour utilisateur inclut un prompt système de 3 500 tokens (docs produit, directives de ton, règles de refus), un message utilisateur moyen de 200 tokens et une réponse modèle moyenne de 400 tokens. Les conversations durent en moyenne 4 tours. Par conversation :
- Entrée par tour : 3 500 (système) + historique accumulé + 200 (nouvel utilisateur) ≈ 3 700 au premier tour, croissant jusqu’à ~5 800 au tour 4. Moyenne par tour ~4 750.
- Entrée totale/conversation : 4 × 4 750 = 19 000 tokens d’entrée
- Sortie totale/conversation : 4 × 400 = 1 600 tokens de sortie
Coût naïf avec Claude Sonnet 4 (3 $ par million d’entrée, 15 $ par million de sortie) à 100K conversations :
- Entrée : 100 000 × 19 000 × 3 $ / 1M = 5 700 $
- Sortie : 100 000 × 1 600 × 15 $ / 1M = 2 400 $
- Total : 8 100 $/mois
Appliquez maintenant le cache de prompts. Le prompt système de 3 500 tokens est identique sur tous les 100K × 4 = 400K tours. Avec le cache d’Anthropic (lectures de cache à 0,30 $/M, 90 % de réduction sur l’entrée en cache), seuls les messages utilisateurs et l’historique croissant paient le plein tarif.
- Nouveau coût d’entrée : 420 $ + 1 500 $ = 1 920 $ (contre 5 700 $)
- Sortie inchangée : 2 400 $
- Nouveau total : 4 320 $/mois
Réduction de 47 % avec un seul changement de configuration. Passez les 30 % de conversations simples à Haiku 4.5 à 1 $/5 $ par million, et la facture baisse encore de ~1 000 $ à environ 3 300 $. L’économie totale — 59 % — vient du cache et du tiering, ni l’un ni l’autre n’étant automatique.
Erreurs courantes qui gonflent la facture
- Mettre le message utilisateur en haut du prompt.Les clés de cache hachent à partir du préfixe. Si votre structure de prompt est
[variation utilisateur] [système statique]le cache ne correspond jamais. Mettez toujours les parties statiques en premier. - Régler
max_tokensau plafond du modèle.La plupart des APIs facturent la génération réelle, pas la limite — mais le modèle utilise la limite comme signal de longueur. Réglermax_tokens: 4096quand vous vouliez une réponse de 200 tokens produit des réponses plus longues et une facture plus élevée. - Intégrer chaque document à répétition. Les pipelines de récupération qui ré-intègrent le même corpus à chaque requête paient pour des embeddings qu’ils ont déjà. Mettez les embeddings en cache dans votre magasin vectoriel.
- Utiliser GPT-4 / Opus / Gemini Pro pour la classification.Un classificateur d’intention à 5 classes n’a presque jamais besoin d’un modèle frontalier. Haiku, GPT-4o-mini ou Gemini Flash sont 10-30× moins chers et équivalents en précision pour des tâches sous ~10 tokens de sortie.
- Streamer quand ce n’est pas nécessaire. Le streaming est gratuit en termes de frais supplémentaires, mais chaque token est payé au moment de sa génération. Si vous abandonnez en milieu de stream en raison d’un timeout, vous payez quand même ce qui a été produit. Définissez des timeouts stricts par requête dans votre client.
Quand ce guide ne s’applique pas
- Modèles auto-hébergés / open-weights. Llama, Mistral, Qwen sur vos propres GPU convertissent le coût API par token en coût GPU-heure. L’économie est dominée par l’utilisation (un H100 à 4 $/h gaspillé en temps d’inactivité facture quand même) et non par les tokens.
- Déploiements fine-tunés et à capacité dédiée.Les Provisioned Throughput Units d’OpenAI, la capacité réservée d’Anthropic et le « Provisioned Throughput » de Google facturent tous forfaitairement par mois pour une capacité garantie. À QPS élevé, c’est moins cher que par token ; à QPS faible, beaucoup plus cher.
- Charges de travail embedding uniquement.Les modèles d’embedding sont 100-1000× moins chers que la complétion de chat (généralement 0,02-0,13 $ par million de tokens). Les cinq leviers ci-dessus ne s’appliquent en grande partie pas ; la facture est dominée par la taille du corpus et la fréquence d’embedding.
Pour les définitions des unités sous-jacentes à la facturation, consultez notre entrée de glossaire GPT token et l’entrée fenêtre de contexte. Pour une comparaison de coûts concrète par modèle, le calculateur de coût LLM gère les grilles tarifaires par fournisseur.
Le bilan honnête
À petite échelle (quelques milliers d’appels par mois), la tarification LLM est si bon marché que rien de tout cela n’a d’importance. À moyenne et grande échelle, l’écart entre l’estimation naïve du coût et la facture réelle peut facilement être de 5-10× quand on tient compte du gonflement de sortie, des ratés de cache et de l’utilisation inutile du modèle frontalier. Chacun des cinq leviers ci-dessus peut indépendamment économiser 50-90 % sur des motifs d’appel spécifiques.
Tableau de tarifs par million de tokens (début 2026)
Tarifs des fournisseurs au moment de la rédaction. Les tarifs changent fréquemment ; vérifiez toujours sur la page de tarification du fournisseur avant de vous engager sur un budget.
| Modèle | Entrée ($/M tok) | Sortie ($/M tok) | Entrée en cache |
|---|---|---|---|
| OpenAI GPT-4.1 | 2,00 $ | 8,00 $ | 0,50 $ (75 % off) |
| OpenAI GPT-4.1 mini | 0,40 $ | 1,60 $ | 0,10 $ |
| OpenAI o1 | 15,00 $ | 60,00 $ | 7,50 $ |
| Anthropic Claude Opus 4 | 15,00 $ | 75,00 $ | 1,50 $ (90 % off) |
| Anthropic Claude Sonnet 4 | 3,00 $ | 15,00 $ | 0,30 $ |
| Anthropic Claude Haiku 4.5 | 1,00 $ | 5,00 $ | 0,10 $ |
| Google Gemini 2.5 Pro | 1,25 $ | 10,00 $ | 0,31 $ |
| Google Gemini 2.5 Flash | 0,30 $ | 2,50 $ | 0,075 $ |
Frequently asked questions
- Pourquoi les API LLM facturent-elles plus pour les tokens de sortie que d’entrée ?
- Les tokens d’entrée sont traités en une seule passe parallèle à travers le modèle ; les tokens de sortie sont générés un à la fois à travers des dizaines ou centaines de passes séquentielles. Le coût de calcul par token de sortie est 4-5× plus élevé, ce qui se reflète dans la tarification d’OpenAI, Anthropic et Google.
- Qu’est-ce que le cache de prompts et combien peut-il réduire ma facture API LLM ?
- Le cache de prompts stocke le cache KV pour un préfixe de prompt récemment vu et facture 10-25 % des tarifs normaux d’entrée pour les correspondances de cache. Un chatbot avec un prompt système de 3 500 tokens répété sur 400 000 tours peut réduire les coûts d’entrée de 70-90 % — l’optimisation à plus fort levier pour les charges de travail intensives en entrée.
- De combien l’API batch d’OpenAI ou d’Anthropic réduit-elle les coûts ?
- Les deux API offrent 50 % de réduction sur le tarif catalogue en échange d’une livraison asynchrone dans les 24 heures. Pour les pipelines de traitement de données et les travaux de génération de contenu qui n’ont pas besoin de réponses immédiates, c’est une économie gratuite de 50 %.
- Quel est le coût approximatif d’un chatbot de support client sur Claude Sonnet 4 pour 100 000 conversations par mois ?
- Sans optimisation : environ 8 100 $/mois. Avec cache de prompts sur le prompt système statique : environ 4 320 $/mois (réduction de 47 %). L’ajout du tiering de modèles (routage des conversations simples vers Haiku) réduit encore la facture à environ 3 300 $/mois — une économie totale de 59 %.
- Combien de tokens y a-t-il dans un mot anglais typique ?
- Environ 1,3 token par mot (environ 4 caractères par token) pour la prose anglaise. Le code fait environ 2,5 caractères par token. Les scripts non latins comme le chinois et le japonais font en moyenne 1-2 caractères par token et sont proportionnellement plus chers à traiter.
Related
Published May 14, 2026