Data study

Tarification des API LLM en juin 2026 : détail des coûts tokens d'entrée et de sortie

Les tokens de sortie coûtent 3 à 6 fois plus cher que les tokens d’entrée dans la plupart des modèles de pointe. Le ratio importe autant que le prix absolu.

By Buğra SözeriPublished May 31, 2026

La tarification des API LLM suit une structure cohérente : vous payez séparément les tokens d’entrée (votre prompt) et les tokens de sortie (la réponse du modèle). Les tokens de sortie sont presque toujours plus chers que les tokens d’entrée car chaque token de sortie généré nécessite une passe complète vers l’avant à travers le modèle, tandis que les tokens d’entrée sont traités en parallèle. Comprendre le ratio importe autant que le prix affiché.

Utilisez notre calculateur de coût LLM pour estimer les coûts selon vos longueurs spécifiques de prompt et de réponse en utilisant les prix de ce tableau.

Tableau de tarification — juin 2026

Tous les prix sont en USD par million de tokens ($/1M). Les prix proviennent de la page de tarification publique de chaque fournisseur en juin 2026 et sont sujets à modification. La tarification API standard (hors lot, hors cache) est affichée.

Modèle	Fournisseur	Entrée $/1M	Sortie $/1M	Ratio sortie/entrée	Fenêtre de contexte
GPT-4o	OpenAI	2,50 $	10,00 $	4,0×	128K
GPT-4o mini	OpenAI	0,15 $	0,60 $	4,0×	128K
GPT-4.1	OpenAI	2,00 $	8,00 $	4,0×	1M
o3	OpenAI	10,00 $	40,00 $	4,0×	200K
o4-mini	OpenAI	1,10 $	4,40 $	4,0×	200K
Claude Sonnet 4	Anthropic	3,00 $	15,00 $	5,0×	200K
Claude Haiku 3.5	Anthropic	0,80 $	4,00 $	5,0×	200K
Gemini 2.5 Pro	Google	1,25 $	10,00 $	8,0×	1M
Gemini 2.5 Flash	Google	0,15 $	0,60 $	4,0×	1M
Gemini 1.5 Flash	Google	0,075 $	0,30 $	4,0×	1M
Llama 3.3 70B (Together)	Together.ai	0,18 $	0,18 $	1,0×	128K
Llama 3.1 405B (Together)	Together.ai	3,50 $	3,50 $	1,0×	128K
Mistral Large 2	Mistral	2,00 $	6,00 $	3,0×	128K
Mistral Small 3.1	Mistral	0,10 $	0,30 $	3,0×	128K
Command R+	Cohere	2,50 $	10,00 $	4,0×	128K

Prix vérifiés sur les pages de tarification des fournisseurs en juin 2026. Vérifiez toujours la page de tarification actuelle du fournisseur avant de vous engager sur un budget de production.

Analyse du ratio sortie/entrée

Le ratio coût sortie/entrée révèle la philosophie de tarification de chaque fournisseur. Quatre tendances sont visibles dans les données :

Ratio 4× (OpenAI, Gemini Flash, Cohere). Le ratio le plus courant. Reflète l’asymétrie calculatoire de la génération autoregressive vs le prefill parallèle.
Ratio 5× (Anthropic Claude). Anthropic facture une prime de sortie plus élevée, cohérente avec ses benchmarks de sorties en moyenne plus longues et ses capacités de réflexion étendue.
Ratio 8× (Gemini 2.5 Pro). Le ratio le plus élevé de notre tableau — la prime de sortie de Gemini 2.5 Pro reflète son raisonnement étendu et ses capacités de génération en contexte long.
Ratio 1× (Meta Llama via Together.ai). Les modèles à poids ouverts hébergés chez des fournisseurs d’inférence facturent souvent le même tarif pour l’entrée et la sortie, traitant les tokens comme une unité de calcul de commodité plutôt que de différencier selon la direction de génération.

Pour les charges de travail où la sortie est longue par rapport à l’entrée (p. ex., génération de documents, synthèse de code, résumé), le taux de token de sortie domine le coût total. Pour les pipelines RAG avec de grandes fenêtres de contexte et des réponses courtes, c’est le taux d’entrée qui domine.

Coût pour 10 000 tokens

10 000 tokens représentent environ 7 500 mots de prose anglaise — un court article, un fichier de code moyen, ou une conversation multi-tours. À 100 tokens de sortie pour 1 000 tokens d’entrée (ratio typique de style RAG) :

Modèle	Coût / 10K tokens d’entrée	Coût / 10K tokens de sortie	Coût pour 10K entrée + 1K sortie
GPT-4o	0,025 $	0,100 $	0,026 $
GPT-4o mini	0,0015 $	0,006 $	0,00156 $
Claude Sonnet 4	0,030 $	0,150 $	0,0315 $
Gemini 2.5 Flash	0,0015 $	0,006 $	0,00156 $
Gemini 1.5 Flash	0,00075 $	0,003 $	0,00078 $
Llama 3.3 70B (Together)	0,0018 $	0,0018 $	0,00198 $
Mistral Large 2	0,020 $	0,060 $	0,026 $
o3	0,100 $	0,400 $	0,104 $

Utilisez le calculateur de coût LLM pour modéliser votre ratio prompt/sortie réel et comparer le coût mensuel total entre fournisseurs.

Observations clés

Le moins cher par token (entrée) :Gemini 1.5 Flash à 0,075 $/1M — moins d’un centième de cent pour 1 000 tokens.
Le plus cher par token (sortie) : o3 à 40 $/1M en sortie — 533 fois plus cher que la sortie Gemini 1.5 Flash à 0,30 $/1M.
Meilleure parité de coût (entrée = sortie) : Meta Llama 3.3 70B via Together.ai à 0,18 $/1M dans les deux sens. Adapté aux charges de travail symétriques.
Meilleur coût pour le RAG en contexte long :Gemini 1.5 Flash — à la fois le prix d’entrée le plus bas et une fenêtre de contexte de 1M tokens.
Les remises de cache de prompt(non affichées) peuvent réduire les coûts effectifs d’entrée de 50 à 90 % pour les prompts système répétés. Anthropic, OpenAI (API Batch) et Google proposent tous des remises de cache ou de lot qui modifient sensiblement l’économie pour les usages en production à fort volume.

Limites et mises en garde

Les prix changent fréquemment.La tarification des API LLM a baissé d’environ 10× par an pour des capacités comparables depuis 2023. Les valeurs de ce tableau reflètent la tarification publique en juin 2026 et peuvent déjà être obsolètes au moment de la lecture.
La qualité n’est pas égale. Un prix plus bas par token ne signifie pas un coût total inférieur si le modèle nécessite des prompts plus longs pour des performances équivalentes, davantage de tentatives ou un post-traitement.
Le débit et la latence varient.Le faible prix de Gemini 1.5 Flash s’accompagne de limites de quota partagées ; le débit provisionné sur GPT-4o coûte plus par token mais garantit la capacité.
Les tokens de fine-tuning, d’embedding et d’image sont exclus. Ce tableau couvre uniquement la génération de texte.

Sources

Page de tarification OpenAI (openai.com/api/pricing) ; tarification API Anthropic (anthropic.com/pricing) ; tarification Google AI Studio et Vertex AI (ai.google.dev/pricing) ; tarification Together.ai (together.ai/pricing) ; tarification Mistral AI (mistral.ai/technology) ; tarification Cohere (cohere.com/pricing). Tous les prix vérifiés en juin 2026.

Published May 31, 2026