Skip to content

Compteur de Tokens et Calculateur de Coût API

Tokens dans votre prompt, euros sur votre facture — les deux estimés au fil de la frappe.

Buğra SözeriOutils IA
Updated · Published
Reviewed by Équipe éditoriale Convertitive

Le nombre de tokens et les dépenses API évoluent de manière linéaire. Connaître le nombre à l’avance permet de dimensionner correctement les fenêtres de contexte, de budgétiser les appels API et de repérer les prompts qui ne tiendront pas. Le widget ci-dessous estime le nombre de tokens de manière heuristique (pas de tokeniseur dans le navigateur), applique le résultat aux tarifs actuels par million pour les principaux modèles hébergés et donne un coût par appel basé sur un ratio sortie/entrée choisi.

Characters
219
Words
33
Tokens (est.)
55
Style detected
Prose

Per-call API cost

Estimates assume the input above plus an output of length 1× the input.

Input cost
$0.000165
Output cost
$0.000825
Total per call
$0.00099

Claude Sonnet 4.6 pricing — $3.00 / 1M input, $15.00 / 1M output. Context window: 200k tokens.

Token counts are heuristic (~4 chars / token for prose, ~3.5 for code). Real tokenizer output may differ by ±10% — the ‘exact’ count needs the model’s BPE tables, which we don’t ship in the browser.

How to use

  1. Collez votre prompt

    Tout ce que vous enverriez au modèle — prompt système, message utilisateur, définitions d'outils, etc. Le nombre de tokens et la détection de style se mettent à jour au fil de la frappe.

  2. Choisissez le modèle et le ratio de sortie

    Les tokens de sortie coûtent 3 à 5 fois plus cher que les tokens d'entrée chez la plupart des fournisseurs, donc obtenir le bon ratio est important. 1× est une valeur sûre par défaut pour les réponses courtes ; 0,3× pour les tâches de classification ; 3–5× pour la génération de code.

  3. Lisez la ligne de coût

    Coût d'entrée + coût de sortie = total par appel. Multipliez par votre volume de requêtes attendu pour projeter les dépenses mensuelles.

Frequently asked questions

Pourquoi le comptage n'est-il pas exact ?
La tokenisation exacte nécessite la table BPE / SentencePiece propre au modèle. OpenAI fournit tiktoken ; Anthropic et Google fournissent leurs propres SDK. Charger ces tables dans un navigateur ajouterait ~10 Mo de JavaScript par modèle, ce qui n'en vaut pas la peine pour une estimation rapide. L'heuristique reste dans les 10 % pour le texte anglais et le code.
Comment le style est-il détecté ?
Si plus de 6 % des caractères sont des symboles typiques du code ou du JSON ({ } [ ] < > ; : = ( ) | ", '), le style est classifié comme 'code' et le ratio caractères/token passe de 4 à 3,5. Tout le reste est traité comme de la prose.
Les prix sont-ils à jour ?
Les prix sont mis à jour régulièrement et reflètent le prix public de chaque fournisseur pour l'accès direct à l'API. Les remises (API par lot, mise en cache des prompts, contrats d'entreprise) ne sont pas appliquées. Vérifiez la page de tarification du fournisseur avant de signer un contrat.
Que signifie 'ratio de sortie' ?
La longueur de la réponse du modèle par rapport à votre prompt. Un ratio de 1× signifie que la sortie a à peu près la même longueur que l'entrée. Les tâches de classification ont des ratios de ~0,05 ; la génération de code de 2–5× ; la réécriture longue de 1,5–3×.
Le coût inclut-il la fenêtre de contexte ?
Oui. La facturation moderne de l'API charge chaque token de la conversation, y compris le prompt système, les tours précédents et les définitions d'outils. Faites passer votre prompt complet assemblé dans le widget pour l'estimation la plus précise.
Qu'en est-il de la mise en cache des prompts ?
La plupart des grands fournisseurs proposent désormais un tarif réduit (50–90 % de remise) pour les parties répétées d'un prompt. Cette calculatrice n'applique pas les remises de mise en cache car elles dépendent du taux de succès ; pour un système en production, modélisez la partie mise en cache séparément au prix d'entrée en cache du fournisseur.
Le texte non anglais est-il plus cher ?
Oui, significativement. Les tokeniseurs ont été entraînés principalement sur l'anglais ; les scripts latins non anglais paient une prime de 10–20 % en tokens, et les scripts CJK peuvent payer 2 à 4 fois le taux par caractère. Jusqu'à ce que nous fournissions un vrai tokeniseur, traitez l'heuristique comme une borne inférieure pour le contenu non anglais.

About

Pourquoi des tokens et non des caractères

Les grands modèles de langage facturent des tokens parce que c'est l'unité de calcul. Un tokeniseur BPE découpe le texte en sous-mots : les mots courants sont souvent un seul token, les mots rares ou composés peuvent en être plusieurs. 'Convertitive' par exemple est typiquement 4 tokens, tandis que 'the' est 1 — il n'y a pas de règle propre par caractère ou par mot. L'heuristique ici est un calibrage qui fonctionne parce que, moyenné sur suffisamment de texte, le ratio est stable.

Notes de planification des coûts

Pour un produit de chat attendant 100K conversations par jour avec ~3K tokens d'entrée et ~600 tokens de sortie par tour aux tarifs GPT-4o : 100 000 × 3 000 × 2,50 $ / 1M = 750 $/jour d'entrée, 100 000 × 600 × 10 $ / 1M = 600 $/jour de sortie. Total ≈ 1 350 $/jour ou ~40 000 $/mois. Divisez par deux avec GPT-4o mini, divisez encore par deux avec la mise en cache des prompts.

Outils associés