Skip to content

Glossary

GPT token

L’unité atomique des entrées et sorties LLM

By Published Updated

Un GPT token (plus généralement, un token) est l’unité qu’un grand modèle de langage traite. Les modèles ne voient pas directement les caractères ou les mots — le texte est d’abord tokenisé en une séquence d’identifiants entiers issus d’un vocabulaire fixe, contenant généralement 50 000 à 200 000 tokens.

Les GPT-3, GPT-4 et GPT-5 d’OpenAI utilisent des tokeniseurs BPE (Byte Pair Encoding). Les mots anglais courants constituent généralement un seul token (“the” → 1, “and” → 1) ; les mots plus longs ou plus rares se divisent en plusieurs tokens (“tokenization” → peut-être 3) ; le code se divise bien plus lourdement (identifiants, parenthèses, indentation deviennent chacun leurs propres tokens).

Ratios pratiques :

  • Prose anglaise : ~4 caractères par token, ~0,75 mot par token
  • Code : ~2-3 caractères par token (découpage plus important)
  • Scripts non-latins (chinois, japonais, arabe) : peut être 1 caractère par token ou pire

Les tokens d’entrée et de sortie sont tous facturés. Les tokens de sortie coûtent généralement 3 à 5 fois plus que l’entrée. Utilisez notre compteur de tokens pour une estimation en temps réel sur les modèles GPT, Claude, Gemini et Llama.

La taxe sur les scripts non-latins : un paragraphe en turc, grec ou russe avec le même contenu sémantique qu’en anglais coûte généralement 2 à 3 fois plus de tokens car le tokeniseur a été principalement entraîné sur du texte anglais et retombe sur un découpage au niveau des caractères pour les scripts plus rares. Un paragraphe en chinois peut coûter 4 à 6 fois plus de tokens. Cela se traduit directement en coût — faire tourner le même chatbot en japonais plutôt qu’en anglais peut facilement doubler la facture par conversation. Les tokeniseurs de 2024 (OpenAI o200k_base, le nouveau tokeniseur de Claude) ont ajouté beaucoup plus de tokens non-latins et ont réduit l’écart, mais l’anglais reste la langue la moins chère pour opérer un LLM.

La mise en cache des invites change le calcul : OpenAI, Anthropic et Google proposent tous la mise en cache des invites depuis 2024-25 — les préfixes d’entrée répétés sont facturés à 25-90 % du tarif d’entrée régulier après la première utilisation. Pour les charges de travail chatbot avec des invites système stables et de longs contextes, cela réduit considérablement le coût d’entrée effectif. Le cache est par préfixe (hachage des tokens de tête), donc réordonner le casse ; structurez les invites avec le contenu stable en premier, le contenu dynamique en dernier. Référence : OpenAI tiktoken — le tokeniseur BPE de référence.

Exemple concret : compter les tokens dans une vraie invite

Invite : “Résume la transcription de réunion suivante en trois points clés.” suivi de 2 000 mots de transcription en anglais et d’une demande de résumé en 200 mots. En utilisant le tokeniseur cl100k_base (famille GPT-4, GPT-4o) : l’instruction compte 11 tokens ; 2 000 mots anglais se tokenisent en environ 2 700 tokens ; le modèle renvoie 200 mots ≈ 270 tokens de sortie. Aux tarifs illustratifs GPT-4o 2026 (USD 2,50/M entrée, USD 10/M sortie) : coût entrée 2 711 / 1 000 000 × 2,50 ≈ 0,0068 USD ; coût sortie 270 / 1 000 000 × 10 ≈ 0,0027 USD. Total ≈ 0,95 centime par appel. Traduire la même transcription en japonais (~6 500 tokens avec le même tokeniseur) et le coût par appel triple approximativement — sans que le modèle effectue davantage de raisonnement.

Quand le nombre de tokens compte opérationnellement

Au-delà de la tarification, les tokens déterminent l’adéquation à la fenêtre contextuelle. Un modèle à 128 000 tokens peut contenir environ 96 000 mots anglais, 64 000 lignes de Python, ou 24 000 caractères japonais avant que le contenu plus ancien ne soit évincé. Les pipelines RAG (génération augmentée par récupération) devraient découper les documents sources en fenêtres de 200 à 1 000 tokens pour la qualité des embeddings ; des morceaux trop larges brouillent l’embedding, des morceaux trop petits fragmentent le contenu sémantiquement lié. Outils : tiktoken (OpenAI), @anthropic-ai/tokenizer (Anthropic), AutoTokenizer de Hugging Face (modèles ouverts). Connexes : fenêtre contextuelle, LLM. Contexte : Hugging Face — Résumé du tokeniseur.

Frequently asked questions

Qu’est-ce qu’un GPT token ?
Un token est la plus petite unité qu’un LLM traite — environ 4 caractères anglais ou 0,75 mot. Le texte est découpé en tokens à l’aide d’un tokeniseur (par exemple BPE) avant que le modèle ne le voie.
Combien de tokens utilise un paragraphe typique ?
Un paragraphe anglais moyen de 100 mots est tokenisé en environ 130 à 140 tokens. Le même paragraphe en japonais ou en chinois peut coûter 3 à 6 fois plus de tokens car le tokeniseur a été principalement entraîné sur de l’anglais.
Quelle est la différence entre les tokens d’entrée et de sortie ?
Les tokens d’entrée sont l’invite soumise au modèle ; les tokens de sortie sont la réponse générée. Les tokens de sortie coûtent généralement 3 à 5 fois plus que les tokens d’entrée dans la plupart des grilles tarifaires commerciales.
Pourquoi la mise en cache des invites est-elle importante pour les coûts de tokens ?
Les préfixes d’entrée mis en cache sont facturés à 10 à 25 % du tarif normal lors des appels répétés. Structurer les invites avec des instructions système stables en premier et le contenu dynamique en dernier maximise le taux de cache et peut réduire considérablement les coûts par appel.

Related

Published May 14, 2026 · Last reviewed May 31, 2026