Glossary
LLM
Grand modèle de langage
By Buğra SözeriPublished Updated
LLM (Large Language Model — Grand Modèle de Langage) est un réseau de neurones entraîné sur de vastes quantités de texte — typiquement des centaines de milliards de mots — pour prédire le prochain token dans une séquence à partir du contexte précédent. Le « grand » fait référence au nombre de paramètres : les LLM frontières modernes vont de 100 milliards à 2+ billions de paramètres.
Architecture sous-jacente : transformer (Vaswani et al., 2017), avec des variations sur la division encodeur-décodeur originale. La famille GPT est décodeur uniquement ; le BERT original était encodeur uniquement ; T5 conserve les deux. Les modèles frontières depuis 2020 sont massivement décodeur uniquement.
Pipeline d’entraînement : pré-entraînement sur un large corpus de texte pour apprendre les statistiques du langage, suivi d’un ajustement aux instructions et d’un apprentissage par renforcement à partir du feedback humain (RLHF) ou du feedback IA (RLAIF) pour rendre le modèle utile à suivre des instructions.
Principales familles de LLM en 2026 : GPT d’OpenAI (3.5, 4, 4o, 5), Claude d’Anthropic (3.5 Sonnet, 4, 4.6, 4.7), Gemini de Google (1.5, 2, 2.5), Llama de Meta (2, 3, 4), et plusieurs alternatives à poids ouvert (Mistral, Qwen, DeepSeek). Comparez les prix des API dans notre compteur de tokens.
Ce que sont et ne sont pas les LLM, mécaniquement : à l’inférence, un LLM est une fonction d’une séquence de tokens vers une distribution de probabilité sur le prochain token. La génération échantillonne depuis cette distribution (avec des contrôles de température, top-p et top-k), ajoute le token choisi et répète. Il n’y a pas de « module de raisonnement » au sens classique — chaque sortie, qu’il s’agisse d’une preuve mathématique ou d’un poème, provient de la même boucle de token suivant. Le prompting en chaîne de pensée fonctionne parce qu’écrire le raisonnement dans le contexte permet au modèle de conditionner les tokens ultérieurs sur ses propres étapes intermédiaires, pas parce qu’il déclenche un mode d’inférence différent. L’illusion de raisonnement est un effet secondaire de l’entraînement sur une distribution énorme de texte humain qui contient déjà du raisonnement.
Pourquoi la fenêtre de contexte et la tokenisation importent pour le coût : chaque appel API est facturé par token en entrée et par token en sortie, et un modèle avec une fenêtre de contexte de 200 K tokens facture quelle que soit la fraction que vous remplissez réellement. Un PDF de 50 pages injecté dans le prompt peut coûter quelques centimes à lire et quelques centimes pour générer un résumé d’un paragraphe — l’essentiel de la facture est l’entrée. La tokenisation est spécifique au fournisseur : le BPE de GPT, le SentencePiece de Claude et le tokeniseur de Gemini produisent des nombres de tokens différents pour le même texte, donc le modèle le moins cher en $/token n’est pas nécessairement le moins cher en pratique. Utilisez notre compteur de tokens pour comparer les nombres de tokens réels entre fournisseurs avant de vous engager. Voir aussi : token GPT, fenêtre de contexte.
Exemple de calcul
Vous voulez résumer un contrat juridique de 40 pages (~25 000 mots ≈ 33 000 tokens) avec un modèle frontière tarifé à 3 $/million de tokens en entrée et 15 $/million en sortie, demandant un résumé de 500 tokens. Coût d’entrée : 33 000 / 1 000 000 × 3 $ = 0,099 $. Coût de sortie : 500 / 1 000 000 × 15 $ = 0,0075 $. Total : ~0,107 $ par résumé. Imaginez maintenant faire cela pour 10 000 contrats : 1 070 $ — et c’est avant les nouvelles tentatives, les économies de groupage ou les remises de mise en cache de prompt. Si vous utilisez plutôt un modèle moins cher à 0,25 $/1,25 $ par million, le coût par document tombe à environ 0,0095 $, total ~95 $ pour le même travail. L’arithmétique explique pourquoi les systèmes LLM en production acheminent les tâches faciles vers les petits modèles et réservent le modèle frontière pour les 5 % les plus difficiles.
Quand et pourquoi c’est important
Savoir comment fonctionnent les LLM évite les échecs de production les plus courants. Ils n’ont pas de mémoire entre les appels API — chaque requête doit porter l’historique pertinent dans la fenêtre de contexte ou utiliser un système de récupération séparé. Ils confabulent des faits faussement formatés mais incorrects, particulièrement pour les événements récents, les attributs d’entités nommées et les citations ; les mitigations standard sont la génération augmentée par récupération (RAG), l’utilisation d’outils et les vérifications d’ancrage par affirmation. Ils sont sensibles à la formulation du prompt de manière non évidente — « réfléchissez étape par étape » modifie significativement la précision sur les tâches arithmétiques et logiques, et les exemples en peu de coups peuvent faire basculer les réponses plus que le choix du modèle. Référence : Vaswani et al. — Attention Is All You Need (l’article sur le transformer).
Frequently asked questions
- Qu’est-ce qu’un grand modèle de langage (LLM) ?
- Un LLM est un réseau de neurones entraîné sur de grandes quantités de texte pour prédire et générer du langage. Des modèles comme GPT-4, Claude et Gemini ont des milliards de paramètres et peuvent répondre à des questions, écrire du code, résumer des documents et effectuer de nombreuses tâches linguistiques.
- Comment un LLM génère-t-il du texte ?
- Un LLM produit du texte un token à la fois en échantillonnant depuis une distribution de probabilité sur son vocabulaire, conditionnée sur tous les tokens précédents dans la conversation. Ce processus autorégressif continue jusqu’à ce qu’un token de fin de séquence soit produit ou qu’une limite de longueur soit atteinte.
- Quelle est la différence entre un LLM et un chatbot ?
- Un LLM est le modèle sous-jacent ; un chatbot est un produit construit par-dessus. Le même LLM peut alimenter plusieurs interfaces — chat, API, plugin IDE — chacune avec des prompts système, des couches de sécurité et une UX différents, tout en partageant les mêmes poids de modèle de base.
- Qu’est-ce qui limite la quantité de contexte qu’un LLM peut traiter ?
- La fenêtre de contexte — mesurée en tokens — définit la longueur combinée maximale des entrées et sorties que le modèle peut gérer en un seul appel d’inférence. Des contextes plus longs augmentent le coût mémoire et de calcul de manière quadratique pour les modèles basés sur l’attention, c’est pourquoi la taille de la fenêtre de contexte est une spécification clé.
Related
Published May 14, 2026 · Last reviewed May 31, 2026