Glossary
Mode
La valeur la plus fréquente
By Buğra SözeriPublished Updated
Mode est la valeur la plus fréquente dans un ensemble de données. Pour [1, 2, 2, 3, 4, 4, 4, 5] le mode est 4 (apparaît trois fois ; aucune autre valeur ne le fait). C’est la seule mesure de tendance centrale qui fonctionne pour des données non numériques — le mode de [« rouge », « bleu », « rouge », « vert », « rouge »] est « rouge ».
Trois cas spéciaux :
- Unimodal — exactement une valeur la plus fréquente. Le cas standard.
- Bimodal — deux valeurs sont ex aequo pour la plus fréquente. Implique une distribution de population mixte (par exemple, les tailles des hommes adultes + femmes combinées produisent une distribution bimodale).
- Pas de mode — chaque valeur apparaît exactement une fois. Le mode est techniquement indéfini ; certaines conventions rapportent « aucun mode », d’autres rapportent chaque valeur comme un mode.
Utilisez le mode quand : les données sont catégorielles (couleurs, marques, types) ou que vous vous intéressez spécifiquement à la valeur la plus courante, et non à la tendance centrale. Pour des données numériques sans valeurs répétées (tailles, salaires), le mode est peu utile — utilisez la moyenne ou la médiane.
Notre calculateur statistique rapporte le mode avec la moyenne et la médiane, gérant le cas bimodal en listant toutes les valeurs les plus fréquentes.
Pourquoi les distributions bimodales sont un diagnostic, pas juste une curiosité : quand un histogramme de données continues montre deux pics distincts, cela signifie presque toujours que l’ensemble de données est un mélange de deux populations sous-jacentes. L’exemple classique est la taille des humains adultes — regrouper hommes et femmes produit une courbe bimodale ; séparer par sexe produit deux courbes unimodales propres. La bimodalité dans les distributions de dépenses clients signifie généralement un mélange d’un niveau gratuit et d’un niveau payant. La bimodalité dans les distributions de temps de réponse signifie souvent qu’un chemin rapide et un chemin lent (hit de cache vs miss de cache) nécessitent un traitement séparé. Rapporter la moyenne globale sur une distribution bimodale est rarement utile — ajustez un modèle de mélange ou segmentez d’abord.
Le mode pour les données continues — estimation par noyau : dans un ensemble de données continu où les répétitions de valeur exactes sont rares, le « mode » est généralement défini comme le pic de l’estimation de densité par noyau (KDE) plutôt que la valeur brute la plus fréquente. Les packages statistiques (density() de R, gaussian_kde de scipy en Python) calculent des KDE par défaut à cet effet. Le paramètre de bande passante — à quel point la contribution de chaque point de données à la densité se répand — est le principal levier, et la règle de Silverman fonctionne bien pour les données unimodales. Pour les données bimodales, choisissez une bande passante suffisamment petite pour que les deux pics restent résolus. Connexe : moyenne, médiane. Référence : NIST/SEMATECH e-Handbook — Mesures de tendance centrale.
Exemple concret
Un détaillant de vêtements enregistre les tailles vendues sur 200 transactions : {XS: 12, S: 38, M: 64, L: 51, XL: 28, XXL: 7}. Mode = M (64 occurrences). Le mode est la seule statistique qui résume de manière significative cette colonne — « taille moyenne » ou « taille médiane » nécessitent d’encoder XS-XXL en nombres, et tout encodage choisi est arbitraire. Imaginez maintenant que le même détaillant ajoute une ligne enfants et regroupe les données : le nouvel histogramme des tailles est {2T: 30, 4T: 28, 6: 22, S: 38, M: 64, L: 51, XL: 28}. La distribution est bimodale (pic à 2T-6 pour les enfants, pic à M-L pour les adultes), et la « taille la plus vendue » (M) induit activement en erreur toute décision sur l’inventaire de la ligne enfants. Segmenter avant de calculer le mode — une fois pour les enfants, une fois pour les adultes — récupère le bon signal d’inventaire : 2T est la taille modale enfants, M est la taille modale adulte.
Quand et pourquoi ça compte
Les modes guident les décisions opérationnelles dans le commerce de détail (quelle taille/couleur/SKU stocker en priorité), les élections (le candidat modal gagne dans un système pluralitaire, même sans majorité), les systèmes de recommandation (article le plus consulté par catégorie), et l’analyse du langage naturel (mot/n-gramme modal dans un corpus révèle le sujet). Le piège est d’assumer qu’un seul mode existe quand la population sous-jacente est mixte. Les chercheurs en sondages, les testeurs A/B et les analystes produits rencontrent cela constamment : tout ensemble de données qui regroupe des utilisateurs à travers des segments (géographie, niveau de plan, type d’appareil) montre souvent une bimodalité qui disparaît quand on facette. L’habitude défensive : toujours tracer l’histogramme avant de rapporter un quelconque chiffre de « tendance centrale ». Référence : NIST/SEMATECH e-Handbook — Interprétation d’histogramme : Bimodal.
Frequently asked questions
- Qu’est-ce que le mode ?
- Le mode est la valeur qui apparaît le plus fréquemment dans un ensemble de données. Pour [1, 2, 2, 3, 4], le mode est 2. Un ensemble peut être unimodal (un mode), bimodal (deux modes), ou multimodal (plusieurs pics).
- Quand le mode est-il utile ?
- Le mode est le plus utile pour les données catégorielles — la pointure de chaussure la plus vendue, la catégorie de ticket de support la plus courante, la couleur la plus souvent commandée. C’est la seule moyenne qui s’applique aux données nominales (non numériques).
- Quelle est la différence entre le mode, la moyenne et la médiane ?
- La moyenne est la moyenne arithmétique, sensible aux valeurs aberrantes. La médiane est la valeur centrale, robuste aux valeurs aberrantes. Le mode est la valeur la plus fréquente, utile pour les données discrètes ou catégorielles. Pour une distribution symétrique comme une courbe en cloche, les trois sont égaux.
- Que signifie une distribution bimodale ?
- Une distribution bimodale a deux pics distincts dans son graphique de fréquences, ce qui signifie que deux valeurs (ou plages) sont particulièrement courantes. Cela indique souvent deux sous-groupes dans les données — par exemple, un ensemble de tailles mélangeant des adultes masculins et féminins.
Related
Published May 16, 2026 · Last reviewed May 31, 2026