Guide
Moyenne, médiane, mode : quand chacun est la bonne mesure de tendance centrale
Même jeu de données, trois « moyennes ». Choisir la bonne fait la différence entre informer et induire en erreur.
By Buğra SözeriPublished
« Moyenne » dans le langage courant signifie généralement la moyenne arithmétique. En statistiques, c’est un mot plus flou couvrant au moins trois métriques différentes : la moyenne, la médiane et le mode. Chacune mesure « la valeur typique » dans un jeu de données, mais elles répondent à des questions différentes et divergent dramatiquement sur des données asymétriques. Ce guide explique quand chacune est le bon outil.
Les trois définitions, rapidement
- Moyenne — somme de toutes les valeurs divisée par le nombre. La valeur par défaut. Mêmes unités que les données.
- Médiane — la valeur centrale du jeu de données trié. La moitié au-dessus, la moitié en dessous.
- Mode — la valeur la plus fréquente. La seule qui fonctionne sur des données non numériques.
La divergence classique : le revenu
Revenu des ménages américains, 2023 (American Community Survey) :
- Moyenne : 111 000 $
- Médiane : 80 610 $
- Mode : environ 40 000-50 000 $ (la tranche la plus peuplée)
Trois chiffres qui répondent tous à « combien gagne un ménage américain typique ? » — et qui divergent jusqu’à un facteur de trois. La moyenne est tirée vers le haut par les 1 % les plus riches ; la médiane se situe au vrai milieu de la distribution ; le mode reflète où se trouve la plus grande tranche.
Pour les discussions politiques et les titres de presse, la médiane est presque toujours le bon chiffre — elle est robuste aux valeurs aberrantes et représente un ménage réellement atteignable.
Quand utiliser chacune
Utilisez la MOYENNE quand
- La distribution est approximativement symétrique.Tailles, scores de QI, erreurs de mesure. La moyenne et la médiane concordent étroitement ; la moyenne convient à rapporter.
- Vous devez calculer des totaux à partir de moyennes.La moyenne (× compte) donne la somme exactement. La médiane ne le fait pas. Pour la budgétisation, la comptabilité et les intégrales, la moyenne est obligatoire.
- Vous l’intégrerez dans d’autres statistiques.La variance, l’écart-type, les intervalles de confiance se construisent tous sur la moyenne.
Utilisez la MÉDIANE quand
- La distribution est asymétrique.Revenus, prix des maisons, temps de réponse, tailles de fichiers, durées d’hospitalisation, coûts de projets. La médiane est ce que les vraies personnes expérimentent ; la moyenne est ce qu’un milliardaire / un coureur de marathon exceptionnel gonfle.
- Les valeurs aberrantes sont probables et non contrôlées.Données de capteurs avec des pannes occasionnelles, nombres saisis manuellement avec des erreurs de frappe, analyses web avec du trafic de bots. La médiane les filtre automatiquement.
- Vous voulez l’« expérience typique ».Temps d’attente médian à la préfecture, temps de trajet médian, temps de réponse médian à votre service client. Ce sont des questions sur les individus typiques, pas le débit agrégé.
Utilisez le MODE quand
- Les données sont catégorielles.Couleur préférée, navigateur utilisé, pays d’origine. La moyenne et la médiane sont indéfinies pour celles-ci ; le mode est le seul résumé.
- Vous voulez le cas le plus courant.Produit le plus populaire, type d’erreur le plus courant, taille de carton UPS la plus expédiée. Le mode est la seule mesure qui répond directement à cela.
- Vous suspectez une distribution bimodale.Tailles masculines+féminines combinées, données météo chaud-froid, trafic réseau en heure de pointe/creuse. Rapporter deux modes capture la structure qu’une seule moyenne cacherait.
Le piège de la distribution asymétrique
Les articles de presse rapportent régulièrement la moyenne des revenus, le prix moyen des maisons, le temps de réponse moyen. Les trois sont des distributions asymétriques à droite ; dans les trois, la moyenne est systématiquement plus élevée que la médiane ; rapporter la moyenne surestime systématiquement le « typique ».
Test rapide : si le jeu de données a un plancher dur (zéro) et pas de plafond dur, il est probablement asymétrique à droite. Utilisez la médiane.
| Jeu de données | Forme | Utiliser |
|---|---|---|
| Taille des adultes | Approximativement normale | Moyenne OK |
| Revenu | Asymétrique à droite | Médiane |
| Patrimoine net | Fortement asymétrique à droite | Médiane (la moyenne induit très fortement en erreur) |
| Temps de réponse API | Asymétrique à droite | Médiane + percentiles |
| Durée de séjour hospitalier | Asymétrique à droite | Médiane |
| Tailles de fichiers dans un dossier | Asymétrique à droite | Médiane |
| Notes d’un test bien conçu | Approximativement normale | Moyenne OK |
| Température quotidienne | Approximativement normale | Moyenne OK |
Comment repérer le mensonge
Trois phrases à surveiller dans les affirmations utilisant « moyenne » :
- « L’Américain moyen gagne X $. »Si X > 90 000 $, c’est la moyenne. La médiane est ~80 k$. La moyenne est techniquement correcte mais répond à une question différente.
- « Temps de réponse moyen : 200 ms. »Pour une API, c’est presque certainement la moyenne, que quelques requêtes lentes ont gonflée. La médiane est probablement 50-100 ms ; le p99 pourrait être 2 000 ms. La moyenne seule vous dit peu.
- « Le X le plus populaire est... »C’est le mode. Si utilisé correctement, c’est bien ; si utilisé à la place de la moyenne ou de la médiane, c’est trompeur.
Quand rapporter les trois
La présentation honnête de données montre généralement la moyenne, la médiane et une mesure de dispersion (écart-type ou écart interquartile). La différence entre la moyenne et la médiane indique instantanément au lecteur à quel point la distribution est asymétrique.
Calculez les trois (plus les percentiles, l’écart-type et un histogramme) en un seul passage avec notre calculateur de statistiques. Pour le fond du statisticien praticien sur la variance et l’écart-type, voir écart-type expliqué.
Guide pratique : surveillance des temps de réponse
Six requêtes API ce matin mesurées en millisecondes : [42, 51, 48, 55, 47, 2 800]. La dernière est une valeur aberrante de démarrage à froid. Trois résumés :
- Moyenne : (42+51+48+55+47+2800)/6 = 507 ms.
- Médiane : triée à [42, 47, 48, 51, 55, 2800], prend la moyenne des deux valeurs centrales = 49,5 ms.
- Mode : toutes les valeurs apparaissent une fois, donc le mode est indéfini pour cet échantillon.
Rapporter uniquement la moyenne (« temps de réponse moyen : 507 ms ») convaincrait une partie prenante que l’API est cassée. Rapporter uniquement la médiane (« réponse typique : 49,5 ms ») cache le problème de démarrage à froid. Le résumé honnête est les deux chiffres plus le p99 : « médiane 50 ms, p99 ~2,8 s — rapide dans le cas courant, pics occasionnels de démarrage à froid. » C’est exploitable ; aucun des deux chiffres seul ne l’est pas.
Erreurs courantes
- Calculer la « moyenne des moyennes ». La moyenne des moyennes de trois groupes n’est pas la moyenne des données combinées à moins que les groupes ne soient de taille égale. Recalculez toujours à partir des données brutes, ou utilisez une moyenne pondérée avec les tailles de groupe comme poids.
- Rapporter la médiane sans mesure de dispersion. Deux jeux de données avec des médianes identiques peuvent avoir des formes complètement différentes. Ajoutez l’écart interquartile (Q3 − Q1) ou un résumé en quartiles.
- Appeler une distribution bimodale « la moyenne ».Une distribution combinée taille masculine+féminine a deux pics à ~168 cm et ~178 cm. La moyenne (~173 cm) ne décrit personne. Désagréger par groupe et rapporter chaque sous-population séparément.
- Utiliser le mode pour des données continues. Pour les mesures vraiment continues (tailles, poids, temps de réponse) chaque valeur est techniquement unique ; le mode est soit indéfini soit un artefact de la granularité de mesure. Utilisez un histogramme à la place.
Frequently asked questions
- Quelle est la différence entre la moyenne, la médiane et le mode ?
- La moyenne est la somme divisée par le nombre. La médiane est la valeur centrale quand les données sont triées — la moitié des valeurs est au-dessus, l’autre moitié en dessous. Le mode est la valeur la plus fréquente. Tous les trois sont des « moyennes » mais ils divergent significativement sur des données asymétriques.
- Pourquoi le Census américain utilise-t-il le revenu médian des ménages plutôt que la moyenne ?
- Le revenu est asymétrique à droite — un petit nombre de très hauts revenus tire la moyenne bien au-dessus de ce que la plupart des ménages gagnent réellement. En 2023, le revenu moyen des ménages américains était d’environ 111 000 $ tandis que la médiane était de 80 610 $. La médiane représente mieux l’expérience du ménage typique.
- Quand dois-je utiliser la médiane plutôt que la moyenne ?
- Utilisez la médiane quand les données ont un plancher dur à zéro et pas de plafond (revenus, prix des maisons, temps de réponse, tailles de fichiers), contiennent des valeurs aberrantes non contrôlées, ou quand vous voulez représenter l’expérience individuelle typique. Si la moyenne et la médiane diffèrent substantiellement, les données sont asymétriques et la médiane est généralement plus informative.
- Quand le mode est-il plus utile que la moyenne ou la médiane ?
- Le mode est la seule mesure de tendance centrale qui fonctionne sur des données catégorielles (non numériques) — couleur préférée, type de navigateur, pays d’origine. C’est aussi le bon choix quand la question est « quelle est la valeur la plus courante » — produit le plus populaire, code d’erreur le plus fréquent.
- Un jeu de données peut-il avoir plus d’un mode ?
- Oui. Une distribution bimodale a deux modes — par exemple, les données combinées de taille masculine et féminine ont deux pics à environ 168 cm et 178 cm. Rapporter une moyenne unique de ~173 cm ne décrit personne dans le jeu de données ; rapporter deux modes révèle la structure.
Related
Published May 16, 2026