Glossary
Écart interquartile
Q3 − Q1 : les 50 % centraux
By Buğra SözeriPublished Updated
L’écart interquartile (IQR) est la différence entre le 75e percentile (Q3) et le 25e percentile (Q1). Il capture les 50 % centraux d’un jeu de données — la plage contenant les valeurs “typiques”.
Pour le jeu de données [1, 3, 4, 5, 6, 7, 8, 9, 10, 20] : Q1 = 4, Q3 = 9, IQR = 5. La moitié centrale des données se situe entre 4 et 9. La valeur aberrante 20 n’affecte pas du tout l’IQR.
Pourquoi l’IQR importe : il est robuste aux valeurs aberrantes d’une façon que l’écart-type n’est pas. Pour les distributions asymétriques (revenus, temps de réponse, tailles de fichiers), l’IQR décrit la dispersion bien mieux que l’écart-type. La règle courante 1,5 × IQR définit les valeurs aberrantes comme les valeurs en dessous de Q1 − 1,5×IQR ou au-dessus de Q3 + 1,5×IQR — la convention de Tukey, et la base des boîtes à moustaches.
Utilisez l’IQR quand : les données sont asymétriques, les valeurs aberrantes sont fréquentes, ou vous souhaitez un résumé en un seul chiffre qui n’induira pas en erreur. Utilisez l’écart-type quand : les données sont approximativement normales et vous souhaitez les intégrer dans des statistiques aval (intervalles de confiance, régression).
Exemple concret
Latences de requêtes HTTP (ms) : [12, 14, 18, 22, 25, 28, 31, 33, 38, 42, 45, 48, 52, 58, 64, 71, 89, 110, 180, 4200]. Moyenne : 264 ms — tirée vers le haut par la valeur aberrante de 4 200 ms (probablement une perturbation réseau ou un démarrage à froid). Médiane (Q2) : 43,5 ms. Q1 : 25,75 ms. Q3 : 67,25 ms. IQR = Q3 − Q1 = 41,5 ms. Frontière supérieure de Tukey à 1,5 × IQR = Q3 + 62,25 = 129,5 ms. La requête à 180 ms est une valeur aberrante limite ; la requête à 4 200 ms est bien au-delà — une anomalie claire méritant investigation. L’écart-type de ce même jeu de données est d’environ 920 ms, entièrement dominé par la valeur de 4 200 ms, et suggèrerait que la latence typique est de 264 ± 920 ms — ce qui est dénué de sens (la latence ne peut pas être négative). Le résumé basé sur l’IQR (“médiane 43,5 ms, IQR de 25,75 à 67,25 ms”) est la description fidèle des performances typiques.
L’arithmétique des quartiles se généralise : les déciles divisent les données en dix parties, les quintiles en cinq, les percentiles en cent. Les statistiques de revenus utilisent généralement les déciles (“le décile supérieur des salariés américains”), le scoring de crédit utilise les percentiles (“votre FICO est au 78e percentile”), et les courbes de croissance cliniques tracent la taille/poids des enfants par rapport aux percentiles d’âge et de sexe. Le modèle mental est le même : résumé basé sur le rang qui ignore l’échelle des valeurs.
Quand et pourquoi c’est important
L’IQR importe chaque fois que les données sont asymétriques — ce qui, en pratique, est le cas de la plupart des données réelles hors des expériences en physique. Les temps de réponse, les distributions de revenus, les tailles de fichiers, les durées d’attention, les ventes par magasin et presque tout ce qui concerne l’analytique de produits technologiques présente une distribution à queue droite où quelques valeurs élevées dominent la moyenne. Rapporter le “temps de réponse moyen” pour une API induit les lecteurs en erreur ; rapporter p50, p90, p99 — trois percentiles — communique la forme de la distribution. Les ingénieurs de fiabilité des sites ont appris cette leçon à leurs dépens dans les années 2000 ; les plateformes d’observabilité modernes (Datadog, Honeycomb, histogrammes Prometheus) utilisent toutes par défaut des métriques basées sur les percentiles pour la latence. L’erreur à éviter est de calculer la “moyenne” seule et d’agir dessus : optimiser la latence moyenne quand la douleur des utilisateurs est au p99 est un gaspillage d’efforts d’ingénierie. Référence : Manuel électronique NIST/SEMATECH — Quartiles.
Pourquoi il existe neuf façons de calculer un quartile : la position de Q1 dans un jeu de données de N valeurs est ambiguë lorsque N n’est pas un multiple de 4 + 1, et les statisticiens ont proposé neuf conventions pour interpoler entre des valeurs adjacentes. La fonction quantile() de R utilise par défaut le type 7 (interpolation linéaire entre les statistiques d’ordre), QUARTILE.INC d’Excel correspond au type 7, np.percentile() de NumPy utilise aussi par défaut l’interpolation linéaire, mais SAS, Minitab et la méthode originale de Tukey utilisent toutes des formules différentes. Les IQR diffèrent de quelques pour cent selon les méthodes sur les petits échantillons et convergent à mesure que N augmente. La calculatrice statistique de Convertitive utilise le type 7 car il correspond aux outils d’analyse les plus déployés.
Boîtes à moustaches, IQR et détection des valeurs aberrantes dans les systèmes de production : la frontière 1,5 × IQR de Tukey est la base des moustaches des boîtes à moustaches et est largement utilisée dans les tableaux de bord d’observabilité (Datadog, Grafana, agrégateurs de quantiles Prometheus) pour signaler les valeurs aberrantes de latence sans supposer une distribution normale. Pour les données à queue très lourde (latence des requêtes web, rendements financiers), même 1,5 × IQR est trop agressif — les latences de requêtes se situent régulièrement dans la queue des “valeurs aberrantes” par conception, et les signaler comme anomalies génère du bruit. La solution pragmatique est d’élargir à 3 × IQR pour les définitions d’extrêmes valeurs aberrantes ou de basculer entièrement vers des objectifs de niveau de service basés sur les percentiles (p95, p99). Connexe : percentile, médiane, variance.
Frequently asked questions
- Qu’est-ce que l’écart interquartile (IQR) ?
- L’IQR est la différence entre le 75e percentile (Q3) et le 25e percentile (Q1) d’un jeu de données. Il mesure la dispersion des 50 % centraux des valeurs, en ignorant les extrêmes.
- Comment l’IQR est-il utilisé pour détecter les valeurs aberrantes ?
- La règle standard identifie comme valeur aberrante potentielle toute valeur inférieure à Q1 − 1,5×IQR ou supérieure à Q3 + 1,5×IQR. Les boîtes à moustaches utilisent exactement cette règle pour déterminer les extrémités des moustaches et signaler les points extrêmes.
- Quelle est la différence entre IQR et écart-type ?
- L’écart-type mesure la dispersion par rapport à la moyenne et est sensible aux valeurs aberrantes ; l’IQR mesure la dispersion par rapport à la médiane et y est robuste. Pour les distributions asymétriques ou les données contenant des valeurs aberrantes, l’IQR est une mesure de dispersion plus informative.
- Quand dois-je rapporter l’IQR plutôt que l’écart-type ?
- Rapportez l’IQR lorsque les données sont asymétriques ou contiennent des valeurs aberrantes — les résultats d’essais cliniques, les distributions de revenus et les métriques de temps de réponse en sont des exemples typiques. Il s’associe naturellement à la médiane, comme l’écart-type s’associe à la moyenne.
Related
Published May 16, 2026 · Last reviewed May 31, 2026