Glossary
Interquartilsabstand
Q3 − Q1: die mittleren 50 %
By Buğra SözeriPublished Updated
Der Interquartilsabstand (IQR) ist die Differenz zwischen dem 75. Perzentil (Q3) und dem 25. Perzentil (Q1). Er erfasst die mittleren 50 % eines Datensatzes – die Spanne, die die „typischen“ Werte enthält.
Für den Datensatz [1, 3, 4, 5, 6, 7, 8, 9, 10, 20]: Q1 = 4, Q3 = 9, IQR = 5. Die mittlere Hälfte der Daten liegt zwischen 4 und 9. Der Ausreißer 20 beeinflusst den IQR überhaupt nicht.
Warum der IQR zählt: Er ist robust gegenüber Ausreißern auf eine Weise, wie es die Standardabweichung nicht ist. Für schiefe Verteilungen (Einkommen, Antwortzeiten, Dateigrößen) beschreibt der IQR die Streuung weit besser als die SD. Die verbreitete 1,5-×-IQR-Regel definiert Ausreißer als Werte unterhalb von Q1 − 1,5×IQR oder oberhalb von Q3 + 1,5×IQR – Tukeys Konvention und die Grundlage von Boxplots.
Verwenden Sie den IQR, wenn: die Daten schief sind, Ausreißer häufig vorkommen oder Sie eine Ein-Zahl-Zusammenfassung wollen, die nicht in die Irre führt. Verwenden Sie die Standardabweichung, wenn: die Daten annähernd normalverteilt sind und Sie sie in nachgelagerte Statistiken einspeisen wollen (Konfidenzintervalle, Regression).
Durchgerechnetes Beispiel
Beispielhafte HTTP-Anfrage-Latenzen (ms): [12, 14, 18, 22, 25, 28, 31, 33, 38, 42, 45, 48, 52, 58, 64, 71, 89, 110, 180, 4200]. Mittelwert: 264 ms – stark nach oben gezogen durch den Ausreißer von 4200 ms (wahrscheinlich ein Netzwerkaussetzer oder ein Kaltstart). Median (Q2): 43,5 ms. Q1: 25,75 ms. Q3: 67,25 ms. IQR = Q3 − Q1 = 41,5 ms. Tukeys obere Grenze von 1,5 × IQR = Q3 + 62,25 = 129,5 ms. Die Anfrage mit 180 ms ist somit ein Grenzfall-Ausreißer; die Anfrage mit 4200 ms liegt weit darüber – eine klare Anomalie, die untersucht werden sollte. Die Standardabweichung desselben Datensatzes liegt bei rund 920 ms, vollständig dominiert vom 4200-ms-Punkt, und würde nahelegen, dass die typische Latenz 264 ± 920 ms beträgt – was bedeutungslos ist (Latenz kann nicht negativ sein). Die IQR-basierte Zusammenfassung („Median 43,5 ms, IQR 25,75 bis 67,25 ms“) ist die wahrheitsgetreue Beschreibung der typischen Leistung.
Die Quartilsarithmetik lässt sich auch verallgemeinern: Dezile teilen die Daten in zehn Teile, Quintile in fünf, Perzentile in einhundert. Einkommensstatistiken verwenden typischerweise Dezile („das oberste Dezil der US-Verdiener“), Kreditbewertung verwendet Perzentile („Ihr FICO-Score liegt im 78. Perzentil“), und klinische Wachstumskurven tragen Körpergröße/Gewicht von Kindern gegen alters- und geschlechtsspezifische Perzentile auf. Das gedankliche Modell ist dasselbe: eine rangbasierte Zusammenfassung, die die Größenordnung der Werte ignoriert.
Wann und warum es zählt
Der IQR zählt immer dann, wenn Daten schief sind – was in der Praxis die meisten realen Daten außerhalb physikalischer Experimente betrifft. Antwortzeiten, Einkommensverteilungen, Dateigrößen, Aufmerksamkeitsspannen, Umsatz pro Filiale und nahezu alles in der Analytik von Tech-Produkten hat eine rechtsschiefe Verteilung, in der einige große Werte den Mittelwert dominieren. Die „durchschnittliche Antwortzeit“ einer API anzugeben führt die Leser in die Irre; die Angabe von p50, p90, p99 – drei Perzentilen – vermittelt die Form der Verteilung. Site-Reliability-Engineers haben diese Lektion in den 2000er-Jahren auf die harte Tour gelernt; moderne Observability-Plattformen (Datadog, Honeycomb, Prometheus-Histogramme) verwenden standardmäßig perzentilbasierte Metriken für die Latenz. Der zu vermeidende Fehler ist, allein den „Durchschnitt“ zu berechnen und danach zu handeln: die mittlere Latenz zu optimieren, obwohl der Nutzerschmerz bei p99 liegt, verschwendet Entwicklungsaufwand. Quelle: NIST/SEMATECH e-Handbook – Quartile.
Warum es neun Wege gibt, ein Quartil zu berechnen: Die Position von Q1 in einem Datensatz von N Werten ist mehrdeutig, wenn N kein Vielfaches von 4 + 1 ist, und Statistiker haben neun Konventionen für die Interpolation zwischen benachbarten Werten vorgeschlagen. Die quantile()-Funktion von R verwendet standardmäßig Typ 7 (lineare Interpolation zwischen Ordnungsstatistiken), Excels QUARTILE.INC entspricht Typ 7, NumPys np.percentile() verwendet ebenfalls standardmäßig lineare Interpolation, aber SAS, Minitab und Tukeys ursprüngliche Hinge-Methode nutzen jeweils andere Formeln. Die IQR-Werte unterscheiden sich bei kleinen Stichproben um einige Prozent zwischen den Methoden und konvergieren mit wachsendem N. Der Statistik-Rechner von Convertitive verwendet Typ 7, weil er den am weitesten verbreiteten Analysewerkzeugen entspricht.
Boxplots, IQR und Ausreißererkennung in Produktivsystemen: Tukeys 1,5-×-IQR-Grenze ist die Grundlage für die Whisker von Boxplots und wird in Observability-Dashboards (Datadog, Grafana, Prometheus-Quantil-Aggregatoren) häufig verwendet, um Latenzausreißer zu kennzeichnen, ohne eine Normalverteilung anzunehmen. Für sehr schwerschwänzige Daten (Web-Anfrage-Latenz, Finanzrenditen) ist selbst 1,5 × IQR zu aggressiv – Anfrage-Latenzen liegen regelmäßig per Design im „Ausreißer“-Schwanz, und sie als Anomalien zu kennzeichnen erzeugt Rauschen. Die pragmatische Lösung ist, für extreme Ausreißerdefinitionen auf 3 × IQR zu erweitern oder gänzlich auf perzentilbasierte Service-Level-Ziele (p95, p99) umzusteigen. Verwandt: Perzentil, Median, Varianz.
Frequently asked questions
- Was ist der Interquartilsabstand (IQR)?
- Der IQR ist die Differenz zwischen dem 75. Perzentil (Q3) und dem 25. Perzentil (Q1) eines Datensatzes. Er misst die Streuung der mittleren 50 % der Werte und ignoriert die Extreme.
- Wie wird der IQR zur Erkennung von Ausreißern verwendet?
- Die Standardregel markiert jeden Wert unterhalb von Q1 − 1,5×IQR oder oberhalb von Q3 + 1,5×IQR als möglichen Ausreißer. Boxplots verwenden genau diese Regel, um die Endpunkte der Whisker zu bestimmen und Extremwerte zu kennzeichnen.
- Was ist der Unterschied zwischen IQR und Standardabweichung?
- Die Standardabweichung misst die Streuung relativ zum Mittelwert und ist empfindlich gegenüber Ausreißern; der IQR misst die Streuung relativ zum Median und ist robust gegenüber ihnen. Für schiefe Verteilungen oder Daten mit Ausreißern ist der IQR das aussagekräftigere Streuungsmaß.
- Wann sollte ich den IQR statt der Standardabweichung angeben?
- Geben Sie den IQR an, wenn die Daten schief sind oder Ausreißer enthalten – Ergebnisse klinischer Studien, Einkommensverteilungen und Antwortzeit-Metriken sind typische Fälle. Er passt naturgemäß zum Median, so wie die Standardabweichung zum Mittelwert passt.
Related
Published May 16, 2026 · Last reviewed May 31, 2026