Glossary
Korrelation
Wie eng sich zwei Variablen gemeinsam bewegen
By Buğra SözeriPublished Updated
Korrelation misst den Grad, zu dem sich zwei Variablen gemeinsam bewegen. Das Standardmaß ist Pearsons r: eine einzelne Zahl von −1 bis +1, wobei +1 einen perfekten positiven linearen Zusammenhang, 0 keinen linearen Zusammenhang und −1 einen perfekten negativen linearen Zusammenhang bedeutet.
Praktische Interpretation:
- |r| < 0,3 — schwach
- 0,3 ≤ |r| < 0,7 — moderat
- |r| ≥ 0,7 — stark
Drei Dinge, die jeder, der Korrelationszahlen liest, wissen sollte:
- Pearsons r erfasst nur lineare Zusammenhänge. Zwei durch eine perfekte Quadratik (y = x²) verbundene Variablen können r ≈ 0 haben, wenn x über sowohl positive als auch negative Werte läuft. Für nichtlineare Zusammenhänge ist Spearmans Rho die robustere Alternative.
- Korrelation ist nicht Kausalität. Zwei Variablen können stark korrelieren, weil A B verursacht, B A verursacht, beide von einer dritten Variable verursacht werden oder durch reinen Zufall (besonders bei kleinen Stichproben oder beim Vergleich vieler Paare).
- Ausreißer verzerren r dramatisch. Ein einzelner Ausreißer in einem kleinen Datensatz kann das Vorzeichen der Korrelation umkehren. Tragen Sie die Daten stets auf, bevor Sie der Zahl vertrauen.
Für kategoriale oder rangordnungsbasierte Daten verwenden Sie statt Pearson Spearmans Rangkorrelation. Für binäre Ergebnisse schlagen Sie den Phi-Koeffizienten nach. Für nominale kategoriale Daten mit mehr als zwei Ausprägungen Cramérs V.
Anscombes Quartett — die berühmte Veranschaulichung: 1973 konstruierte der Statistiker Francis Anscombe vier kleine Datensätze, die alle denselben Mittelwert, dieselbe Varianz, denselben Korrelationskoeffizienten (0,816) und dieselbe lineare Regressionsgerade teilen — und doch völlig unterschiedlich aussehen, wenn man sie aufträgt. Einer ist ein sauberer linearer Trend; einer eine perfekte Kurve; einer eine Gerade mit einem einzelnen Ausreißer; einer eine vertikale Linie mit einem abweichenden Punkt. Das Quartett wird noch immer als kanonischer Fall für “trage die Daten immer zuerst auf” zitiert. Das Datasaurus Dozen (Matejka & Fitzmaurice, 2017) erweitert dieselbe Idee auf zwölf Datensätze, die zusammenfassende Statistiken teilen — darunter einen, der wie ein Dinosaurier geformt ist. Beide machen denselben Punkt: Eine einzelne Korrelationszahl ist notwendig, aber nie hinreichend. Referenz: NIST/SEMATECH e-Handbook — Linear Correlation.
Durchgerechnetes Beispiel
Fünf Datenpunkte (1,2), (2,4), (3,5), (4,4), (5,5). Mittelwerte x̄ = 3, ȳ = 4. Abweichungen x − x̄: −2, −1, 0, 1, 2. Abweichungen y − ȳ: −2, 0, 1, 0, 1. Summe der Kreuzprodukte Σ(xᵢ − x̄)(yᵢ − ȳ) = 4 + 0 + 0 + 0 + 2 = 6. Summe der quadrierten x-Abweichungen: 10; der y-Abweichungen: 6. Pearson r = 6 / √(10 × 6) = 6 / 7,746 ≈ 0,775 — ein starker positiver linearer Zusammenhang. Ein Streudiagramm würde zeigen, dass diese Interpretation hält; wäre der dritte Punkt (3, 50) statt (3, 5), würde r zwar weiterhin wohldefiniert erscheinen, doch das lineare Modell wäre von einem einzelnen Ausreißer dominiert.
Wann Korrelation Entscheidungen treibt
Portfolio-Diversifikation: Anlagen mit geringer paarweiser Korrelation reduzieren die Gesamtvarianz, selbst wenn ihre individuellen Volatilitäten hoch sind. Die Finanzkrise 2008 zeigte das katastrophale Gegenbeispiel — Aktien, Unternehmensanleihen, REITs und sogar Gold bewegten sich alle gemeinsam, als die Liquidität versiegte, und aus ruhigen Märkten geschätzte Korrelationsmatrizen unterschätzten das Tail-Risiko. Im ML-Feature-Engineering sind zwei Merkmale mit r > 0,95 faktisch redundant; eines wegzulassen verschlechtert selten die Modellgenauigkeit und beschleunigt das Training. Beim Experimentieren bläht das Behandeln korrelierter Metriken als unabhängig die Falsch-positiv-Rate auf — wenden Sie Bonferroni- oder Benjamini-Hochberg-Korrekturen an. Verwandt: Regression, Varianz. Hintergrund: Pearson correlation coefficient (Wikipedia).
Frequently asked questions
- Was ist Korrelation?
- Die Korrelation (Pearsons r) misst den linearen Zusammenhang zwischen zwei Variablen auf einer Skala von −1 bis +1. Ein Wert von +1 bedeutet einen perfekten positiven linearen Zusammenhang, −1 einen perfekten negativen linearen Zusammenhang und 0 keinen linearen Zusammenhang.
- Wie wird Korrelation in der Praxis verwendet?
- Ein Finanzanalyst stellt fest, dass zwei Aktien eine Korrelation von r = 0,85 haben — sie bewegen sich stark gemeinsam. Die zweite Aktie zu einem Portfolio mit der ersten hinzuzufügen bringt kaum Diversifikationsvorteil; eine Aktie mit r = −0,3 würde weit mehr bringen.
- Was ist der Unterschied zwischen Korrelation und Kausalität?
- Die Korrelation misst nur statistische Mitbewegung, nicht Ursache und Wirkung. Eisverkäufe und Ertrinkungsraten sind stark korreliert, weil beide im Sommer steigen; Eis verursacht kein Ertrinken. Kausalität nachzuweisen erfordert kontrollierte Experimente oder Methoden der Kausalinferenz.
- Was ist der Unterschied zwischen Pearson- und Spearman-Korrelation?
- Pearsons r misst lineare Zusammenhänge und erfordert annähernd normalverteilte stetige Daten. Spearmans ρ (rho) ordnet die Daten zunächst nach Rang und misst monotone Zusammenhänge, was es robust gegenüber Ausreißern und geeignet für ordinale Daten wie Umfragebewertungen macht.
Related
Published May 16, 2026 · Last reviewed May 31, 2026