Skip to content

Glossary

Regression

Prädiktoren an Zielgrößen anpassen

By Published Updated

Regression ist eine statistische Methode zur Modellierung der Beziehung zwischen einer abhängigen Variablen (der Zielgröße, die Sie vorhersagen möchten) und einer oder mehreren unabhängigen Variablen (den Prädiktoren). Das Ergebnis ist eine Funktion – typischerweise mit an historische Daten angepassten Parametern –, mit der sich die Zielgröße aus neuen Prädiktorwerten schätzen lässt.

Die einfachste Form ist die lineare Regression: y = β₀ + β₁x + ε. Der Algorithmus findet die β-Koeffizienten, die die Summe der quadrierten Residuen (die “Fehler”) minimieren. Für einen Datensatz aus (Größe, Gewicht)-Paaren erzeugt die lineare Regression die Ausgleichsgerade durch die Punkte, mit der sich das Gewicht aus jeder neuen Größe schätzen lässt.

Gängige Varianten:

  • Multiple lineare Regression: mehrere Prädiktoren. y = β₀ + β₁x₁ + β₂x₂ + ... + ε.
  • Polynomiale Regression: die Prädiktoren enthalten Potenzen von x. y = β₀ + β₁x + β₂x² + .... Passt gekrümmte Zusammenhänge an.
  • Logistische Regression: die Zielgröße ist binär (0/1). Das Modell gibt über die logistische Funktion eine Wahrscheinlichkeit aus.
  • Ridge / Lasso / Elastic-Net: lineare Regression mit einer Strafe für große Koeffizienten. Wird bei vielen Prädiktoren eingesetzt, wenn man Overfitting vermeiden will.

Die wichtigsten Plausibilitätsprüfungen für jede Regression: Wie gut passt sie auf die Trainingsdaten (R², Residuenplots), wie gut verallgemeinert sie auf neue Daten (Kreuzvalidierung, Holdout-Testset), sehen die Residuen zufällig aus (oder zeigen sie Muster, die das Modell übersehen hat)?

Die Regression ist das Arbeitspferd der empirischen Wissenschaft. Korrelation sagt Ihnen, wie stark sich zwei Variablen gemeinsam bewegen; die Regression liefert Ihnen die Gleichung, die die eine in die andere überführt.

Die klassischen Annahmen und wo sie versagen: der inferenzstatistische Apparat der linearen Regression (p-Werte für Koeffizienten, Konfidenzintervalle, F-Tests) hängt von vier Annahmen ab – Linearität, unabhängige Residuen, varianzhomogene Residuen (Homoskedastizität) und normalverteilte Residuen. Reale Daten verletzen regelmäßig eine oder mehrere davon: Zeitreihendaten verletzen die Unabhängigkeit; Finanzrenditen verletzen die Homoskedastizität; kleine Stichproben verletzen die Normalverteilung. Moderne Statistiker korrigieren entweder die Standardfehler (heteroskedastizitäts-robuste “Sandwich”-Schätzer, geclusterte SEs) oder verzichten ganz auf den Inferenzapparat und schätzen Konfidenzintervalle empirisch per Bootstrap-Resampling. Die Punktschätzungen der Koeffizienten selbst sind unter viel schwächeren Bedingungen unverzerrt – nur die Unsicherheitsschätzungen müssen gerettet werden.

Wo Regression still versagt – die Falle der “Regression zur Mitte”: die Technik verdankt ihren Namen Francis Galtons Beobachtung von 1886, dass große Eltern tendenziell etwas kleinere Kinder haben und kleine Eltern etwas größere – beide bewegen sich zum Populationsmittelwert hin. Würde man naiv “den Trend” aus einer Regression der Kinder auf die Eltern extrapolieren, käme man zu dem Schluss, die Population würde über Generationen zu identischen Körpergrößen konvergieren, was nicht geschieht. Das Phänomen ist rein statistisch (Selektion auf Extremwerte + verrauschte Messung = vorhergesagte Werte näher am Mittelwert) und erzeugt die klassische Lehrbuchfalle, “Regression zur Mitte” mit einem echten kausalen Effekt zu verwechseln. Sportliche Leistungen, Kundenzufriedenheit und medizinische Ergebnisse zeigen dies alle; jede “Intervention, die Menschen am Extrem half” braucht eine Kontrollgruppe, um echten Effekt von Mittelwertumkehr zu unterscheiden. Referenz: NIST/SEMATECH e-Handbook — Linear Regression.

Frequently asked questions

Was ist Regression in der Statistik?
Regression ist eine statistische Methode zur Modellierung der Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer stetigen Zielvariablen. Die lineare Regression legt eine Gerade an, die die Summe der quadrierten Residuen zwischen vorhergesagten und beobachteten Werten minimiert.
Wie wird Regression in der Praxis eingesetzt?
Ein Händler nutzt die lineare Regression, um Umsätze aus Werbeausgaben und Saisonalität vorherzusagen. Ein Arzt nutzt die logistische Regression, um aus klinischen Markern die Wahrscheinlichkeit zu schätzen, dass ein Patient an Diabetes erkrankt. Beide nutzen das Modell, um aus neuen Eingaben quantitative Vorhersagen zu treffen.
Was ist der Unterschied zwischen linearer und logistischer Regression?
Die lineare Regression sagt eine stetige numerische Zielgröße voraus (z. B. einen Hauspreis). Die logistische Regression sagt die Wahrscheinlichkeit eines binären Ergebnisses voraus (z. B. Kreditausfall ja/nein) und verwendet eine Sigmoidfunktion, um die Ausgabe auf 0 bis 1 zu beschränken. Anpassungsmethode und Interpretation unterscheiden sich erheblich.

Related

Published May 16, 2026 · Last reviewed May 31, 2026