Regressionsanalyse

Regressionsanalyse

Die Regressionsanalyse ist eine Sammlung von statistischen Analyseverfahren. Ziel bei den am häufigsten eingesetzten Analyseverfahren ist es, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen festzustellen. Sie wird insbesondere verwendet, wenn Zusammenhänge quantitativ zu beschreiben oder Werte der abhängigen Variablen zu prognostizieren sind.[1]

Inhaltsverzeichnis

Geschichte

Die früheste Form der Regression war die Methode der kleinsten Quadrate (frz.: méthode des moindres carrés), 1805 von Legendre[2] und 1809 von Gauß veröffentlicht.[3] Beide verwendeten die Methode, um die Umlaufbahnen der Planeten um die Sonne anhand von astronomischen Beobachtungen zu bestimmen. Gauß veröffentlichte eine Weiterentwicklung der Theorie der kleinsten Quadrate im Jahr 1821,[4] die eine Version des Satzes von Gauß-Markow enthielt.

Der Begriff "Regression" wurde im 19. Jahrhundert geprägt von Francis Galton, einem Cousin von Charles Darwin. Er beschrieb damit ein biologisches Phänomen, bekannt als Regression zur Mitte, wonach Nachfahren großer Eltern dazu tendieren, nur durchschnittlich groß zu werden.[5][6] Für Galton hatte Regression nur diese biologische Bedeutung.[7][8] Seine Arbeit wurde jedoch später durch Udny Yule und Karl Pearson in einen allgemeineren statistischen Kontext gesetzt.[9][10] In deren Arbeiten wurde davon ausgegangen, dass die gemeinsame Verteilung der unabhängigen und der abhängigen Variablen normalverteilt ist. Diese Annahme konnte von R.A. Fisher später abgeschwächt werden.[11][12][13] Dieser arbeitete mit der Voraussetzung, dass die bedingte Verteilung der abhängigen Variable normalverteilt ist, die gemeinsame Verteilung jedoch nicht notwendigerweise. In dieser Hinsicht war Fishers Ansatz ähnlicher zu Gauß' Formulierung von 1821.

Regressionsverfahren sind weiterhin ein aktives Forschungsgebiet. In den letzten Jahrzehnten wurden in verschiedensten Bereichen Schätzmethoden entwickelt, etwa zur robusten Regression, zur nicht parametrischen Regression, im Bereich der Bayesschen Statistik, bei fehlenden Daten und bei fehlerbehafteten unabhängigen Variablen.

Mathematische Formulierung

Mathematisch kann die Beziehung zwischen den unabhängigen Variablen x und der abhängigen Variablen y dargestellt werden als

y=f(x)+e \quad, im eindimensionalen Fall und
y=f(x_1,x_2,...,x_n)+e \quad im n-dimensionalen Fall,

Hierbei bezeichnet f die gesuchte oder angenommene Funktion und e den Fehler bzw. das Residuum des Modells.

Anwendungen

Regressionsverfahren haben viele praktische Anwendungen. Die meisten Anwendungen fallen in eine der folgenden beiden Kategorien:

  • Wenn das Ziel die Prognose oder Vorhersage ist, dann kann der durch das Regressionsverfahren ermittelte funktionale Zusammenhang verwendet werden, um ein Vorhersagemodell zu erstellen. Wenn nun zusätzliche Werte x ohne zugehörigen Wert y vorliegen, dann kann das angepasste Modell zur Vorhersage des Wertes von y verwendet werden.
  • Wenn eine Variable y und eine Anzahl von Variablen x1, ..., xp vorliegen, die mit y in Verbindung gebracht werden können, dann können Regressionsverfahren angewandt werden, um die Stärke des Zusammenhangs zu quantifizieren. So können diejenigen xj ermittelt werden, die gar keinen Zusammenhang mit y haben; oder diejenigen Teilmengen xi, ..., xj, die redundante Information über y enthalten.

Schema einer Regressionsanalyse

Datenaufbereitung

Am Beginn jedes statistischen Verfahrens steht die Aufbereitung der Daten, insbesondere

  • die Plausibilisierung. Hierbei wird geprüft, ob die Daten nachvollziehbar sind. Dies kann manuell oder automatisch anhand von Gültigkeitsregeln erfolgen.
  • der Umgang mit fehlenden Daten. Häufig werden unvollständige Datensätze weggelassen, mitunter werden die fehlenden Daten auch nach bestimmten Verfahren aufgefüllt.
  • die Transformation der Daten. Dies kann aus verschiedenen Gründen erfolgen. Etwa kann die Transformation zu einer besseren Interpretierbarkeit oder Visualisierbarkeit der Daten führen, oder die Transformation dient dazu, die Daten in eine Form zu bringen, wo die Annahmen des Regressionsverfahrens erfüllt sind. Im Falle der linearen Regression werden etwa ein linearer Zusammenhang zwischen den unabhängigen und der abhängigen Variable sowie Homoskedastizität vorausgesetzt. Es gibt mathematische Hilfsmittel zum Finden einer geeigneten Transformation, im Beispiel der Linearisierung des Zusammenhanges etwa die Box-Cox-Transformation.
  • die Berücksichtigung von Interaktionen (bei linearer Regression). Hierbei wird neben dem Einfluss der unabhängigen Variablen auch der Einfluss mehrerer Variablen gleichzeitig berücksichtigt.

Modellanpassung

Mittels mathematischer Verfahren wird nun eine Funktion f ermittelt, so dass die Residuen e minimal werden. Dabei kann die Form der Funktion bereits weitgehend durch das verwendete Verfahren festgelegt sein. Lineare Regression etwa betrachtet nur lineare Funktionen f, logistische Regression betrachtet nur logistische Funktionen. Was genau unter „minimal“ zu verstehen ist, hängt ebenfalls vom verwendeten Verfahren ab. Wird zum Beispiel die Methode der kleinsten Quadrate angewandt, dann wird die Summe der Quadrate der Abweichungen f(x)-y minimiert, es gibt jedoch auch sogenannte robuste Verfahren, die den Betrag der Abweichungen minimieren.

Modellvalidierung

Ein wichtiger Schritt der Regressionsanalyse ist die Modellvalidierung. Hierbei wird überprüft, ob das Modell eine gute Beschreibung des Zusammenhangs ist. Die Modellvalidierung umfasst die

  • Residuenanalyse. Viele Regressionsverfahren treffen Annahmen über die Residuen e des Modells. So wird z.B. eine bestimmte Verteilung, konstante Varianz oder fehlende Autokorrelation unterstellt. Da die Residuen Ergebnis des Verfahrens sind, kann die Prüfung der Annahmen erst im Nachhinein erfolgen. Typisches Hilfsmittel zur Überprüfung der Verteilung ist der Quantile-Quantile-Plot.
  • Überanpassung. Dieses Phänomen tritt auf, wenn zu viele unabhängige Variablen im Modell berücksichtigt werden. Ein Verfahren zum Testen auf Überanpassung ist das Kreuzvalidierungsverfahren.
  • Untersuchung der Daten auf Ausreißer und einflussreiche Datenpunkte. Hierbei wird überprüft, welche Datensätze nicht zur ermittelten Funktion f passen (Ausreißer) und welche Daten die ermittelte Funktion stark beeinflussen. Für diese Datensätze empfiehlt sich eine gesonderte Untersuchung. Mathematische Hilfsmittel zur Ermittlung von Ausreißern und einflussreichen Punkten sind Cooks- und Mahalanobis-Abstand.
  • Multikollinearität der unabhängigen Variablen (bei linearen Modellen). Wenn es einen linearen Zusammenhang zwischen den unabhängigen Variablen x gibt, dann kann das zum einen die numerische Stabilität des Verfahrens beeinträchtigen und zum anderen die Interpretation des Modells bzw. der angepassten Funktion erschweren. Hilfsmittel zum Quantifizieren der Kollinearität sind der Varianz-Inflation-Faktor und die Korrelationsmatrix.

Prognose

Das validierte Modell kann zur Prognose von Werten von y bei gegebenen Werten von x herangezogen werden. Häufig wird neben dem prognostizierten Wert von y auch ein Konfidenz-Intervall angegeben, um so die Unsicherheit der Prognose abzuschätzen.

Bei Vorhersagen im Wertebereich der zur Modellanpassung verwendeten Daten spricht man von Interpolation. Vorhersagen außerhalb dieses Datenbereichs nennt man Extrapolation. Vor der Durchführung von Extrapolationen sollte man sich gründlich mit den dabei implizierten Annahmen auseinandersetzen. Manche Autoren raten sogar von Extrapolation ab.[14]

Variablenauswahl und Modellvergleich

Ist das Ziel der Analyse die Ermittlung derjenigen unabhängigen Variablen, die besonders stark in Zusammenhang mit der abhängigen Variablen y stehen, werden häufig mehrere Modelle mit jeweils unterschiedlichen unabhängigen Variablen erstellt und diese Modelle verglichen. Um zwei Modelle miteinander zu vergleichen, werden in der Regel Kennzahlen wie das Bestimmtheitsmaß oder das Informationskriterium benutzt.

Es gibt automatisierte Verfahren wie die sogenannte schrittweise Regression, die sukzessive dasjenige Modell zu ermitteln versuchen, welches den gesuchten Zusammenhang am besten erklärt. Die Anwendung solcher Verfahren wird jedoch kontrovers diskutiert.

Des Weiteren gibt es in der Bayessche Statistik Verfahren, die aus mehreren Modellen ein neues Modell ableiten (durch sogenanntes averaging) und so versuchen, die aus der Modellwahl entstehende Unsicherheit zu verringern.

Überblick über einige Regressionsverfahren

Das folgende Beispiel wird zur Illustration der verschiedenen Verfahren benutzt. Analog zu Mincer (1974) wurden aus dem Current Population Survey 1985 zufällig 534 Beobachtungen gezogen mit folgenden Variablen:[15]

  • lwage: natürlicher Logarithmus des Stundenlohns,
  • educ: Berufsausbildung in Jahren und
  • exper: Berufserfahrung in Jahren (=Alter-Berufsausbildung-6)

Mincer untersuchte den Zusammenhang zwischen dem Logarithmus des Stundenlohns (abhängige Variable) und der Berufsausbildung und -erfahrung (unabhängige Variablen). In den folgenden Grafiken findet sich links eine räumliche Darstellung der Regressionsfläche und rechts ein Kontourplot. Positive Residuen sind rötlich, negative Residuen sind bläulich gezeichnet und je heller die Beobachtung desto kleiner ist der Absolutbetrag des Residuums.

Grundlegende Verfahren

Lineare Regression

Hauptartikel: Lineare Regression

Bei der linearen Regression wird das Modell so spezifiziert, dass die abhängige Variable y eine Linearkombination der Parameter (=Regressionskoeffizienten) βi ist, aber nicht notwendigerweise der unabhängigen Variablen x. Zum Beispiel, die einfache lineare Regression modelliert die Abhängigkeit mit einer unabhängigen Variable x:

y = β0 + β1x + e.

Bei der multiplen linearen Regression werden mehrere unabhängige Variablen oder Funktionen der unabhängigen Variablen berücksichtigt. Wird zum Beispiel der Term x2 zur vorigen Regression hinzugefügt, so ergibt sich:

y = β0 + β1x + β2x2 + e.

Obwohl der Ausdruck auf der rechten Seite quadratisch in der unabhängigen Variable x ist, ist der Ausdruck linear in den Parametern β0, β1 und β2. Damit ist dies auch eine lineare Regression.

Zur Bestimmung der Modellparameter βi wird die Methode der kleinsten Quadrate eingesetzt.

Nicht-parametrische Regression

Bei nichtparametrischen Regressionsverfahren wird die Form des funktionalen Zusammenhangs f nicht vorgegeben, sondern weitestgehend aus den Daten hergeleitet. Bei der Schätzung der unbekannten Regressionfunktion m an der Stelle (x1,...,xp) gehen die Daten nahe (x1,...,xp) mit größeren Gewicht ein als Datenpunkte die weit entfernt liegen von (x1,...,xp).

Zur Schätzung haben sich verschiedene Regressionsverfahren etabliert:

Nadaraya-Watson-Schätzer
Hierbei wird die Regressionsfunktion als gewichtete Summe der naheliegende Beobachtungswerte berechnet. Die Gewichte werden mittels Kerndichteschätzung bestimmt und dann eine
  • eine lokal konstante lineare Regression (Nadaraya-Watson-Schätzer),
  • eine lokal lineare Regression (lokal linearer Schätzer) oder
  • eine lokal polynomiale Reagression (lokal polynomialer Schätzer)
durchgeführt.
  • Multivariate Adaptive Regressions-Splines
Bei der Methode der multivariaten adaptiven Regressions-Splines (MARS) wird die abhängige Variable als Linearkombination von sogenannten Hockeystock-Funktionen (bzw. Produkten von Hockeystockfunktionen) dargestellt.

Semi-parametrische Regression

Ein Nachteil der nicht-parametrischen Regressionen ist, dass sie am Fluch der Dimensionalität leiden. D.h. je mehr erklärende Variablen man hat, desto mehr Beobachtungen braucht man um an einem beliebigen Punkt (x1,...,xp) die unbekannte Regressionfunktion m(x1,...,xp) zuverlässig zu schätzen. Daher wurde eine Reihe von semi-parametrischen Modellen etabliert, die die lineare Regression erweitern bzw. nutzen:

  • Additive Modelle
Hier wird die unbekannte Regressionsfunktion als Summe nicht-parameterischer univariater Regressionen gj der Variablen dargestellt:
m(x1,...,xp) = b0 + b1g1(x1) + ... + bpgp(xp)
Beim partiell linearen Modell geht ein Teil der Variablen linear ein, insbesondere binäre Variablen.
  • Index Modelle

Hier wird die unbekannte Regressionsfunktion ebenfalls als Summe nicht-parameterischer univariater Regressionen gj von Indices dargestellt:

m(x_1,...,x_p)=g_1\left(b_0^{(1)}+b_1^{(1)}x_1+...+b_p^{(1)}x_p\right)+...+g_M\left(b_0^{(M)}+b_1^{(M)}x_1+...+b_p^{(M)}x_p\right)
Im Fall M = 1 spricht man vom Single-Index-Modell, für M > 1 gibt es die Projection Pursuit Regression.

Robuste Regression

Regressionsverfahren, die auf der Methode der kleinsten Quadrate oder der Maximum-Likelihood-Methode beruhen, sind nicht robust gegenüber Ausreißern. Robuste Regressionsverfahren wurden entwickelt, um diese Schwäche der klassischen Methode zu umgehen. So können zum Beispiel alternativ M-Schätzer eingesetzt werden.

Generalisierte Verfahren

Generalisierte Lineare Modelle

Bei der klassischen linearen Regression wird vorausgesetzt, dass die Residuen e normalverteilt sind. Die Modellannahme wird abgeschwächt bei den generalisierten Modellen, wo die Residuen e eine Verteilung aus der Verteilungsklasse der exponentiellen Familie besitzen können. Dies wird möglich durch die Verwendung

Ein Spezialfall der generalisierten linearen Modelle ist die Logistische Regression. Wenn die abhängige Variable Y eine ordinale Variable ist, die nur zwei oder endlich viele Werte annehmen darf, verwendet man häufig die logistische Regression.

Binäre logistische Regression: G(\mu) = \log\left(\frac{\mu}{1-\mu}\right)=\beta_0+\beta_1x_1+\ldots+\beta_p x_p

mit μ = P(Y = 1 | X = x) (abhängig von Verteilungsklasse der Residuen). Eine Alternative wäre das Probitmodell.

Generalisierte semi-parameterische Modelle

Diese Idee ist auch für die semi-parameterische Modelle übernommen worden:

  • Generalisierte additive Modelle (GAM)
G(\mu) = \beta_0+g_1(x_1)+\ldots+g_p(x_p)
  • Generalisierte partiell lineare Modelle (GPLM)
G(\mu) = \beta_0+\beta_1z_1+\ldots+\beta_pz_p+g(x_1, \ldots, x_q)
  • Generalisierte additive partiell lineare Modelle (GAPLM)
G(\mu) = \beta_0+\beta_1z_1+\ldots+\beta_pz_p+g_1(x_1)+\ldots+g_q(x_q)

Spezielle Verfahren

Autoregressive Modelle

Wenn die Datenpunkte geordnet sind (z.B. wenn es sich bei den Daten um eine Zeitreihe handelt), dann ist es etwa im AR-Modell und im ARCH-Modell möglich, vorhergehende Daten als „unabhängige“ Variable zu verwenden.

Anmerkungen

  1. Klaus Backhaus, SpringerLink (Online service): Multivariate Analysemethoden eine anwendungsorientierte Einführung. Berlin: Springer 2006, ISBN 9783540299325
  2. A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes (1805). “Sur la Méthode des moindres quarrés” erscheint als Anhang.
  3. C.F. Gauß. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)
  4. C.F. Gauß. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)
  5. Robert G. Mogull: Second-Semester Applied Statistics, S. 59, Kendall/Hunt Publishing Company 2004, ISBN 0-7575-1181-3
  6. Francis Galton: Kinship and Correlation (reprinted 1989). In: Statistical Science. 4, 1989.
  7. Francis Galton. "Typical laws of heredity", Nature 15 (1877), 492-495, 512-514, 532-533. (Galton uses the term "reversion" in this paper, which discusses the size of peas.)
  8. Francis Galton. Presidential address, Section H, Anthropology. (1885) (Galton verwendet den Begriff "Regression" in diesem Artikel, welcher die Größe von Menschen untersucht.)
  9. G. Udny Yule: On the Theory of Correlation. In: J. Royal Statist. Soc.. 1897, S. 812–54.
  10. Karl Pearson, Yule, G.U.; Blanchard, Norman; Lee,Alice: The Law of Ancestral Heredity. In: Biometrika. 1903.
  11. R.A. Fisher: The goodness of fit of regression formulae, and the distribution of regression coefficients. In: J. Royal Statist. Soc.. 85, 1922, S. 597–612.
  12. Ronald A. Fisher: Statistical Methods for Research Workers, Twelfth, Oliver and Boyd 1954
  13. John Aldrich: Fisher and Regression. In: Statistical Science. 20, 2005, S. 401–417.
  14. Chiang, C.L, (2003) Statistical methods of analysis, World Scientific. ISBN 981-238-310-7 - page 274 section 9.7.4 "interpolation vs extrapolation"
  15. Jacob A. Mincer: Schooling, Experience, and Earnings. National Bureau of Economic Research, Mai 1974, ISBN 978-0870142659 (http://www.nber.org/books/minc74-1, abgerufen am 3 Juli 2011).

Siehe auch

Literatur

Weblinks

Wikibooks Wikibooks: Einführung in die Regressionsrechnung – Lern- und Lehrmaterialien

Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Regressionsanalyse — Re|gres|si|ons|a|na|ly|se [lat. regressus = Rückkehr, Rückzug]: eine statistische Analyse, die in der org. Chemie zur Herst. von Beziehungen zwischen der Struktur von Verb. u. deren chem. bzw. pharmakol. Aktivitäten eingesetzt wird (↑ QSAR, ↑… …   Universal-Lexikon

  • Regressionsanalyse — regresinė analizė statusas T sritis automatika atitikmenys: angl. regression analysis vok. Regressionsanalyse, f rus. регрессивный анализ, m pranc. analyse de régression, f …   Automatikos terminų žodynas

  • Regressionsanalyse — 1. Begriff: Untersuchungen über die Art der Beziehungen zwischen einer ⇡ endogenen Variablen (erklärte Variable, Regressand) und einer oder mehreren ⇡ exogenen Variablen (erklärende Variable, Regressor) bzw. vorherbestimmten Variablen (⇡… …   Lexikon der Economics

  • Regressionsanalyse — Re|gres|si|ons|ana|ly|se die; , n: Verfahren der math. Statistik, das den Einfluss einer od. mehrerer Einflussgrößen auf eine Zielgröße durch Stichproben untersucht …   Das große Fremdwörterbuch

  • Regressionsanalyse/Datensatz — Das Zahlenbeispiel stammt vom Statistischen Bundesamt. Bei den BB Variablen handelt es sich um Bruttowertschöpfung nach Wirtschaftsbereichen. Deutschland in jeweiligen Preisen. Mrd. EUR BWSb95 Bruttowertschöpfung in Preisen von 95 (bereinigt)… …   Deutsch Wikipedia

  • Lineare Regressionsanalyse — Die Regressionsanalyse ist ein statistisches Analyseverfahren. Ziel ist es, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen festzustellen. Allgemein wird eine metrische Variable Y betrachtet, die von einer… …   Deutsch Wikipedia

  • multiple Regressionsanalyse — multiple Regressionsanalyse,   Regressionsanalyse …   Universal-Lexikon

  • Einfachregression — Die Regressionsanalyse ist ein statistisches Analyseverfahren. Ziel ist es, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen festzustellen. Allgemein wird eine metrische Variable Y betrachtet, die von einer… …   Deutsch Wikipedia

  • Multiple Regression — Die Regressionsanalyse ist ein statistisches Analyseverfahren. Ziel ist es, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen festzustellen. Allgemein wird eine metrische Variable Y betrachtet, die von einer… …   Deutsch Wikipedia

  • OLS-Regression — Die Regressionsanalyse ist ein statistisches Analyseverfahren. Ziel ist es, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen festzustellen. Allgemein wird eine metrische Variable Y betrachtet, die von einer… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”