Logistische Regression

Logistische Regression

Unter logistischer Regression oder Logit-Modell versteht man Regressionsanalysen zur (meist multivariaten) Modellierung der Verteilung diskreter abhängiger Variablen. Wenn logistische Regressionen nicht näher als multinomiale oder geordnete logistische Regressionen gekennzeichnet sind, ist zumeist die binomiale logistische Regression für dichotomische abhängige Variablen gemeint. Die unabhängigen Variablen können dabei ein beliebiges Skalenniveau aufweisen, wobei diskrete Variablen mit mehr als zwei Ausprägungen in eine Serie binärer Dummy-Variablen zerlegt werden.

Im binomialen Fall hat man Daten der Art (Y_i,x_i), i=1,\ldots,n vorliegen, wobei Yi eine binäre abhängige Variable, den so genannten Regressanden, bezeichnet, die mit xi, einen bekannten und festen Kovariablenvektor von Regressoren auftritt. n bezeichnet die Anzahl der Beobachtungen.

Inhaltsverzeichnis

Motivation

Die Einflüsse auf diskrete Variablen können nicht mit dem Verfahren der klassischen linearen Regressionsanalyse untersucht werden, da wesentliche Anwendungsvoraussetzungen, insbesondere eine Normalverteilung der Residuen und Homoskedastizität, nicht gegeben sind. Ferner kann ein lineares Regressionsmodell bei einer solchen Variablen zu unzulässigen Vorhersagen führen: Wenn man die beiden Ausprägungen der abhängigen Variablen mit 0 und 1 kodiert, so kann man zwar die Vorhersage eines linearen Regressionsmodells als Vorhersage der Wahrscheinlichkeit auffassen, dass die abhängige Variable den Wert 1 annimmt – formal: P(Yi = 1) –, doch kann es dazu kommen, dass Werte außerhalb dieses Bereichs vorhergesagt werden. Die logistische Regression löst dieses Problem durch eine geeignete Transformation der abhängigen Variablen P(Yi = 1).

Die Relevanz des Logit-Modells wird auch dadurch deutlich, dass Daniel McFadden und James Heckman im Jahr 2000 für ihren Beitrag zu seiner Entwicklung den Nobelpreis für Wirtschaftswissenschaften verliehen bekamen.

Anwendungsvoraussetzungen

Neben der Beschaffenheit der Variablen, wie sie in der Einleitung dargestellt wurde, gibt es eine Reihe von Anwendungsvoraussetzungen. So sollten die Regressoren keine hohe Multikollinearität aufweisen.

Modellspezifikation

Das (binomiale) logistische Regressionsmodell lautet

\mathrm{P}(Y=1|X=x_i)=\mathrm{P}(Y_i=1)=\frac{\exp(x_i^T \beta)}{1+\exp(x_i^T \beta)},

hierbei gilt \beta=(\beta_1,\ldots,\beta_n).

Es geht aus von der Idee der Odds, d. h. dem Verhältnis von P(Yi = 1) zur Gegenwahrscheinlichkeit 1 − P(Yi = 1) bzw. P(Yi = 0) (bei Kodierung der Alternativkategorie mit 0)

\mathrm{Odds}(Y_{1/0})=\frac{\mathrm{P}(Y_i=1)}{1-\mathrm{P}(Y_i=1)}=\frac{\mathrm{P}(Y_i=1)}{\mathrm{P}(Y_i=0)}

Die Odds können zwar Werte größer 1 annehmen, doch ist ihr Wertebereich nach unten beschränkt (er nähert sich asymptotisch 0 an). Ein unbeschränkter Wertebereich wird durch die Transformation der Odds in die sog. Logits

\mathrm{Logit}(Y_{1/0})=\ln(\mathrm{Odds}(Y_{1/0}))=\ln\frac{\mathrm{P}(Y_i=1)}{1-\mathrm{P}(Y_i=1)}

erzielt; diese können Werte zwischen minus und plus unendlich annehmen.

In der logistischen Regression wird dann die Regressionsgleichung

\mathrm{Logit}(Y_{1/0}|X_i=x_i)=\beta_0+\beta_1 X_1+\dots+\beta_n X_n

geschätzt; es werden also Regressionsgewichte bestimmt, nach denen die geschätzten Logits für eine gegebene Matrix von unabhängigen Variablen X berechnet werden können. Die folgende Graphik zeigt, wie Logits (X-Achse) mit den Ausgangswahrscheinlichkeiten P(Yi = 1) (Y-Achse) zusammenhängen:

Logitkurve.jpg

Die Regressionkoeffizienten der logistischen Regression sind nicht einfach zu interpretieren. Daher bildet man häufig die sog. Effektkoeffizienten durch Exponenzieren; die Regressionsgleichung bezieht sich dadurch auf die Odds:

\mathrm{Odds}(Y_{1/0}|X_i=x_i)=\exp(\beta_0+\beta_1 X_1+\dots+\beta_n X_n)

Die Koeffizienten expn) werden oft auch als Effektkoeffizienten bezeichnet. Hier bezeichnen Koeffizienten kleiner 1 einen negativen Einfluss auf die Odds, ein positiver Einfluss ist gegeben, wenn expn) > 1.

Durch eine weitere Transformation lassen sich die Einflüsse der logistischen Regression auch als Einflüsse auf die Wahrscheinlichkeiten P(Yi = 1) ausdrücken:

\mathrm{P}(Y=1|X_i=x_i)=\frac{\exp(\beta_0+\beta_1 X_1+\dots+\beta_n X_n)}{1+\exp(\beta_0+\beta_1 X_1+
      \dots+\beta_n X_n)}

Schätzmethode

Anders als bei der linearen Regressionsanalyse ist eine direkte Berechnung der besten Regressionskurve nicht möglich. Deshalb wird zumeist mit einem iterativen Algorithmus[1] eine Maximum-likelihood-Lösung geschätzt.

Modelldiagnose

Die Regressionsparameter werden auf der Grundlage des Maximum-Likelihood-Verfahrens geschätzt. Inferenzstatistische Verfahren stehen sowohl für die einzelnen Regressionskoeffizienten als auch für das Gesamtmodell zur Verfügung (siehe Wald-Test und Likelihood-Quotienten-Test); in Analogie zum linearen Regressionsmodell wurden auch Verfahren der Regressionsdiagnostik entwickelt, anhand derer einzelne Fälle mit übergroßem Einfluss auf das Ergebnis der Modellschätzung identifiziert werden können. Schließlich gibt es auch einige Vorschläge zur Berechnung einer Größe, die in Analogie zum R2 der linearen Regression eine Abschätzung der "erklärten Varianz" erlaubt; man spricht hier von sog. Pseudo-Bestimmtheitsmaß. Auch das AIC und das BIC werden in diesem Kontext gelegentlich herangezogen.

Insbesondere bei Modellen zur Risikoadjustierung wird häufig der Hosmer-Lemeshow-Test zur Bewertung der Anpassungsgüte verwendet. Dieser Test vergleicht die vorhergesagten mit den beobachteten Raten von Ereignissen in nach Auftretenswahrscheinlichkeit geordneten Untergruppen der Grundgesamtheit, häufig den Dezilen. Die Teststatistik wird wie folgt berechnet:

 H = \sum_{g=1}^{n} \frac{(O_g - E_g)^2}{N_g \pi_g (1-\pi_g)} .\,\!

Dabei repräsentieren Og die beobachteten (observed) Ereignisse, Eg die erwarteten Ereignisse, Ng die Anzahl der Beobachtungen und πg die Auftretenswahrscheinlichkeit der gten Quantile. Die Anzahl der Gruppen beträgt n.

Ebenfalls werden ROC-Kurven zur Beurteilung der Vorhersagekraft logistischer Regressionen verwendet, wobei die ROC AUC als Gütekriterium fungiert.

Alternativen und Erweiterungen

Als (im Wesentlichen gleichwertige) Alternative kann das Probitmodell herangezogen werden, bei dem eine Normalverteilung zugrunde gelegt wird.

Eine Übertragung der logistischen Regression (und des Probit-Modells) auf abhängige Variable mit mehr als zwei diskreten Merkmalen ist möglich.

Literatur

  • Hans-Jürgen Andreß, J.-A. Hagenaars, Steffen Kühnel: Analyse von Tabellen und kategorialen Daten Springer Berlin 1997, ISBN 3-540-62515-1
  • Dieter Urban: Logit Analyse, Lucius & Lucius Stuttgart 1998, ISBN 3-8282-4306-1
  • David Hosmer, Stanley Lemeshow: Applied logistic regression, Wiley New York 2. Auflage 2000, ISBN 0-471-35632-8
  • Alan Agresti: Categorical Data Analysis, Wiley New York 2. Auflage 2002, ISBN 0-471-36093-7
  • Scott J. Long: Regression Models for Categorical and Limited Dependent Variables, Sage 1997, ISBN 0-803-97374-8

Weblinks

Belege

  1. Allison, Paul David. 1999. Logistic regression using the SAS system theory and application. Cary, N.C.: SAS Institute, S&nbsp.48.

Wikimedia Foundation.

Игры ⚽ Поможем решить контрольную работу

Schlagen Sie auch in anderen Wörterbüchern nach:

  • logistische Regression — Logit Modell …   Universal-Lexikon

  • Logistische Funktion — Die logistische Verteilung charakterisiert eine stetige eindimensionale Wahrscheinlichkeitsverteilung und ist eine funktionelle Darstellung von Sättigungsprozessen aus der Klasse der sogenannten Sigmoidfunktionen mit unbegrenzter zeitlicher… …   Deutsch Wikipedia

  • Logistische Verteilung — Dichte und Verteilungsfunktion der logistischen Verteilung mit den Parametern α=0 und β=0,5 …   Deutsch Wikipedia

  • Multiple Regression — Die Regressionsanalyse ist ein statistisches Analyseverfahren. Ziel ist es, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen festzustellen. Allgemein wird eine metrische Variable Y betrachtet, die von einer… …   Deutsch Wikipedia

  • OLS-Regression — Die Regressionsanalyse ist ein statistisches Analyseverfahren. Ziel ist es, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen festzustellen. Allgemein wird eine metrische Variable Y betrachtet, die von einer… …   Deutsch Wikipedia

  • Lineare Regression — Die lineare Regression ist ein Spezialfall des allgemeinen Konzepts der Regressionsanalyse, mit der versucht wird, eine abhängige Variable durch eine oder mehrere unabhängige Variablen zu erklären das Beiwort linear ergibt sich dabei daraus, dass …   Deutsch Wikipedia

  • Logit-Modell — logistische Regression …   Universal-Lexikon

  • Logit-Modell — Logistische Funktion Unter logistischer Regression oder Logit Modell versteht man ein Verfahren zur (meist multivariaten) Analyse diskreter (z. B. binärer) abhängiger Variablen. Hierbei hat man Daten gegeben, wobei Yi einen binären …   Deutsch Wikipedia

  • Logitmodell — Logistische Funktion Unter logistischer Regression oder Logit Modell versteht man ein Verfahren zur (meist multivariaten) Analyse diskreter (z. B. binärer) abhängiger Variablen. Hierbei hat man Daten gegeben, wobei Yi einen binären …   Deutsch Wikipedia

  • Einfachregression — Die Regressionsanalyse ist ein statistisches Analyseverfahren. Ziel ist es, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen festzustellen. Allgemein wird eine metrische Variable Y betrachtet, die von einer… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”