Regressionskoeffizient

Regressionskoeffizient

Der Einfluss einer Variablen in einer mathematischen Gleichung kann durch den Regressionskoeffizienten ausgedrückt werden. Dazu lässt sich mit Hilfe der Regressionsanalyse der Beitrag einer unabhängigen Variable (dem Regressor) für die Prognose der abhängigen Variable herleiten.

Bei einer Multiplen Regression kann es sinnvoll sein, die standardisierten Regressionskoeffizienten zu betrachten, um die Erklärungs- oder Prognosebeiträge der einzelnen unabhängigen Variablen (unabhängig von den bei der Messung der Variablen gewählten Einheiten) miteinander vergleichen zu können, z. B. um zu sehen, welcher Regressor den größten Beitrag zur Prognose der abhängigen Variable leistet.

Die standardisierten Regressionskoeffizienten βj (auch Beta-Werte genannt) ergeben sich aus einer linearen Regression, in der die unabhängigen und abhängigen Variablen standardisiert worden sind, das heißt der Mittelwert gleich Null und die Varianz gleich Eins gesetzt wurde. Sie können auch direkt berechnet werden aus den Regressionskoeffizienten der linearen Regression:

\beta_j = b_j \cdot \frac{s_{x_j}}{s_y}
wobei bj = Regressionskoeffizient für Regressor xj,
sxj Standardabweichung der unabhängigen Variable xj
und sy Standardabweichung der abhängigen Variable y

Sind die standardisierten erklärenden Variablen Z(Xj) untereinander unabhängig und auch unabhängig vom Störterm \epsilon (Voraussetzung im klassischen Regressionsmodell), dann gilt


\begin{align}
1=Var(Z(Y))&=&Var(\beta_0 + \beta_1 Z(X_1) + ... + beta_p Z(X_p) + \epsilon)\\
&=& \beta_1^2 \underbrace{Var(Z(X_1))}_{=1} + ...  + \beta_p^2 \underbrace{Var(Z(X_p))}_{=1} + Var(\epsilon),
\end{align}

das heißt die Summe der quadrierten standardisierten Regressionskoeffizienten ist kleiner gleich Eins. Sind einer oder mehrere der standardisierten Regressionskoeffizienten größer als Eins bzw. kleiner als minus Eins, weist dies auf Multikollinearität hin.

Beispiel

Regressionskoeffizienten in der linearen Regression im Boston Housing Datensatz.

Für die abhängige Variable Mittlerer Hauspreis in selbstbewohnten Häusern pro Bezirk (in 1000 US$) aus dem Boston Housing Datensatz ergibt sich das nebenstehende Regressionsmodell:

  • Jedes Zimmer zusätzlich im Haus verteuert den Kaufpreis um 4873 US$,
  • jeder Kilometer mehr zu einer Arbeitsstätte reduziert den Kaufpreis um 461 US$ und
  • jeder Prozentpunkt mehr beim Anteil der Unterschichtbevölkerung reduziert den Kaufpreis um 723 US$.

Standardisiert man alle Variablen kann man den Einfluss einer erklärenden Variablen auf die abhängige Variable abschätzen:

  • Den größten Einfluss hat die Variable Anteil der Unterschichtbevölkerung: -0,562,
  • der zweitgrößte Einfluss hat die Variable Anzahl Zimmer: 0,372 und
  • die Variable Entfernung zu Arbeitsstätten hat den geringsten Einfluss: -0,106.

Wären die Variablen unabhängig voneinander, könnte man anhand der quadrierten Regressionskoeffizienten den Anteil der erklärten Varianz angeben:

  • Die Variable Anteil der Unterschichtbevölkerung erklärt knapp 32% der Varianz des mittleren Hauspreises (0,316 = − 0,5622),
  • die Variable Anzahl Zimmer erklärt knapp 14% der Varianz des mittleren Hauspreises (0,138 = 0,3722) und
  • die Variable Entfernung zu Arbeitsstätten erklärt etwas mehr als 1% der Varianz des mittleren Hauspreises (0,011 = − 0,1062).

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Lineare Regression — Die lineare Regression ist ein Spezialfall des allgemeinen Konzepts der Regressionsanalyse, mit der versucht wird, eine abhängige Variable durch eine oder mehrere unabhängige Variablen zu erklären das Beiwort linear ergibt sich dabei daraus, dass …   Deutsch Wikipedia

  • Confidence interval — Das Konfidenzintervall (auch Vertrauensbereich oder Mutungsintervall genannt) ist ein Begriff aus der mathematischen Statistik. Er sagt etwas über die Präzision der Lageschätzung eines Parameters (zum Beispiel eines Mittelwertes) aus. Das… …   Deutsch Wikipedia

  • HILCA — Dieser Artikel wurde aufgrund inhaltlicher und/oder formaler Mängel auf der Qualitätssicherungsseite des Portals Wirtschaft eingetragen. Du kannst helfen, indem Du die dort genannten Mängel beseitigst oder Dich an der Diskussion beteiligst. Die H …   Deutsch Wikipedia

  • Intervallschätzung — Das Konfidenzintervall (auch Vertrauensbereich oder Mutungsintervall genannt) ist ein Begriff aus der mathematischen Statistik. Er sagt etwas über die Präzision der Lageschätzung eines Parameters (zum Beispiel eines Mittelwertes) aus. Das… …   Deutsch Wikipedia

  • Konfidenz — Das Konfidenzintervall (auch Vertrauensbereich oder Mutungsintervall genannt) ist ein Begriff aus der mathematischen Statistik. Er sagt etwas über die Präzision der Lageschätzung eines Parameters (zum Beispiel eines Mittelwertes) aus. Das… …   Deutsch Wikipedia

  • Konfidenz-Intervall — Das Konfidenzintervall (auch Vertrauensbereich oder Mutungsintervall genannt) ist ein Begriff aus der mathematischen Statistik. Er sagt etwas über die Präzision der Lageschätzung eines Parameters (zum Beispiel eines Mittelwertes) aus. Das… …   Deutsch Wikipedia

  • Konfidenzbereich — Das Konfidenzintervall (auch Vertrauensbereich oder Mutungsintervall genannt) ist ein Begriff aus der mathematischen Statistik. Er sagt etwas über die Präzision der Lageschätzung eines Parameters (zum Beispiel eines Mittelwertes) aus. Das… …   Deutsch Wikipedia

  • Konfidenzniveau — Das Konfidenzintervall (auch Vertrauensbereich oder Mutungsintervall genannt) ist ein Begriff aus der mathematischen Statistik. Er sagt etwas über die Präzision der Lageschätzung eines Parameters (zum Beispiel eines Mittelwertes) aus. Das… …   Deutsch Wikipedia

  • Kontingenz (Statistik) — Messniveau Zusammenhangsmaß Standardisiertes Zusammenhangsmaß Nominale Merkmale Chi Quadrat Cramers V Ordinale Merkmale Kovarianz für Rangplätze Spearmans Korrelationskoeffizient Metrische Merkmale Kovarianz Korrelationskoeffizient Ein… …   Deutsch Wikipedia

  • Mutungsintervall — Das Konfidenzintervall (auch Vertrauensbereich oder Mutungsintervall genannt) ist ein Begriff aus der mathematischen Statistik. Er sagt etwas über die Präzision der Lageschätzung eines Parameters (zum Beispiel eines Mittelwertes) aus. Das… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”