- Multikollinearität
-
Multikollinearität ist ein Problem der Regressionsanalyse und liegt vor, wenn zwei oder mehr erklärende Variablen eine sehr starke Korrelation miteinander haben. Zum einen wird mit zunehmender Multikollinearität das Verfahren zur Schätzung der Regressionskoeffizienten instabil und Aussagen zur Schätzung der Regressionskoeffizienten zunehmend ungenau. Zum anderen ist die Modellinterpretation nicht mehr eindeutig.
Inhaltsverzeichnis
Probleme der Multikollinearität
Perfekte Kollinearität macht die rechnerische Durchführung der linearen Regressionsanalyse unmöglich und tritt meist als Folge der Fehlspezifikation des zu Grunde liegenden Modells auf.
Numerische Instabilität
Mathematisch lässt sich die Lösung des linearen Regressionsproblems yi = b0 + b1xi,1 + ... + bpxi,p für die Regressionkoeffizienten der mit der Kleinste-Quadrate-Methode darstellen als
- .
Der Vektor enthält die geschätzten Regressionsparameter, der Vektor y = (y1,...,yn) und die Matrix
die n p-dimensionalen Beobachtungswerte. Das Problem ist die Berechnung der Inversen von ; je stärker die Multikollinearität ist, desto mehr nähert sich einer singulären Matrix an, d.h. es existiert keine Inverse.
Modellinterpretation
Wenn das Regressionsmodell y = b0 + b1x1 + b2x2 ist und perfekte Multikollinearität vorliegt, d.h.
- oder umgestellt
und setzt beide Gleichungen jeweils in das Regressionmodell ein, so erhält man
- (1)
- (2)
Im Modell (1) hängt y nur noch von x1 ab und im Modell (2) hängt y nur noch von x2 ab. Es stellt sich nun die Frage, welches Modell ist das "Richtige"? In der Ökonomie spricht man von nicht identifizierbaren Modellen.
Identifikation von Multikollinearität
Weil empirische Daten immer einen gewissen Grad an Multikollinearität aufweisen, wurden Kennzahlen entwickelt, die Hinweise auf Multikollinearität liefern. Einen eindeutigen Richtwert gibt es jedoch nicht.
Korrelation
Zur Aufdeckung von Multikollinearität dient z. B. die Analyse der Korrelationskoeffizienten der Regressoren. Sehr hohe positive oder negative Korrelationskoeffizienten zeigen einen starken Zusammenhang zwischen den Regressoren und damit Multikollinearität an. Eine niedrige Korrelation zwischen den Regressoren bedeutet jedoch nicht automatisch die Abwesenheit von Multikollinearität; auch lineare Kombinationen von Regressoren, die eine hohe positive oder negative Korrelation aufweisen, z.B. zwischen d1x1 + d2x2 und d3x3 + d4x4, führen zu den oben genannten Problemen.
Bestimmtheitsmaß
Ein hohes Bestimmtheitsmaß der linearen Regressionen , d.h. der ite Regressor wird durch alle anderen Regressoren gut vorhergesagt, zeigt Multikollinearität an.
Toleranz
Die Toleranz wird zur Einschätzung der Multikollinearität benutzt. Ein Wert von Ti < 0.2 deutet auf eine starke Multikollinearität hin.
Varianzinflationsfaktor
Wenn der Varianzinflationsfaktor größer als 4 ist, ist dies ein Hinweis auf starke Multikollinearität.
Konditionsindex
Die Matrix ist positiv semi-definit, d.h. alle Eigenwerte λi der Matrix sind positiv oder Null. Wird die Matrix singulär, dann ist mindestens ein Eigenwert gleich Null. Ist der Konditionsindex
für ein KIj größer als 30 spricht man ebenfalls von starker Multikollinearität.
Literatur
- Backhaus, K., Erichson, B., Plinke, W., Weiber, R.: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Berlin u.a., 11. Auflage 2006, S.89-92. ISBN 3-540-27870-2
Siehe auch
Wikimedia Foundation.