- Goldfeld-Quandt-Test
-
Der Goldfeld-Quandt-Test ist ein statistischer Test zum Nachweis von Heteroskedastizität (Nicht-konstante Varianz) bei der Regressionsanalyse. Der Test basiert auf dem Vergleich zweier Stichprobenhälften. Er wurde benannt nach Stephen Goldfeld and Richard E. Quandt.[1]
Inhaltsverzeichnis
Vorgehen
Die Stichprobe wird in zwei Teile bzgl. einer erklärenden Variablen geteilt; siehe Grafik. Die beiden Teile müssen disjunkt sein (also keine Beobachtung darf in beiden Teilen sein), beide Teile müssen aber nicht die gesamte Stichprobe umfassen. In der Grafik ist z.B. der Mittelteil der Beobachtungen in keinem Teil (grau). Für beide Teile wird eine Regression geschätzt und die Varianz der Residuen berechnet. Bei Vorliegen von Heteroskedastiztät weist ein Teil der Stichprobe eine hohe Residualvarianz (rot) auf, während ein anderer Teil eine niedrige Residualvarianz (blau) aufweist.
Danach wird für jeden Teil die Stichprobenvarianz der Residuen für i=1,2 bestimmt (mit ) und der Prüfwert mit einem kritischen Wert aus der F-Verteilung verglichen.
Mathematische Formulierung
Voraussetzung
Im klassischen Regressionsmodell gilt Yi1 = f1(xi1) + Ui1 bzw. Yi2 = f2(xi2) + Ui2 mit Ui1∼N(0;σ1) und Ui1∼N(0;σ2). Der Test reagiert sensitiv auf Verletzungen der Normalverteilung der Residuen.
Hypothesen und Teststatistik
Die Null - und die Alternativhypothese lauten
- (Homoskedastizität) vs. (Heteroskedastizität).
Die Verteilung der Teststatistik ergibt sich als
mit ni die Anzahl der Beobachtungen im iten Teil und k die Anzahl der geschätzten Regressionsparameter sowie
- .
Die Nullhypothese (Homoskedastizität) wird verworfen, wenn der Prüfwert größer ist als der kritische Wert aus der F-Verteilung mit n1 − k und n2 − k Freiheitsgraden und einem vorgegebenen Signifikanzniveau α.
Beispiel
Variable Bedeutung medv Mittlerer Kaufpreis eines
Hauses in 1000 US$lstat Anteil Unterschichtbevölkerung rm Durchschnittliche Raumzahl dis Gewichtete Entfernung zu den fünf
wichtigsten BeschäftigtenzentrenFür das Beispiel wurden lineare Regressionen mit dem Boston Housing Datensatz durchgeführt. Für jeden der 506 Bezirke wurden die rechts stehenden Variablen erhoben und eine lineare Regression durchgeführt:
- .
Plottet man die Residuen gegen die Variable dis (Grafik oben) so sieht man, dass die Varianz der Residuen abnimmt, wenn die Werte von dis zunehmen. Man teilt die Daten nun in zwei Teile: den roten und den blauen Teil. Dann fittet man zwei Regressionsmodelle und berechnet die Summe der quadrierten Residuen.
-
Rot Blau
Dann ergibt sich der Prüfwert zu und der kritische Wert für ein Signifikanzniveau α = 5% aus der F-Verteilung mit 108 und 45 Freiheitsgraden zu c = 1,548. Da der Prüfwert größer ist als der kritische Wert muss die Nullhypothese der Homoskedastizität abgelehnt werden.
Einzelnachweise
- ↑ Stephen M. Goldfeld, Quandt, R. E.: Some Tests for Homoscedasticity. In: Journal of the American Statistical Association. 60, Nr. 310, Juni 1965, S. 539–547.
Literatur
Griffiths, William E. / Hill, R. Carter / Judge, George G.: Learning and Practicing Econometrics, 1. Auflage, 1993, Seite 494 ff., ISBN 0471513644
Wikimedia Foundation.