Chowtest

Der Chow-Test ist ein statistischer Test mit dem sich die Koeffizienten zweier linearer Regressionen auf Gleichheit testen lassen. Der Test ist nach seinem Erfinder, dem Ökonomen Gregory Chow benannt.

Der Chow-Test wird in der Ökonometrie verwandt, um Zeitreihenanalysen auf Strukturbrüche zu testen. Eine weiteres Anwendungsgebiet ist die Programmevaluation, hierbei werden 2 unterschiedliche Teilgruppen (Programme), wie zum Beispiel 2 Schultypen, miteinander verglichen. Im Gegensatz zur Zeitreihenanalyse lassen sich hier die beiden Teilgruppen keinen aufeinander folgenden Intervallen zuordnen, stattdessen erfolgt die Einteilung nach einen qualitativen Aspekt, wie zum Beispiel den Schultyp.

Strukturbruch	Programmevaluation

Bei $x = 1.7$ liegt ein Strukturbruch vor, Regression auf den Teilintervallen $[0, 1.7]$ und $[1.7, 4]$ liefern eine bessere Modellierung als die Regression über dem Gesamtinerval (gestrichelt)	Vergleich zweier Programme (rot,grün) im selben Datensatz, separate Regressionen auf den zu einem Programm gehörigen Daten liefert eine bessere Modellierung als die Regression über den gesamten Datensatz (schwarz)

Gegeben ist ein Datensatz $(Y i, X i)$ mit $X_i=(x_{i1},\ldots,x_{ik})$ für $i=1\ldots N$ , dessen Beziehung durch eine lineare Funktion mit einen normalverteilten Fehler ( $ε$ ) mit Erwartungswert 0 ( $E (ε) = 0$ ) beschrieben wird (multiple Regressionsanalyse), d.h. man hat

$Y_{i}=c_0+c_1x_{i1}+c_2x_{i2}+\ldots+c_kx_{ik}+\epsilon_i$ für $i=1\ldots N$

Man vermutet jedoch, das sich der Datensatz in 2 Gruppen aufteilen lässt, die durch 2 unterschiedliche lineare Funktionen besser beschrieben werden.

$Y_{i}=a_0+a_1x_{i1}+a_2x_{i2}+\ldots+a_kx_{ik}+\epsilon_i$ für $i=1\ldots N_a$

$Y_{i}=b_0+b_1x_{i1}+b_2x_{i2}+\ldots+b_kx_{ik}+\epsilon_i$ für $i=N_a+1\ldots N$

Hierbei ist $N = N a + N b$ und es wird die Hypothese $H_0:\, (a_0,a_1,\ldots,a_k)=(b_0,b_1,\ldots,b_k)$ gegen $H_1:\, (a_0,a_1,\ldots,a_k)\neq (b_0,b_1,\ldots,b_k)$ gestestet. Bezeichnet man die Summe der quadrierten Residuen der Regression über den gesamten Datensatz mit $S$ und über die beiden Teilgruppen mit $S a$ und $S b$ , dann folgt die unten definierte Testgröße $T$ einer F-Verteilung mit den Freiheitsgraden $k + 1$ und $N a + N b - 2 (k + 1)$ .

$T:=\frac{S-(S_a+S_b)/(k+1)}{(S_a+S_b)/(N_a+N_b-2(k+1))}$

Beispiel

Gegeben ist der folgende Datensatz dess Beziehung durch die lineare $Y = c 0 + c 1 X$ modelliert werden soll:

$X i$	0.5	1.0	1.5	2.0	2.5	3.0	3.5	4.0	4.5	5.0	5.5	6.0
$Y i$	−0.043	0.435	0.149	0.252	0.571	0.555	.678	3.119	2.715	3.671	3.928	3.962

Datenplot legt einen Strukturbruch bei

x = 4

nahe

Ein Datenplot lässt vermuten, dass bei $x = 4$ ein Strukturbruch vorliegt, daher teilt man den Datensatz in 2 Intervalle $[0.5, 3.5]$ und $[4.0, 6.0]$ ein und führt über diesen, zusätzlich zur Regression über den gesamten Datensatz, getrennte Regressionen durch. Dann testet man,ob die beiden Teilregressionen dieselbe lineare Funktion erzeugen, also $H_0:\,(a_0,a_1)=(b_0,b_1)$ gegen $H_0:\,(a_0,a_1)\neq(b_0,b_1)$

Regression auf dem gesamten Datensatz:

$\overline{x}=\frac{1}{12}\sum_{i=1}^{12} X_i=3.250$	$\overline{y}=\frac{1}{12}\sum_{i=1}^{12} Y_i= 1.666$
$S_{xx}=\sum_{i=1}^{12} (X_i-\overline{x})^2=37.750$	$S_{yy}=\sum_{i=1}^{12} (Y_i-\overline{y})^2= 29.771$
$S_{xy}=\sum_{i=1}^{12} (X_i-\overline{x})(Y_i-\overline{y})=30.061$	$S=S_{yy}-\frac{S_{xy}^2}{S_{xx}}=4.933$

Regression auf $[0.5, 3.5]$

$\overline{x}=\frac{1}{7}\sum_{i=1}^{7} X_i=2.000$	$\overline{y}=\frac{1}{7}\sum_{i=1}^{7} Y_i= 0.371$
$S_{xx}=\sum_{i=1}^{7} (X_i-\overline{x})^2=7.000$	$S_{yy}=\sum_{i=1}^{7} (Y_i-\overline{y})^2= 0.408$
$S_{xy}=\sum_{i=1}^{7} (X_i-\overline{x})(Y_i-\overline{y})=1.415$	$S_a=S_{yy}-\frac{S_{xy}^2}{S_{xx}}=0.122$

Regression auf $[4.0, 6.0]$

$\overline{x}=\frac{1}{5}\sum_{i=1}^{5} X_i=5.000$	$\overline{y}=\frac{1}{5}\sum_{i=1}^{5} Y_i= 4.800$
$S_{xx}=\sum_{i=1}^{5} (X_i-\overline{x})^2=2.500$	$S_{yy}=\sum_{i=1}^{5} (Y_i-\overline{y})^2= 1.186$
$S_{xy}=\sum_{i=1}^{5} (X_i-\overline{x})(Y_i-\overline{y})=1.450$	$S_b=S_{yy}-\frac{S_{xy}^2}{S_{xx}}=0.345$

Datenplot mit Regressionsgeraden

Berechnung der Testgröße:

$T:=\frac{S-(S_a+S_b)/(k+1)}{(S_a+S_b)/(N_a+N_b-2(k+1))}=34.484$

wegen $F 0.95 (2, 8) = 4.59$ gilt $T\ge F_{0.95}(2,8)$ , somit kann die Hypothese $H 0$ verworfen werden, d.h. die beiden Regressionsgeraden aus den Teilintervallen sind nicht identisch. Es liegt also ein Strukturbruch vor und die Teilregressionen liefern eine bessere Modellierung als die Regression über den gesamten Datensatz.

Literatur

Howard E. Doran: Applied Regression Analysis in Econometrics. CRC Press 1989, ISBN 0824780493, S.146 (eingeschränkte Online-Version (Google Books))
Christopher Dougherty: Introduction to Econometrics. Oxford University Press 2007, ISBN 0199280967, S.194 (eingeschränkte Online-Version (Google Books))
Gregory C. Chow: Tests of Equality Between Sets of Coefficients in Two Linear Regressions. In: Econometrica. 28(3), 1960, S. 591–605

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Academic dictionaries and encyclopedias

Chowtest

Beispiel

Literatur

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Chowtest

Beispiel

Literatur

Share the article and excerpts

Direct link