Chi-Quadrat-Anpassungstest

Mit dem $χ 2$ -Test (Chi-Quadrat-Test) untersucht man Verteilungseigenschaften einer statistischen Grundgesamtheit.

Man unterscheidet vor allem die beiden Tests:

Verteilungstest oder Anpassungstest: Hier wird geprüft, ob vorliegende Daten auf eine bestimmte Weise verteilt sind.
Unabhängigkeitstest: Hier wird geprüft, ob zwei Merkmale stochastisch unabhängig sind.

Inhaltsverzeichnis

1 Verteilungstest
2 Unabhängigkeitstest
3 Tabelle der Quantile der Chi-Quadrat-Verteilung
4 Siehe auch
5 Weblinks

Verteilungstest

Man betrachtet ein statistisches Merkmal x, dessen Wahrscheinlichkeiten in der Grundgesamtheit unbekannt sind. Es wird bezüglich der Wahrscheinlichkeiten von x eine vorläufig allgemein formulierte Nullhypothese

H₀: Das Merkmal x hat die Wahrscheinlichkeitsverteilung F_o(x)

aufgestellt.

Vorgehensweise

Die n Beobachtungen von x liegen in m verschiedenen Kategorien j (j = 1, …, m) vor. Treten bei einem Merkmal sehr viele Ausprägungen auf, fasst man sie zweckmäßigerweise in m Klassen zusammen und fasst die Klassenzugehörigkeit als j-te Kategorie auf. Die Zahl der Beobachtungen in einer Kategorie ist die beobachtete Häufigkeit n_j.

Man überlegt sich nun, wie viele Beobachtungen im Mittel in einer Kategorie liegen müssten, wenn x tatsächlich die hypothetische Verteilung hat. Dazu berechnet man zunächst die Wahrscheinlichkeit F_o(x)_j, dass x in diese Kategorie fällt.

$n_{jo}=F_o(x)_j\cdot n$

ist die unter H₀ zu erwartende Häufigkeit.

Die Prüfgröße für den Test ist

$\chi ^2= \sum_{j=1}^m \frac{(n_j-n_{jo})^2}{n_{jo}}$ .

Die Prüfgröße χ² ist bei ausreichend großen n_j annähernd χ²-verteilt mit m-1 Freiheitsgraden.

Wenn die Nullhypothese wahr ist, sollte der Unterschied zwischen der beobachteten und der theoretisch erwarteten Häufigkeit klein sein. Also wird H₀ bei einem hohen Prüfgrößenwert abgelehnt, der Ablehnungsbereich für H₀ liegt rechts.

Bei einem Signifikanzniveau α wird H₀ abgelehnt, wenn χ² > χ²(1-α; m-1), dem (1-α)-Quantil der χ²-Verteilung mit m-1 Freiheitsgraden ist.

Es existieren Tabellen für die χ²-Schwellenwerte in Abhängigkeit von der Anzahl der Freiheitsgrade und vom gewünschten Signifikanzniveau, z. B. [1] oder (knapper) [2].

Soll die Sicherheitsschwelle (= Signifikanzniveau), die zu einem bestimmten χ² gehört, bestimmt werden, so muss in der Regel aus der Tabelle ein Zwischenwert berechnet werden. Dazu verwendet man logarithmische Interpolation.

Besonderheiten

Schätzung von Verteilungsparametern

Im allgemeinen gibt man bei der Verteilungshypothese die Parameter der Verteilung an. Kann man diese nicht angeben, müssen sie aus der Stichprobe geschätzt werden. Hier geht bei der χ²-Verteilung pro geschätztem Parameter ein Freiheitsgrad verloren. Sie hat also m-w-1 Freiheitsgrade mit w als Zahl der geschätzten Parameter.

Mindestgröße der erwarteten Häufigkeiten

Damit die Prüfgröße als annähernd χ²-verteilt betrachtet werden kann, muss jede erwartete Häufigkeit eine gewisse Mindestgröße betragen. Verschiedene Lehrwerke setzen diese bei 1 oder 5 an. Ist die erwartete Häufigkeit zu klein, können gegebenenfalls mehrere Klassen zusammengefasst werden, um die Mindestgröße zu erreichen.

Beispiel zu Anpassungstest

Es liegen von ca. 200 börsennotierten Unternehmen die Umsätze vor. Das folgende Histogramm zeigt ihre Verteilung.

Es sei x: Umsatz eines Unternehmens [Mio. €].

Es soll nun die Hypothese getestet werden, dass x normalverteilt ist.

Da die Daten in vielen verschiedenen Ausprägungen vorliegen, wurden sie in Klassen eingeteilt. Es ergab sich die Tabelle:

Klasse	Intervall		Beobachtete Häufigkeit
j	über	bis	n_j
1	…	0	0
2	0	5000	148
3	5000	10000	17
4	10000	15000	5
5	15000	20000	8
6	20000	25000	4
7	25000	30000	3
8	30000	35000	3
9	35000	...	9
Summe			197

Da keine Parameter vorgegeben werden, werden sie aus der Stichprobe ermittelt. Es sind geschätzt

$\hat \mu = \bar x = 6892$

und

$\hat \sigma = s = 14984.$

Es wird getestet:

H₀: X ist normalverteilt mit dem Erwartungswert μ = 6892 und der Varianz σ² = 14984².

Um die erwarteten Häufigkeiten zu bestimmen, werden zunächst die Wahrscheinlichkeit berechnet, dass X in die vorgegebenen Klassen fällt. Es sei Φ(x|6892;14984²) die Verteilungsfunktion der oben angegebenen Normalverteilung an der Stelle x. Man errechnet dann

$P(X \le 0) = F_{1o} = \Phi(0|6892;14984^2) = 0{,}3228$

$P(0 &amp;lt; X \le 5000) = \Phi(5000|6892;14984^2) - \Phi(0|6892;14984^2) = 0{,}1270$

…

Daraus ergeben sich die erwarteten Häufigkeiten

$n_{1o} = n \cdot F_{1o} = 197 \cdot 0{,}3228 = 63{,}59$

$n_{2o} = 197 \cdot 0{,}1270 = 25{,}02$

…

Es müssten also beispielsweise ca. 25 Unternehmen im Mittel einen Umsatz zwischen 0 und 5000 € haben, wenn das Merkmal Umsatz tatsächlich normalverteilt ist.

Die erwarteten Häufigkeiten sind zusammen mit den beobachteten Häufigkeiten in der folgenden Tabelle aufgeführt.

Klasse	Intervall		Beobachtete Häufigkeit	Wahrscheinlichkeit	Erwartete Häufigkeit
j	über	bis	n_j	F_jo	n_jo
1	…	0	0	0,3228	63,59
2	0	5000	148	0,1270	25,02
3	5000	10000	17	0,1324	26,08
4	10000	15000	5	0,1236	24,35
5	15000	20000	8	0,1034	20,36
6	20000	25000	4	0,0774	15,25
7	25000	30000	3	0,0519	10,23
8	30000	35000	3	0,0312	6,14
9	35000	…	9	0,0303	5,98
Summe			197	1,0000	197,00

Die Prüfgröße wird jetzt folgendermaßen ermittelt:

$\chi^2 = \frac{(0- 63,59)^2}{63{,}59} + \frac{(148 - 25{,}02)^2}{25{,}02} + \dots + \frac{(9 - 5{,}98)^2}{5{,}98} = 710{,}79 .$

Bei einem Signifikanzniveau α = 0,05 liegt der kritische Wert der Testprüfgröße bei χ²(0,95;9-3=6) = 12,59. Da χ² > 12,59 ist, wird die Hypothese abgelehnt. Man kann davon ausgehen, dass das Merkmal Umsatz nicht normalverteilt ist.

Ergänzung

Die Daten wurden logarithmiert. Ein Normalverteilungstest dieser Daten wurde bei einem Signifikanzniveau von 0,05 nicht abgelehnt.

Das folgende Histogramm zeigt die Verteilung der logarithmierten Daten.

Unabhängigkeitstest

Siehe auch: Vierfeldertest

Der Unabhängigkeitstest ist ein Signifikanztest auf Unabhängigkeit in der Kontingenztafel.

Man betrachtet zwei statistische Merkmale x und y, die beliebig skaliert sein können. Man interessiert sich dafür, ob die Merkmale stochastisch unabhängig sind. Es wird die Nullhypothese

H₀: Das Merkmal x ist vom Merkmal y stochastisch unabhängig.

aufgestellt.