Chi-Quadrat-Verteilung

Chi-Quadrat-Verteilung

Die Chi-Quadrat-Verteilung ist eine stetige Wahrscheinlichkeitsverteilung über der Menge der positiven reellen Zahlen. Im Allgemeinen ist mit „Chi-Quadrat-Verteilung“ die zentrale Chi-Quadrat-Verteilung gemeint. Ihr einziger Parameter n muss eine natürliche Zahl sein und heißt ihre Zahl der Freiheitsgrade.

Sie ist eine der Verteilungen, die aus der Normalverteilung abgeleitet wird. Hat man n Zufallsvariablen Zi, die unabhängig und standard normalverteilt sind, so ist die Chi-Quadrat-Verteilung mit n Freiheitsgraden definiert als die Verteilung der Summe der quadrierten Zufallsvariablen  Z_1^2 +\dotsb+ Z_n^2. Solche Summen quadrierter Zufallsvariablen treten bei der Schätzung der Varianz einer Stichprobe auf. Die Chi-Quadrat-Verteilung findet außerdem Anwendung bei den Chi-Quadrat-Tests.

Sie wurde 1875 eingeführt von Friedrich Robert Helmert, die Bezeichnung stammt von Karl Pearson (1900).[1]

Dichten der Chi-Quadrat-Verteilung mit verschiedenen Freiheitsgraden k

Inhaltsverzeichnis

Definition

Dichte und Verteilung von mehreren Chi-Quadrat-verteilten Zufallsgrößen

Die Chi-Quadrat-Verteilung mit n Freiheitsgraden beschreibt die Verteilung der Summe n stochastisch unabhängiger quadrierter standardnormalverteilter Zufallsvariablen

\chi^2_n \sim Z_1^2 + \dotsb + Z_n^2,  mit Z_k\sim \mathcal{N}(0,1) für k = 1, \dots, n.

Das Zeichen \,\sim ist Kurzschreibweise für ' ist verteilt wie '. Die Summe quadrierter Größen kann keine negativen Werte annehmen.

Dichte

Die Dichte fn der \chi_n^2-Verteilung mit n Freiheitsgraden hat die Form:

f_n(x) =
    \begin{cases}\displaystyle
      \frac{x^{\frac{n}{2}-1}e^{ -\frac x2}}{2^{\frac{n}{2}}\Gamma(\tfrac{n}{2})} & x>0 \\ 
      0                                                                                        & x\leq 0
    \end{cases}

Dabei steht Γ(r) für die Gammafunktion. Die Werte von \Gamma(\tfrac{n}{2}) kann man auch berechnen mit

\Gamma(\tfrac{1}{2}) = \sqrt\pi \; , \quad \Gamma(1) = 1 \; ,
\Gamma(r+1) = r \cdot \Gamma(r) \; \; \mbox{mit} \; r \in \mathbb{R}^+ .

Verteilungsfunktion

Die Verteilungsfunktion kann man mit Hilfe der regularisierten unvollständigen Gammafunktion schreiben:

F_n(x)= P(\tfrac n2,\tfrac x2).

Wenn n eine natürliche Zahl ist, dann kann die Verteilungsfunktion (mehr oder weniger) elementar dargestellt werden:

P(\tfrac n2,\tfrac x2)=1-e^{ -\frac x2}\sum\limits_{k=0}^{n/2-1} \frac 1{\Gamma(k+1)} (\tfrac x2)^k, (n=2,4,\ldots),
P(\tfrac n2,\tfrac x2)=\operatorname{Erf}(\sqrt{\tfrac x2})-e^{ -\frac x2}\sum\limits_{k=0}^{\lfloor n/2\rfloor -1}\frac 1{\Gamma(k+\tfrac 32)} (\tfrac x2)^{k+\tfrac 12}, (n=1,3,\ldots),

wobei Erf die Fehlerfunktion bezeichnet. Die Verteilungsfunktion beschreibt die Wahrscheinlichkeit, dass \chi_n^2 im Intervall [0, x] liegt.

Eigenschaften

Erwartungswert

Der Erwartungswert der Chi-Quadrat-Verteilung mit n Freiheitsgraden ist

 \operatorname{E}\left(\chi^2_n\right) = n.

Unter der Voraussetzung einer standardnormalverteilten Grundgesamtheit sollte also bei richtiger Abschätzung der Varianz der Grundgesamtheit der Wert \chi_n^2 /n in der Nähe von 1 liegen.

Varianz

Die Varianz der Chi-Quadrat-Verteilung mit n Freiheitsgraden ist

\operatorname{Var}(\chi^2_n) = 2n.

Modus

Der Modus der Chi-Quadrat-Verteilung mit n Freiheitsgraden ist n − 2 für n\ge 2.

Schiefe

Die Schiefe v der Chi-Quadrat-Verteilung mit n Freiheitsgraden ist

\operatorname{v}(\chi^2_n) = \frac{2 \sqrt{2}}{\sqrt{n}}.

Die Chi-Quadrat-Verteilung besitzt eine positive Schiefe, d.h. sie ist linkssteil bzw. rechtsschief. Je höher die Anzahl der Freiheitsgrade n, desto weniger schief ist die Verteilung.

Kurtosis

Die Kurtosis (Wölbung) β2 der Chi-Quadrat-Verteilung mit n Freiheitsgraden ist gegeben durch

\beta_2=3 + \frac{12}{n}.

Der Exzess γ2 gegenüber der Normalverteilung ergibt sich damit zu  \gamma_2=\frac{12}{n}.[2] Daher gilt: Je höher die Anzahl der Freiheitsgrade n, desto geringer der Exzess.

Charakteristische Funktion

Die charakteristische Funktion für X \sim \chi_n^2 hat die Form

\varphi_X(s) = \frac{1}{(1-2 i s)^{n/2}}.

Summe χ2-verteilter Zufallsvariablen

Sind X_1,X_2,\ldots,X_n unabhängige Zufallsvariable, mit \,X_i\sim\chi^2(\nu_i), so gilt:

\sum_{i=1}^n X_i \sim\chi^2\left(\sum_{i=1}^n \nu_i\right)
.

Die Chi-Quadrat-Verteilung ist also reproduktiv.

Nichtzentrale Chi-Quadrat-Verteilung

Wenn die normalverteilten Zufallsvariablen nicht bezüglich ihres Erwartungswertes \mu_i (i = 1, \ldots , n) zentriert sind (d.h. wenn nicht alle μi = 0 sind), erhält man die nichtzentrale Chi-Quadrat-Verteilung. Sie hat als zweiten Parameter neben n den Nichtzentralitätsparameter λ > 0.

Seien Z_i \sim \mathcal{N}(\mu_i,1),\,i=1,2,\ldots, n, so ist

\sum_{i=1}^n {Z_i}^2\sim \chi^2(n,\lambda) mit \lambda=\sum_{i=1}^n {\mu_i}^2.

Insbesondere folgt aus \,X\sim\chi^2(n-1) und Z\sim\mathcal{N}(\sqrt{\lambda},1), dass \,X+Z^2\sim\chi^2(n,\lambda) ist.

Eine zweite Möglichkeit, eine nichtzentrale Chi-Quadrat-Verteilung zu erzeugen, ist als Mischverteilung der zentralen Chi-Quadrat-Verteilung. Dabei ist

\chi^2(n+2\,j)=\chi^2(n,\lambda),

wenn j\sim\mathcal{P}\left(\tfrac{\lambda}{2}\right) aus einer Poisson-Verteilung gezogen wird.

Dichtefunktion

Die Dichtefunktion der nichtzentralen Chi-Quadrat-Verteilung ist

f(x)=\frac{\exp{\left[-\frac{1}{2}(x+\lambda)\right]}}{2^{\frac{n}{2}}}\,
\sum_{j=0}^\infty \frac{x^{\frac{n}{2}+j-1}\lambda^j}{2^{2j}\,\Gamma\left(\frac{n}{2}+j\right)\,j!} für x\ge 0 , \,f(x)=0 für \,x< 0 .
Darstellung durch modifizierte Bessel-Funktion

Die Dichtefunktion kann alternativ auch mit Hilfe der modifizierten Bessel-Funktion erster Gattung Iq(x) dargestellt werden:

f(x)=\frac{\exp{\left[-\frac{1}{2}(x+\lambda)\right]} x^{\frac{1}{2}(n-1)} \sqrt{\lambda}}{2(\lambda x)^{\frac{n}{4}}}\,
I_{\frac{n}{2}-1}\left(\sqrt{\lambda x}\right) für x\ge 0.

Verteilungsfunktion

Die Verteilungsfunktion der nichtzentralen Chi-Quadrat-Verteilung kann mit Hilfe der Marcum-Q-Funktion QM(a,b) dargestellt werden. [3]

F (x) = 1 - Q_{\frac{n}{2}} \left( \sqrt{\lambda}, \sqrt{x} \right)

Beispiel

Man macht n Messungen einer Größe x, die aus einer normalverteilten Grundgesamtheit stammen. Sei \overline{x} der Mittelwert der n gemessenen Werte und

s^2=\frac{1}{n-1}\sum_{k=1}^n(x_k-\overline{x})^2

die Stichprobenvarianz. Dann lässt sich z. B. das 95%-Konfidenzintervall für die Varianz σ2 angeben:

\tfrac{n-1}{\chi_b^2}\,s^2\leq\sigma^2\leq\tfrac{n-1}{\chi_a^2}\,s^2,

wobei \chi_b^2 durch F_{n-1}(\chi_b^2)= 0.975 und \chi_a^2 durch F_{n-1}(\chi_a^2)= 0.025 bestimmt wird, und deshalb auch \chi_a^2\leq n-1\leq\chi_b^2. Die Grenzen ergeben sich daraus, dass \tfrac{(n-1)s^2}{\sigma^2} wie \chi_{n-1}^2 verteilt ist.

Herleitung der Verteilung der Stichprobenvarianz

Sei x_{1},\dots, x_{n } eine Stichprobe von n Messwerten, gezogen aus einer normalverteilten Zufallsvariablen X mit arithmetischem Mittelwert \overline{x}=\tfrac{1}{n}\sum_{k=1}^n x_i und Stichprobenvarianz s^2=\tfrac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2 als Schätzfunktionen für Mittelwert μ und Varianz σ2 der Grundgesamtheit.

Dann lässt sich zeigen, dass \tfrac{(n-1)s^2}{\sigma^2}=\sum_{i=1}^n \tfrac{(x_i-\overline{x})^2}{\sigma^2} verteilt ist wie \chi_{n-1}^2.

Dazu werden nach Helmert[4] die (xi) mittels einer orthonormalen Linearkombination in neue Variablen (yj) transformiert. Die Transformation lautet:

y_{1}=\tfrac{1}{\sqrt{2}}x_{1}-\tfrac{1}{\sqrt{2}}x_{2}
y_{2}=\tfrac{1}{\sqrt{6}}x_{1}+\tfrac{1}{\sqrt{6}}x_{2}-\tfrac{2}{\sqrt{6}}x_{3}
   \vdots
y_{n-1}=\tfrac{1}{\sqrt{n(n-1)}}x_{1}+\tfrac{1}{\sqrt{n(n-1)}}x_{2}+\dotsb +\tfrac{1}{\sqrt{n(n-1)}}x_{n-1}-\tfrac{n-1}{\sqrt{n(n-1)}}x_{n}
y_{n}=\tfrac{1}{\sqrt{n}}x_{1}+\tfrac{1}{\sqrt{n}}x_{2}+\dotsb +\tfrac{1}{\sqrt{n}}x_{n-1}+\tfrac{1}{\sqrt{n}}x_{n}=\sqrt{n}\overline{x}.

Die neuen unabhängigen Variablen yi sind wie X normalverteilt mit gleicher Varianz \sigma_{y_i}^2=\sigma_{x_i}^2=\sigma^2, (i=1,\dots, n), aber mit Erwartungswert \mathrm{E}(y_i) = 0, (i=1,\dots, n-1), beides aufgrund der Faltungsinvarianz der Normalverteilung.

Außerdem gilt für die Koeffizienten aij in y_{i}=\sum_{j=1}^n a_{i j}x_{j} wegen der Orthonormalität \sum_{i=1}^n a_{i j}a_{i k}=\delta_{j k} (Kronecker-Delta) und damit \sum_{i=1}^n y_{i}^2=\sum_{i=1}^n x_{i}^2.

Deshalb ergibt sich nun

(n-1) s^2=\sum_{i=1}^n (x_i-\overline{x})^2=\sum_{i=1}^n x_{i}^2-n\overline{x}^2=\sum_{i=1}^n y_{i}^2-y_{n}^2=\sum_{i=1}^{n-1} y_{i}^2

und schlussendlich nach Division durch σ2

(n-1)\frac{s^2}{\sigma^2}=\sum_{i=1}^{n-1} \frac{y_i^2}{\sigma^2}.

Der Ausdruck auf der linken Seite ist offenbar verteilt wie eine Summe von quadrierten standardnormalverteilten unabhängigen Variablen mit n − 1 Summanden, wie für \chi_{n-1}^2 gefordert.

Demnach ist also \sum_{i=1}^n \left( \tfrac{x_i-\overline{x}}{\sigma} \right)^2 \sim \chi_{n-1}^2, während laut Definition der Chi-Quadrat-Summe \sum_{i=1}^n \left( \tfrac{x_i-\mu}{\sigma} \right)^2 \sim \chi_{n}^2. Ein Freiheitsgrad wird hier 'verbraucht', denn der berechnete Mittelwert  \overline{x}=\tfrac{1}{n}\sum x_i ist im Gegensatz zum Mittelwert der Grundgesamtheit μ von den  \ x_i abhängig.

Beziehung zu anderen Verteilungen

Beziehung zur Gammaverteilung

Die Chi-Quadrat-Verteilung ist ein Spezialfall der Gammaverteilung. Ist X\sim \chi^2_n, so gilt

X \sim \Gamma(\tfrac{n}{2},\tfrac{1}{2}).

Beziehung zur Normalverteilung

Quantile einer Normalverteilung und einer Chi-Quadrat-Verteilung
  • Für n \geq 30 ist Y = \sqrt{2X} - \sqrt{2n-1} näherungsweise standardnormalverteilt.
  • Für n > 100 ist die Zufallsvariable X näherungsweise normalverteilt, mit Erwartungswert n und Standardabweichung \sqrt{2n} bzw. bei einer nicht-zentralen Chi-Quadrat-Verteilung mit Erwartungswert n + λ und Standardabweichung \sqrt{2n + 4 \lambda}.

Beziehung zur Exponentialverteilung

Eine Chi-Quadrat-Verteilung mit 2 Freiheitsgraden ist eine Exponentialverteilung \operatorname{Exp}(g) mit dem Parameter \, g=1/2.

Beziehung zur Erlang-Verteilung

Eine Chi-Quadrat-Verteilung mit 2n Freiheitsgraden ist identisch mit einer Erlang-Verteilung \operatorname{Erl}(g,n) mit n Freiheitsgraden und \, g=1/2.

Beziehung zur F -Verteilung

Wenn Y_{m}\, und X_{n}\, unabhängige \chi^{2}\,-verteilte Zufallsvariablen mit den Freiheitsgraden m und n sind, dann ist der Quotient

F_{m,n}=\frac{Y_{m}/m}{X_{n}/n}

eine Zufallsvariable, die der F-Verteilung mit den Freiheitsgraden (m,\,n) genügt.

Beziehung zur stetigen Gleichverteilung

Für gerade n = 2m kann man die \chi_n^2-Verteilung als m-fache Faltung bilden mit Hilfe der gleichmäßig stetigen Dichte U(0,1):

\chi_n^2 = -\frac 12\ln{\left(\prod_{i=1}^m u_i\right)}=-\frac 12\sum_{i=1}^m \ln(u_i),

worin die ui m unabhängige gleichmäßig stetig verteilte Zufallsvariablen sind.

Für ungerade n gilt dagegen

\chi_n^2 = \chi_{n-1}^2 + \left[\mathcal{N}(0,1)\right]^{2}

Herleitung der Dichtefunktion

Die Dichte der Zufallsvariable \chi^2_n=X_1^2+\dotsb + X_n^2, mit X_1,\dots ,X_n unabhängig und standardnormalverteilt, ergibt sich aus der gemeinsamen Dichte der Zufallsvariablen X_1,\dots ,X_n. Diese gemeinsame Dichte ist das n-fache Produkt der Standardnormalverteilungsdichte:

f_{X_1,\dots ,X_n}(x_1,\dots ,x_n)=\prod_{i=1}^n \frac{e^{-\frac12 x_i^2}}{\sqrt{2\pi}}=(2\pi)^{-\frac n2} e^{-\frac 12 (x_1^2+ \dotsb +x_n^2)}.

Für die gesuchte Dichte gilt:


\begin{align}
f_{\chi^2_n}(z) & =\lim_{h\to 0} \tfrac 1h P(z< \chi^2_n \le z+h) \\
& =\lim_{h\to 0} \tfrac 1h \int\limits_K (2\pi)^{-\frac n2} e^{-\frac 12 (x_1^2+ \dotsb +x_n^2)}\,dx_1 \ldots dx_n \\
& =(2\pi)^{-\tfrac n2} e^{-\frac z2} \lim_{h\to 0} \tfrac 1h \int\limits_K dx_1\ldots dx_n \\
\end{align}

mit K=\{z\leq x_1^2+ \dotsb +x_n^2\leq z+h\}.

Im Grenzwert ist die Summe im Argument der Exponentialfunktion gleich z, sie darf deshalb vor das Integral und den Limes gezogen werden.

Das verbleibende Integral

\int\limits_K dx_1\ldots dx_n = V_n(\sqrt{z+h})-V_n(\sqrt z)

entspricht dem Volumen der Schale zwischen der Kugel mit Radius \sqrt{z+h} und der Kugel mit Radius \sqrt z ,

wobei V_n(R)= \frac{\pi^{\frac n2}R^n}{\Gamma(\frac n2+1)} das Volumen der n-dimensionalen Kugel mit Radius R angibt.

Es folgt: 
\lim_{h\to 0} \frac 1h \int\limits_K dx_1\ldots dx_n = \frac{dV_n(\sqrt{z})}{dz} =\frac{\pi^{\tfrac n2}z^{\tfrac n2-1}}{\Gamma(\tfrac n2)}

und nach Einsetzen in den Ausdruck für die gesuchte Dichte:


f_{\chi^2_n}(z)= \frac{z^{\frac n2-1}e^{-\frac z2}}{2^{\frac n2}\Gamma(\frac n2)}
.

Quantilfunktion

Die Quantilfunktion der χ2-Verteilung xp ist die Lösung der Gleichung p=P(\tfrac n2 , \tfrac {x_p}2) und damit prinzipiell über die Umkehrfunktion zu berechnen. Konkret gilt hier

x_p=2 P^{-1}\left(\tfrac n2 ,p\right),

mit P − 1 als Inverse der regularisierten unvollständigen Gammafunktion. Dieser Wert xp ist in der Quantiltabelle unter den Koordinaten p und n eingetragen.

Für wenige Werte n (1, 2, 4) kann man die Quantilfunktion explizit angeben:

 n=1:  x_p=2 (\operatorname{Erf}^{-1}(p))^2 ,
 n=2:  x_p=-2\, \ln(1-p),
 n=4:  x_p=-2 \,(1+W_{-1}(-(1-p)/e)) ,

wobei  \operatorname{Erf} die Fehlerfunktion, W_{-1}(x)\, den unteren Zweig der Lambertschen W-Funktion bezeichnet und e die Eulersche Zahl.

Literatur

  • Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik. 12. Auflage. Oldenbourg, 1999, ISBN 3-486-24984-3, S. 152 ff.

Einzelnachweise

  1. F. R. Helmert. In: Zeitschrift fuer Math. und Physik 21, 1875, S. 102-219. Karl Pearson: On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it Can Reasonably Be Supposed to have Arisen from Random Sampling. In: Philosophical Magazine 5, Band 50, 1900, S. 157-175. Zitiert nach L. Schmetterer: Mathematische Statistik. Springer, Wien 1966, S. 93
  2. Wolfram Mathworld
  3. Albert H. Nuttall: Some Integrals Involving the QM Function. In: IEEE Transactions on Information Theory. Nr. 21, 1975, ISSN 0018-9448, S. 95–96 (IEEE Xplore).
  4. Helmert, Astronomische Nachrichten 88, 1876, S.113-132

Weblinks


Wikimedia Foundation.

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Chi-Quadrat-Verteilung —   [çiː ], χ2 Verteilung, ältere Bezeichnung Hẹlmert Pearson Verteilung [ pɪəsn , nach K. Pearson], Stochastik: die 1876 von F. R. Helmert angegebene Verteilung χn2 mit n Freiheitsgraden, definiert als die Verteilung der Summe der Quadrate von n… …   Universal-Lexikon

  • Chi-Quadrat-Verteilung — stetige theoretische ⇡ Verteilung, die durch Helmert (1876) und Pearson (1900) als Prüfverteilung eingeführt wurde. Sind n ⇡ Zufallsvariablen Xi (i = 1, ..., n) stochastisch unabhängig und jeweils standardnormalverteilt (⇡… …   Lexikon der Economics

  • Chi-Quadrat — (χ2) ist eine Testgröße, mittels der ein Signifikanztest (auch: statistischer Test), der Chi Quadrat Test, durchgeführt wird. Der Chi Quadrat Test basiert auf dem Vergleich zwischen erwarteten und beobachteten Werten zweier Merkmale in einer… …   Deutsch Wikipedia

  • Chi-Quadrat-Statistik — Chi Quadrat (χ2) ist eine Testgröße, mittels der ein Signifikanztest (auch: statistischer Test), der Chi Quadrat Test, durchgeführt wird. Der Chi Quadrat Test basiert auf dem Vergleich zwischen erwarteten und beobachteten Werten zweier Merkmale… …   Deutsch Wikipedia

  • Chi Quadrat — (χ2) ist eine Testgröße, mittels der ein Signifikanztest (auch: statistischer Test), der Chi Quadrat Test, durchgeführt wird. Der Chi Quadrat Test basiert auf dem Vergleich zwischen erwarteten und beobachteten Werten zweier Merkmale in einer… …   Deutsch Wikipedia

  • Chi-Quadrat-Test — Mit Chi Quadrat Test (χ² Test) bezeichnet man in der mathematischen Statistik eine Gruppe von Hypothesentests mit χ² verteilter Testprüfgröße. Man unterscheidet vor allem die folgenden Tests: Verteilungstest oder Anpassungstest: Hier wird geprüft …   Deutsch Wikipedia

  • Chi-Quadrat-Anpassungstest — Mit dem χ2 Test (Chi Quadrat Test) untersucht man Verteilungseigenschaften einer statistischen Grundgesamtheit. Man unterscheidet vor allem die beiden Tests: Verteilungstest oder Anpassungstest: Hier wird geprüft, ob vorliegende Daten auf eine… …   Deutsch Wikipedia

  • Chi Quadrat Test — Mit dem χ2 Test (Chi Quadrat Test) untersucht man Verteilungseigenschaften einer statistischen Grundgesamtheit. Man unterscheidet vor allem die beiden Tests: Verteilungstest oder Anpassungstest: Hier wird geprüft, ob vorliegende Daten auf eine… …   Deutsch Wikipedia

  • Chi-Quadrat-Test — ⇡ statistisches Testverfahren; zentrale Anwendung: Prüfung einer Hypothese über die Verteilung eines Merkmals (Anpassungstest), z.B. Prüfung einer Hypothese über die ⇡ Anteilswerte pi (i = 1, ..., k) der Kategorien eines ⇡ qualitativen… …   Lexikon der Economics

  • Chi-Quadrat-Test — Chi Quadrat Test,   ein häufig angewandtes statistisches Verfahren (Statistik), mit dessen Hilfe z. B. Häufigkeitsunterschiede bei mehrklassigen qualitativen Merkmalen auf Signifikanz geprüft werden können. Mit dem Chi Quadrat Test lässt sich… …   Universal-Lexikon

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”