Zweistichproben-t-Test

Zweistichproben-t-Test

Der Zweistichproben-t-Test ist ein Signifikanztest aus der mathematischen Statistik. Er prüft anhand der Mittelwerte zweier Stichproben, ob die Mittelwerte zweier Grundgesamtheiten einander gleich sind, ggf. gegen die Alternative, dass einer der Mittelwerte kleiner ist als der andere.

Es gibt zwei Varianten des Zweistichproben-t-Tests:

  • den für zwei unabhängige Stichproben mit gleichen Standardabweichungen σ in beiden Grundgesamtheiten und
  • den für zwei abhängige Stichproben.

Liegen zwei unabhängige Stichproben mit ungleichen Standardabweichungen in beiden Grundgesamtheiten vor, so muss der Welch-Test eingesetzt werden.

Inhaltsverzeichnis

Testidee

Der Zweistichproben-t-Test prüft (im einfachsten Fall) mit Hilfe des Mittelwerte \bar{x}_1 und \bar{x}_2 zweier Stichproben, ob die Mittelwerte μ1 und μ2 der zugehörigen Grundgesamtheiten verschieden sind.

Die untenstehende Grafik zeigt zwei Grundgesamtheiten (schwarze Punkte) und zwei Stichproben (blaue und rote Punkte), die zufällig aus den Grundgesamtheiten gezogen wurden. Die Mittelwerte der Stichproben \bar{x}_1 und \bar{x}_2 können aus den Stichproben berechnet werden, die Mittelwerte der Grundgesamtheiten μ1 und μ2 sind jedoch unbekannt. In der Grafik sind die Grundgesamtheiten so konstruiert, dass die beiden Mittelwert gleich sind, also μ1 = μ2. Man vermutet nun, z.B. wegen historischen Ergebnissen oder theoretischen Überlegungen, dass die Mittelwerte μ1 und μ2 der Grundgesamtheiten verschieden sind.

Im einfachsten Fall prüft der Test

  • die Nullhypothese, dass die Mittelwerte der Grundgesamtheiten gleich sind (H_0:\,\mu_1=\mu_2)
  • gegen die Alternativhypothese, dass die Mittelwerte der Grundgesamtheiten ungleich sind (H_1:\,\mu_1\neq\mu_2).
Two sample ttest.svg

Wenn die Stichproben geeignet gezogen wurden, z.B. als einfache Zufallsstichproben, wird der Mittelwert der Stichprobe 1 \bar{x}_1 mit hoher Wahrscheinlichkeit nahe bei dem Mittelwert der Grundgesamtheit 1 μ1 liegen und der Mittelwert der Stichprobe 2 \bar{x}_2 mit hoher Wahrscheinlichkeit nahe bei dem Mittelwert der Grundgesamtheit 2 μ2 liegen. D.h. der waagerechte Abstand zwischen der gestrichelten roten und schwarzen Linie bzw. gestrichelten blaue und schwarzen Linie wird mit hoher Wahrscheinlichkeit klein sein.

  • Ist der Abstand zwischen \bar{x}_1 und \bar{x}_2 klein, d.h. die gestrichelten blaue und rote Linie haben einen kleinen waagerechten Abstand, dann liegen auch die Mittelwerte der Grundgesamtheiten μ1 und μ2 nahe beieinander. Wir können dann die Nullhypothese nicht ablehnen.
  • Ist der Abstand zwischen \bar{x}_1 und \bar{x}_2 groß, d.h. die gestrichelten blaue und rote Linie haben einen großen waagerechten Abstand, dann liegen auch die Mittelwerte der Grundgesamtheiten μ1 und μ2 weit voneinander entfernt. Dann können wir die Nullhypothese ablehnen.

Die genauen mathematischen Berechnungen finden sich in den folgenden Abschnitten.

Zweistichproben-t-Test für unabhängige Stichproben

Um Mittelwertunterschiede zwischen zwei Grundgesamtheiten mit der gleichen unbekannten Standardabweichung σ zu untersuchen, wendet man den Zweistichproben-t-Test an. Dafür muss jede der Grundgesamtheiten normal verteilt sein oder die Stichprobenumfänge müssen so groß sein, dass der zentrale Grenzwertsatz anwendbar ist. Für den Test zieht man eine Stichprobe x_1, \ldots, x_n vom Umfang n aus der 1. Grundgesamtheit und unabhängig davon eine Stichprobe y_1,\ldots,y_m vom Umfang m aus der 2. Grundgesamtheit. Für die zugehörigen unabhängigen Stichprobenvariablen X_1,\ldots,X_n und Y_1,\ldots,Y_m gilt dann E(Xi) = μX und E(Yj) = μY mit den Mittelwerten μX und μY der beiden Grundgesamtheiten. Wird eine Zahl ω0 für die Differenz der Mittelwerte vorgegeben, so lautet die Nullhypothese

H_0:\,\mu_X-\mu_Y=\omega_0

und die Alternativhypothese

H_1:\,\mu_X-\mu_Y \neq \omega_0.

Die Teststatistik ergibt sich zu

T=\frac{\bar X-\bar Y - \omega_0}{S\sqrt{\frac 1n+\frac 1m}} = \sqrt{\frac{nm}{n+m}} \frac{\bar X-\bar Y - \omega_0}{S}.

Darin sind \scriptstyle \bar X und \scriptstyle \bar Y die respektiven Stichprobenmittelwerte und

S^2 = \frac{(n-1)S_X^2 + (m-1)S_Y^2}{n+m-2}

die gewichtete Varianz, berechnet als gewichtetes Mittel der respektiven Stichprobenvarianzen \scriptstyle S_X^2 und \scriptstyle S_Y^2.

Die Teststatistik T ist unter der Nullhypothese t-verteilt mit m + n − 2 Freiheitsgraden. Der Prüfwert, also die Realisation der Teststatistik anhand der Stichprobe, berechnet sich dann als

t=\sqrt{\frac{nm}{n+m}} \frac{\bar x -\bar y - \omega_0}{s}.

Dabei sind \bar x und \bar y die aus der Stichprobe berechneten Mittelwerte und

s^2=\frac{(n-1)s_x^2 + (m-1)s_y^2}{n+m-2}

die Realisation der gewichteten Varianz, berechnet aus den Stichprobenvarianzen \scriptstyle s_x^2 und \scriptstyle s_y^2.

Zum Signifikanzniveau α wird die Nullhypothese abgelehnt zugunsten der Alternative, wenn

|t| > t(1-\tfrac 12 \alpha,\ n+m-2).

Alternativ können folgende Hypothesen mit der gleichen Teststatistik T getestet werden:

  • \!H_0:\mu_X-\mu_Y\leq\omega_0 vs. \!H_1:\mu_X-\mu_Y>\omega_0 und die Nullhypothese wird abgelehnt, wenn t > t(1-\alpha,\ m+n-2) bzw.
  • \!H_0:\mu_X-\mu_Y\geq\omega_0 vs. \!H_1:\mu_X-\mu_Y<\omega_0 und die Nullhypothese wird abgelehnt, wenn t < -t(1-\alpha,\ m+n-2).

Bemerkung

Sind die Varianzen in den Grundgesamtheiten ungleich, dann muss der Welch-Test durchgeführt werden.

Beispiel 1

Zwei Düngemittelsorten sollen verglichen werden. Dazu werden n = 10 Parzellen mit Sorte A und m = 15 Parzellen mit Sorte B gedüngt. Bei ersteren ergibt sich ein mittlerer Ernteertrag \bar x = 23{,}6 mit Stichprobenvarianz s_x^2 = 9{,}5 und bei den anderen Parzellen das Mittel \bar y = 20{,}1 mit Varianz s_y^2 = 8{,}9. Für die gewichtete Varianz berechnet man damit

s^2 = \frac{9\cdot 9{,}5 + 14 \cdot 8{,}9}{10+15-2} = 9{,}135.

Daraus erhält man die Prüfgröße

t = \sqrt{\frac{10 \cdot 15}{10+15}} \cdot \frac{23{,}6-20{,}1}{\sqrt{9{,}135}} = 2{,}837.

Dieser Wert ist größer als das 0,975-Quantil der t-Verteilung mit 10 + 15 − 2 = 23 Freiheitsgraden t(0{,}975;\ 23) = 2{,}069. Es kann also mit einer Konfidenz von 95 \% behauptet werden, dass ein Unterschied in der Wirkung der beiden Düngemittel besteht. Wegen \bar x > \bar y ist Sorte A besser.

Kompaktdarstellung

Zweistichproben-t-Test für zwei unabhängige Stichproben
Voraussetzungen
  • X_1, \ldots,X_n und Y_1 \ldots,Y_m unabhängig voneinander
  • X_i\sim N(\mu_X;\sigma)\, oder X_i\sim (\mu_X;\sigma)\, mit n > 30
  • Y_j\sim N(\mu_Y;\sigma)\, oder Y_j\sim (\mu_Y;\sigma)\, mit m > 30
  • σ unbekannt
Hypothesen H_0: \mu_X-\mu_Y\leq\omega_0\,
H_1: \mu_X-\mu_Y>\omega_0\,
(rechtsseitig)
H_0: \mu_X-\mu_Y=\omega_0\,
H_1: \mu_X-\mu_Y \neq\omega_0\,
(zweiseitig)
H_0: \mu_X-\mu_Y\geq\omega_0\,
H_1: \mu_X-\mu_Y<\omega_0\,
(linksseitig)
Teststatistik T=\sqrt{\frac{nm}{n+m}}\frac{\bar{X}-\bar{Y}-\omega_0}{S} \sim t_{n+m-2}
Prüfwert t=\sqrt{\frac{nm}{n+m}}\frac{\bar{x}-\bar{y}-\omega_0}{s}
mit \bar{x}=\frac{1}{n}\sum_{i=1}^n x_i, \bar{y}=\frac{1}{m}\sum_{i=1}^m y_i,
s_X=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2},

s_Y=\sqrt{\frac{1}{m-1}\sum_{j=1}^m (y_j-\bar{y})^2}
und s=\sqrt{\frac{ {(n-1)s_X^2+(m-1)s_Y^2} }{n+m-2}}

Ablehnungsbereich H0 \{t|t>t_{1-\alpha;n+m-2}\}\, \{t|t<-t_{1-\alpha/2;n+m-2}\}\,
oder
\{t|t>t_{1-\alpha/2;n+m-2}\}\,
\{t|t<-t_{1-\alpha;n+m-2}\}\,

Zweistichproben-t-Test für abhängige Stichproben

Hier sind x_1, x_2, \dots, x_n und y_1, y_2, \dots, y_n zwei paarweise verbundene Stichproben, die beispielsweise aus zwei Messungen an denselben Untersuchungseinheiten gewonnen wurden (Messwiederholung). Die Stichproben können auch aus anderen Gründen paarweise abhängig sein, beispielsweise wenn die x- und y-Werte Messergebnisse von Frauen bzw. Männern in einer Partnerschaft sind und Unterschiede zwischen den Geschlechtern interessieren.

Soll die Nullhypothese getestet werden, dass die beiden Erwartungswerte der zugrunde liegenden normalverteilten Grundgesamtheiten gleich sind, so können mit dem Einstichproben-t-Test die Differenzen di = xiyi auf Null getestet werden. In der Praxis muss bei kleineren Stichprobenumfängen (n\leq30) die Voraussetzung erfüllt sein, dass die Differenzen in der Grundgesamtheit normalverteilt sind. Bei hinreichend großen Stichproben verteilen sich die Differenzen der Paare annähernd normal um das arithmetische Mittel der Differenz der Grundgesamtheit. Insgesamt reagiert der t-Test auf Annahmeverletzung eher robust.[1]

Beispiel 2

Um eine neue Therapie zur Senkung des Cholesterinspiegels zu testen, werden bei zehn Probanden vor und nach der Behandlung die Cholesterinwerte bestimmt. Es ergeben sich die folgenden Messergebnisse:

Vor der Behandlung: 223 259 248 220 287 191 229 270 245 201
Nach der Behandlung: 220 244 243 211 299 170 210 276 252 189
Differenz: 3 15 5 9 -12 21 19 -6 -7 12

Die Differenzen der Messwerte haben das arithmetische Mittel \bar d = 5{,}9 und die Stichprobenstandardabweichung sd = 11,3866. Das ergibt als Prüfgrößenwert

t=\sqrt{10}\frac{5{,}9}{11{,}3866}=1{,}6385.

Es ist t(0{,}975;\ 9) = 2{,}2622, also gilt |t| \leq t(0{,}975;\ 9). Somit kann die Nullhypothese, dass die Erwartungswerte der Cholesterinwerte vor und nach der Behandlung gleich sind, die Therapie also keine Wirkung hat, zum Signifikanzniveau \alpha=5\% nicht abgelehnt werden. Wegen t<t(0{,}95;\ 9) = 1{,}8331 ist auch die einseitige Alternative, dass die Therapie den Cholesterinspiegel senkt, nicht signifikant. Wenn die Behandlung überhaupt einen Effekt hat, so ist dieser nicht groß genug, um ihn mit einem so kleinen Stichprobenumfang zu entdecken.

Kompaktdarstellung

Zweistichproben-t-Test für zwei gepaarte Stichproben
Voraussetzungen
  • D_i=X_i-Y_i\, unabhängig voneinander
  • \bar{D}=\frac{1}{n}\sum_{i=1}^n D_i\sim N(\mu_D; \sigma_D/\sqrt{n}) (zumindest approximativ)
Hypothesen H_0: \mu_X-\mu_Y\leq\omega_0
H_1: \mu_X-\mu_Y>\omega_0\,
(rechtsseitig)
H_0: \mu_X-\mu_Y=\omega_0\,
H_1: \mu_X-\mu_Y\neq\omega_0
(zweiseitig)
H_0: \mu_X-\mu_Y\geq\omega_0
H_1: \mu_X-\mu_Y<\omega_0\,
(linksseitig)
Teststatistik T=\sqrt{n}\frac{\bar{D}-\omega_0}{S_D} \sim t_{n-1}
Prüfwert t=\sqrt{n}\frac{\bar{d}-\omega_0}{s_d}
mit d_i=x_i-y_i\,, \bar{d}=\frac{1}n\sum_{i=1}^n d_i,
und s_d = \sqrt{ \frac{1}{n-1}\sum_{i=1}^n (d_i-\bar{d})^2 }
Ablehnungsbereich H0 [t_{1-\alpha;n-1},\infty)\, (-\infty,-t_{1-\frac{\alpha}2;n-1}]\cup [t_{1-\frac{\alpha}2;n-1},\infty)\, (-\infty,-t_{1-\alpha;n-1}]\,

Welch-Test

Beim Welch-Test wird die Teststatistik ähnlich berechnet wie beim Zweistichproben-t-Test:

T=\frac{\bar X-\bar Y - \omega_0}{\sqrt{\frac{S_X}n+\frac{S_Y}m}}  \approx t_\nu.

Jedoch ist diese Teststatistik unter der Nullhypothese nicht t verteilt, sondern wird mittels einer t-Verteilung mit einer modifizierten Anzahl von Freiheitsgraden approximiert (siehe auch Behrens-Fisher-Problem):

\nu = {\left(\frac{s_x}{n} + \frac{s_y}{m}\right)^2 \over \frac{\left(\frac{s_x}{n}\right)^2}{n-1} + \frac{\left(\frac{s_y}{m}\right)^2}{m-1}}.

Dabei sind sx und sy die aus der Stichprobe geschätzten Standardabweichungen der Grundgesamtheiten sowie n und m die Stichprobenumfänge.

Kompaktdarstellung

Welch-Test
Voraussetzungen
  • X_1, \ldots,X_n und Y_1 \ldots,Y_m unabhängig voneinander
  • X_i\sim N(\mu_X;\sigma_X)\, oder X_i\sim (\mu_X;\sigma_X)\, mit n > 30
  • Y_j\sim N(\mu_Y;\sigma_Y)\, oder Y_j\sim (\mu_Y;\sigma_Y)\, mit m > 30
  • \sigma_X\neq\sigma_Y unbekannt
Hypothesen H_0: \mu_X-\mu_Y\leq\omega_0\,
H_1: \mu_X-\mu_Y>\omega_0\,
(rechtsseitig)
H_0: \mu_X-\mu_Y=\omega_0\,
H_1: \mu_X-\mu_Y \neq\omega_0\,
(zweiseitig)
H_0: \mu_X-\mu_Y\geq\omega_0\,
H_1: \mu_X-\mu_Y<\omega_0\,
(linksseitig)
Teststatistik T=\frac{\bar{X}-\bar{Y}-\omega_0}{S} \approx t_\nu
Prüfwert t=\frac{\bar{x}-\bar{y}-\omega_0}{s}

mit \bar{x}=\frac{1}{n}\sum_{i=1}^n x_i, \bar{y}=\frac{1}{m}\sum_{i=1}^m y_i,
s_x=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2},
s_x=\sqrt{\frac{1}{m-1}\sum_{j=1}^m (y_j-\bar{y})^2},
s=\sqrt{\frac{s_x^2}{n}+\frac{s_y^2}{m}} und
\nu=\frac{\left(\frac{s_x}{n} + \frac{s_y}{m}\right)^2}{\frac{\left(\frac{s_x}{n}\right)^2}{n-1} + \frac{\left(\frac{s_y}{m}\right)^2}{m-1}}.

Ablehnungsbereich H0 \{t|t>t_{1-\alpha;\nu}\}\, \{t|t<-t_{1-\alpha/2;\nu}\}\,
oder
\{t|t>t_{1-\alpha/2;\nu}\}\,
\{t|t<-t_{1-\alpha;\nu}\}\,

Alternative Tests

Der t-Test wird, wie oben ausgeführt, zum Testen von Hypothesen über Erwartungswerte einer oder zweier Stichproben aus normalverteilten Grundgesamtheiten mit unbekannter Standardabweichung verwendet.

Einzelnachweise

  1. Jürgen Bortz: Statistik für Human- und Sozialwissenschaftler. 6. Auflage, Springer, Berlin 2005, ISBN 3-540-21271-X, S. 142.

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Zweistichproben t-Test — Der t Test ist ein Begriff aus der mathematischen Statistik, er bezeichnet eine Gruppe von Hypothesentests. Den t Test im eigentlichen Sinn gibt es nicht. Es handelt sich hier lediglich um einen beliebigen Hypothesentest mit t verteilter… …   Deutsch Wikipedia

  • Gauß-Test — Der Gauß Test ist ein Begriff aus der mathematischen Statistik. Er bezeichnet eine Gruppe von Hypothesentests mit standardnormalverteilter Testprüfgröße. Der Test ist benannt nach Carl Friedrich Gauß. Mit dem Gauß Test werden anhand von… …   Deutsch Wikipedia

  • Einstichproben t-Test — Der t Test ist ein Begriff aus der mathematischen Statistik, er bezeichnet eine Gruppe von Hypothesentests. Den t Test im eigentlichen Sinn gibt es nicht. Es handelt sich hier lediglich um einen beliebigen Hypothesentest mit t verteilter… …   Deutsch Wikipedia

  • T-Test — Der t Test ist ein Begriff aus der mathematischen Statistik, er bezeichnet eine Gruppe von Hypothesentests. Den t Test im eigentlichen Sinn gibt es nicht. Es handelt sich hier lediglich um einen beliebigen Hypothesentest mit t verteilter… …   Deutsch Wikipedia

  • t-Test — Der t Test ist ein Begriff aus der mathematischen Statistik, er bezeichnet eine Gruppe von Hypothesentests mit t verteilter Testprüfgröße. Oft ist jedoch mit dem t Test der Einstichproben bzw. Zweistichproben t Test gemeint. Der Einstichproben t… …   Deutsch Wikipedia

  • Post-Hoc-Test — Post Hoc Tests sind Signifikanztests aus der mathematischen Statistik. Mit der einfaktoriellen ANOVA, dem Kruskal Wallis Test oder dem Median Test wird nur festgestellt, dass es in einer Gruppe von Mittelwerten signifikante Unterschiede gibt. Die …   Deutsch Wikipedia

  • Beurteilung eines Klassifikators — Bei einer Klassifizierung werden Objekte anhand von bestimmten Merkmalen durch einen Klassifikator in verschiedene Klassen eingeordnet. Der Klassifikator macht dabei im Allgemeinen Fehler, ordnet also in manchen Fällen ein Objekt einer falschen… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”