Post-Hoc-Test

Post-Hoc-Tests sind Signifikanztests aus der mathematischen Statistik. Mit der einfaktoriellen ANOVA, dem Kruskal-Wallis-Test oder dem Median-Test wird nur festgestellt, dass es in einer Gruppe von Mittelwerten signifikante Unterschiede gibt. Die Post-Hoc-Tests geben entweder mit paarweisen Mittelwertvergleichen oder mit Teilgruppenvergleiche Auskunft, welche Mittelwerte sich signifikant voneinander unterscheiden.

Inhaltsverzeichnis

1 Übersicht der Post-Hoc-Tests
2 Voraussetzungen und Notation
3 Tests für den unbalancierten Fall
4 Tests für den balancierten Fall
5 Beispiel
- 5.1 Paarweise Vergleiche
- 5.2 Gruppenweise Vergleiche
6 Literatur

Übersicht der Post-Hoc-Tests

Die Post-Hoc-Tests unterscheiden sich in verschiedenen Kriterien, z.B. sind die Stichprobenumfänge in allen Gruppen gleich (balancierter Fall) oder nicht (unbalancierter Fall) oder ist die Varianz in allen Gruppen gleich (Varianzhomogenität) oder nicht (Varianzheterogenität). Die Varianzhomogenität kann mit dem Levene-Test überprüft werden.

Test	Vergleich von	Varianzhomogenität	Stichprobenumfänge
Least significant difference	Mittelwertpaaren	Nein	Ungleich
Least significant difference-Bonferroni	Mittelwertpaaren	Nein	Ungleich
Sidak	Mittelwertpaaren	Nein
Tamhane $T 2$	Mittelwertpaaren	Nein
Games-Howell	Mittelwertpaaren	Nein
Dunnett's $T 3$	Mittelwertpaaren	Nein
Dunnett's $C$	Mittelwertpaaren	Nein
Ryan-Einot-Gabriel-Welch	überspannten Mittelwerten	Ja
Duncan	überspannten Mittelwerten	Ja	Gleich
Tukey b	überspannten Mittelwerten	Ja
Student Newman-Keuls	überspannten Mittelwerten	Ja	Gleich
Tukey	überspannten Mittelwerten	Ja	Gleich
Hochberg	überspannten Mittelwerten	Ja
Gabriel	überspannten Mittelwerten	Ja
Scheffé	Mittelwertpaaren	Ja	Ungleich

Die Tests können teilweise geordnet werden, je nachdem wie konservativ sie sind:

Konservativ: Scheffe > Tukey > Newman-Keuls > Duncan > Least significant difference > Nicht konservativ.

Voraussetzungen und Notation

Man geht davon aus, dass bei den Mittelwertvergleichen in $m$ Gruppen und bei einem Signifikanzniveau $α$ die Alternativhypothese angenommen wurde, d.h. es existieren Unterschiede zwischen mindestens zwei Gruppenmittelwerten. Die Hypothesen für alle folgenden Tests sind

* für die paarweisen Tests:	$H_0: \mu_i=\mu_j\,$ vs. $H_1: \mu_i\neq\mu_j$ und
* für die überspannten geordneten Mittelwerte:	$H_0: \mu_{(i)}=\mu_{(i+p-1)}\,$ vs. $H_1: \mu_{(i)}\neq\mu_{(i+p-1)}\,$ .

Des Weiteren sei $n i$ die Anzahl der Beobachtungen in der Gruppe $i$ und $n = n 1 + ... + n m$ die Anzahl aller Beobachtungen. Die Tests werden unterschieden in Tests für den balancierten Fall ( $r = n 1 = ... = n m$ ) und für den unbalancierten Fall (die Stichprobenumfänge in den Gruppen können unterschiedlich sein).

Tests für den unbalancierten Fall

Least Significant Difference Test

Im Least Significant Difference Test ist die Teststatistik:

$T=\frac{\bar{X}_i - \bar{X}_j}{S\sqrt{\tfrac1{n_i}+\tfrac1{n_j}}} \sim t_{n-m}$

mit

$S=\tfrac1{n-m}\sum_{j=1}^m (n_j-1) S_j^2$

und $S j$ die Gruppenvarianz der Gruppe $j$ .

Der Least Significant Difference Test beruht auf dem Zweistichproben-t-Test, jedoch wird die Varianz mit Hilfe aller Gruppen berechnet.

Least Significant Difference-Bonferroni Test

Im Least Significant Difference-Bonferroni Test ist die Teststatistik identisch zur Teststatistik im Least Significant Difference Test. Jedoch wird das Signifikanzniveau nach der Bonferroni-Methode korrigiert. Wird die ANOVA mit dem Signifikanzniveau $α$ durchgeführt, so wird das korrigierte Signifikanzniveau $α *$ für die paarweisen Mittelwertvergleiche benutzt:

$\alpha^* = \tfrac2{m(m-1)}\alpha$ .

Die kritischen Werte für das korrigierte Signifikanzniveau finden sich in speziellen Tabellen oder können mit Hilfe der Approximation

$t_{n-m;1-\alpha/2} \approx \frac{z_{1-\alpha}}{1-\tfrac{z_{1-\alpha}^2+1}{4(n-m)}}$

bestimmt werden. $z 1 - α$ ist das $1 - α$ Quantil aus der Standardnormalverteilung.

Der Test sollte nur bei nicht zu großem $m$ angewandt werden, da sonst das korrigierte Signifikanzniveau zu klein wird und sich Nichtablehnungsbereiche der t-Tests überschneiden. Ist z.B. $m = 5$ und $α = 5 %$ , dann ist $α * = 0, 5 %$ .

Scheffé-Test

Einfacher Scheffé Test

Der einfache Scheffé Test prüft $H_0: \mu_i=\mu_j\$ vs. $H_1: \mu_i\neq\mu_j$ mit Hilfe der Teststatistik

$F=\frac{\tfrac1{m-1}(\bar{X}_i-\bar{X}_j)^2}{S^2\left(\tfrac1{n_i}+\tfrac1{n_j}\right)}\sim F_{m-1,n-m}$ .

Der einfache Scheffé Test ist ein Spezielfall des allgemeinen Scheffé Test für einen linearen Kontrast für zwei Mittelwerte.

Linearer Kontrast

Ein linearer Kontrast einer oder mehrerer Mittelwerte ist definiert als

Λ = c 1 μ 1 + ... + c m μ m

mit

c 1 + ... + c m = 0

Für den einfachen Scheffé Test ist der lineare Kontrast:

$c_k = \begin{cases} 1 & k=i \\ -1 & k=j \\ 0 & \text{sonst}\end{cases}$ .

Zwei Kontraste $Λ (1)$ und $Λ (2)$ heissen orthogonal, wenn gilt

$c^{(1)}_1 c^{(2)}_1 + ... + c^{(1)}_m c^{(2)}_m = 0$ .

Allgemeiner Scheffé Test

Für den allgemeinen Scheffé Test sind die Hypothesen $H_0:\Lambda=0\,$ für alle (orthogonalen) Kontraste vs. $H_1:\Lambda\neq0$ für mindestens ein Kontrast. Die Teststatistik ergibt sich zu

$F=\frac{\displaystyle\frac1{m-1}\left(\sum_{j=1}^m c_j \bar{X}_j\right)^2}{\displaystyle S^2\left(\sum_{j=1}^m\frac{c_j}{n_j}\right)}\sim F_{m-1,n-m}$ .

Die Idee beruht auf der Varianzzerlegung des geschätzten Kontrastes $L=c_1 \bar{X}_1 + ... +c_m \bar{X}_m$

$\frac{Var(L)}{Var(L)}=\frac{E(L^2)-E^2(L)}{Var(L)} = \frac{E(L^2)}{Var(L)}$ ,

da unter Gültigkeit der Nullhypothese gilt: $E (L) = 0$ .

Tests für den balancierten Fall

Diese Test sind für den balancierten Fall gedacht, d.h. der Stichprobenumfang in jeder Gruppe ist gleich $r$ . SPSS führt den Test auch durch bei ungleichen Stichprobenumfängen in jeder Gruppe, jedoch wird $r$ dann als das harmonische Mittel der Stichprobenumfänge berechnet.

Die Teststatistik ist für die folgenden Tests immer die gleiche

$Q=\frac{|\bar{X}_i-\bar{X}_{j}|}{S/\sqrt{r}}$ .

Die kritischen Werte $q (α, q, f)$ liegen nur tabelliert vor (meist für $α = 5 %$ oder $α = 10 %$ ). Dabei liegen zwischen den Mittelwerten $i$ und $j$ noch weitere $p - 2$ Mittelwerte.

Tukey-Test

Im Tukey-Test ergeben sich die kritischen Werte aus

$q(\alpha, m, n-m)\,$ ,

d.h. es findet keine Bonferroni Korrektur statt und die Zahl der überspannten Mittelwerte wird nicht berücksichtigt.

Student-Newman-Keuls-Test

Im Student-Newman-Keuls-Test ergeben sich die kritischen Werte aus

$q(\alpha, p, n-m)\,$ ,

d.h. es findet keine Bonferroni Korrektur statt und die Zahl der überspannten Mittelwerte wird berücksichtigt.

Duncan-Test

Im Duncan-Test ergeben sich die kritischen Werte aus

$q(1-(1-\alpha)^{p-1}, p, n-m)\,$ ,

d.h. es findet eine Bonferroni-Korrektur statt und die Zahl der überspannten Mittelwerte wird berücksichtigt.

Beispiel

Mietbelastungsquote in %
Bundesland	Anzahl	Median	Mittel	Std.abw.
Sachsen	1356	19,0	22,3	12,5
Brandenburg	803	19,0	23,4	13,2
Mecklenburg-Vorpommern	491	20,0	22,1	10,3
Thüringen	744	21,0	24,0	13,3
Berlin	998	22,0	24,4	11,9
Baden-Württemberg	3246	22,0	24,8	14,2
Bayern	3954	22,0	25,4	14,2
Nordrhein-Westfalen	5266	23,0	25,8	13,8
Hessen	1904	23,0	26,3	14,3
Sachsen-Anhalt	801	23,0	26,6	14,3
Rheinland-Pfalz	1276	24,0	26,1	13,5
Niedersachsen	2374	24,0	27,9	15,7
Hamburg	528	24,5	29,3	18,9
Schleswig-Holstein	890	25,0	27,9	14,8
Saarland	312	26,0	26,7	11,9
Bremen	194	27,0	29,2	15,8
Deutschland	9527	22,0	25,5	14,0

Für die Mietbelastungsquote (= Anteil der Bruttokaltmiete am Haushaltsnettoeinkommen), entnommen aus den CAMPUS Files für den Mikrozensus 2002 des Statistischen Bundesamtes, ergeben sowohl der nicht-parametrische Median-Test als auch die parametrische einfaktorielle ANOVA hochsignifikante Unterschiede in den Medianen bzw. Mittelwerte der Bundesländer. D.h. es gibt also Unterschiede zwischen den Bundesländern in den mittleren Mietausgaben (im Verhältnis zum Einkommen).

Da der Levene-Test die Nullhypothese der Varianzhomogenität ablehnt und die Beobachtungszahlen sich in der Stichprobe deutlich unterscheiden, bleiben nur folgende Testverfahren zur Unterschiedsbestimmung übrig:

Least significant difference
Least significant difference-Bonferroni
Scheffé

Da der Scheffé-Test in SPSS sowohl paarweise Vergleiche durchführt als auch homogene Untergruppen ausgibt, schauen wir uns dessen Ergebnisse an.

Paarweise Vergleiche

In den jeweiligen paarweisen Vergleichen werden für jede Kombination von zwei Bundesländern ausgegeben:

die Differenz $\bar{x}_i-\bar{x}_j$ ,
der Standardfehler,
der p-Wert (Spalte: Signifikanz), der bei Unterschreitung des vorgegebenen Signifikanzniveaus ein Ablehnung der Gleichheit der Mittelwerte bedeutet, und
ein 95%-Konfidenzintervall für die Differenz der Mittelwert. eEnthält das Konfidenzintervall nicht die Null wird die Nullhypothese zum Signifikanzniveau von 5% abgelehnt.

Bei einem vorgebenen Signifikanzniveau von 5% sind nur die Mittelwerte von Schleswig-Holstein und Sachsen signifikant (p-Wert gleich 2,1%), bei allen anderen Vergleichen mit Schleswig-Holstein nicht.

Gruppenweise Vergleiche

Es wird ein iterativer Prozess durchgeführt um homogene Untergruppen zu finden, d.h Gruppen in denen die Nullhypothese der Gleichheit der Mittelwerte nicht abgelehnt werden. Dazu werden die beobachteten Mittelwerte der Größe nach geordnet $\bar{x}_{(1)}\leq ... \leq \bar{x}_{(16)}$ und eine Folge von Tests durchgeführt.

Überspannte Mittelwerte	Geprüfte Nullhypothesen $H 0$
16				$μ (1) = ... = μ (16)$
15			$μ (1) = ... = μ (15)$		$μ (2) = ... = μ (16)$
14		$μ (1) = ... = μ (14)$		$μ (2) = ... = μ (15)$		$μ (3) = ... = μ (16)$
13	$μ (1) = ... = μ (13)$		$μ (2) = ... = μ (14)$		$μ (3) = ... = μ (15)$		$μ (4) = ... = μ (16)$
...	Im allgemeinen Fall werden weitere Tests mit immer weniger Gruppen durchgeführt
Im Beispiel:	$H 0$ nicht abgelehnt		$H 0$ in zuvor nicht abgelehnter $H 0$ enthalten			$H 0$ abgelehnt

Im ersten Schritt wird die Nullhypothese $H 0 :μ (1) = ... = μ (16)$ getestet und abgelehnt; wir wissen ja schon, dass die Mittelwerte unterschiedlich sind. Dann wird zunächst

das Bundesland mit dem grössten Mittelwert entfernt und die Nullhypothese $H 0 :μ (1) = ... = μ (15)$ getestet und
das Bundesland mit dem kleinsten Mittelwert entfernt und die Nullhypothese $H 0 :μ (2) = ... = μ (16)$ getestet.

In beiden Tests werden nur noch Gruppen mit 15 Bundesländer getestet. Wird die Nullhypothese bei einem der Tests abgelehnt (in der Tabelle rot), so wird aus der Gruppe einmal das Bundesland mit dem grössten Mittelwert und zum anderen das Bundesland mit dem kleinsten Mittelwert entfernt und erneut getestet. Damit wird ein Sequenz von zu testenden Nullhypothesen mit einer immer kleinere werdende Anzahl von Mittelwerten aufgebaut.

Das Verfahren wird abgebrochen, wenn

entweder die Nullhypothesen bei einem der Tests nicht abgelehnt werden kann (in der Tabelle grün),
die betrachetet Nullhypothese bereits Teil einer nicht-abgelehnten Nullhypothese ist (in der Tabelle gelb) oder
nur noch ein Bundesland übrig ist.

Die "grünen" Untergruppen werden von SPSS ausgegeben.

Für das Beispiel ergeben sich zwei homogene Untergruppen mit jeweils 14 Bundesländern. D.h. hier konnte die Nullhypothese der Gleichheit der Mittelwerte nicht abgelehnt werden. Zur besseren Interpretation würde man nicht oder nur wenige überlappende homogene Untergruppen bevorzugen, dies ist jedoch hier mit 12 Bundesländern nicht der Fall und eine Interpretation dieses Ergebnisses entsprechend schwierig.

Literatur

Bernd Rönz: Skript: Computergestützte Statistik I. Humboldt-Universität zu Berlin, Lehrstuhl für Statistik, Berlin 2001.

Kategorien:

Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

Post-hoc analysis — design and analysis of experiments, refers to looking at the data after the experiment has concluded for patterns that were not specified a priori . It is also known as data dredging to evoke the sense that the more one looks the more likely… … Wikipedia
Nemenyi test — In statistics, the Nemenyi test is a post hoc test intended to find the groups of data that differ after a statistical test of multiple comparisons (such as the Friedman test) has rejected the null hypothesis that the performance of the… … Wikipedia
cum hoc ergo propter hoc — (lat. „mit diesem, also deswegen“) bezeichnet einen logischen Fehler, bei dem zwei gemeinsam auftretende (koinzidente) Ereignisse als Ursache und Wirkung (kausal) erklärt werden. Die schließende Person begeht dabei zum einen den Fehler, ohne… … Deutsch Wikipedia
Draize test — PETA photo of a rabbit said to be undergoing a Draize test The Draize Test is an acute toxicity test devised in 1944 by Food and Drug Administration (FDA) toxicologists John H. Draize and Jacob M. Spines. Initially used for testing cosmetics, the … Wikipedia
Friedman test — The Friedman test is a non parametric statistical test developed by the U.S. economist Milton Friedman. Similar to the parametric repeated measures ANOVA, it is used to detect differences in treatments across multiple test attempts. The procedure … Wikipedia
Scheffe's Test — A statistical test that is used to make unplanned comparisons, rather than pre planned comparisons, among group means in an analysis of variance (ANOVA) experiment. While Scheffe s test has the advantage of giving the experimenter the flexibility … Investment dictionary
Omnibus-Test — ist ein Begriff aus der Statistik und bezeichnet eine spezielle Art von statistischen Tests. Der Test prüft nur, ob es einen Unterschied zwischen mehreren Grundgesamtheiten (Gruppen) gibt oder nicht, also H0: Es gibt keinen Unterschied zwischen… … Deutsch Wikipedia
Newman–Keuls method — In statistics, the Newman–Keuls method (named after D. Newman (1939),[1] and M. Keuls (1952)[2]) is a post hoc test used for comparisons after the performed F test (analysis of variance) is found to be significant. The Newman–Keuls method is very … Wikipedia
Interaction variable — In statistics, an interaction variable is a variable often used in regression analysis. It is formed by the multiplication of two independent variables. Example There is a group of participants. Their postural control is being analysed and scored … Wikipedia
Anexo:Sesgos cognitivos — El hombre en el centro ha cometido un error en sus pasos de baile, y choca contra la mujer, que se enoja y los demás murmuran. En la obra de Jane Austen Orgullo y prejuicio (1813) se muestra claramente el prejuicio de clases sociales y cómo el… … Wikipedia Español

Academic dictionaries and encyclopedias

Post-Hoc-Test

Inhaltsverzeichnis

Übersicht der Post-Hoc-Tests

Voraussetzungen und Notation