Wilcoxon-Vorzeichen-Rang-Test

Der Wilcoxon-Vorzeichen-Rang-Test ist ein nichtparametrischer statistischer Test. Er prüft anhand zweier gepaarter Stichproben die Gleichheit der zentralen Tendenzen der zugrundeliegenden (verbundenen) Grundgesamtheiten. Im Anwendungsbereich ergänzt er den Vorzeichentest, da er nicht nur die Richtung (d. h. das Vorzeichen) der Differenzen, sondern auch die Höhe der Differenzen zwischen zwei gepaarten Stichproben berücksichtigt.^[1] Der Test ist eine Alternative zu Student’s t-Test, falls für die zugrundeliegende Population keine Normalverteilung angenommen werden kann.

Der Wilcoxon-Vorzeichen-Rang-Test wurde vom Chemiker und Statistiker Frank Wilcoxon (1892–1965) vorgeschlagen und durch das Lehrbuch von Sidney Siegel – Nonparametric Statistics for the Behavioural Sciences – populär.

Inhaltsverzeichnis

1 Hypothesen und Voraussetzungen
2 Teststatistik
- 2.1 Bindungen bei den Rängen
3 Beispiel
4 Vergleich mit dem Vorzeichentest
5 Einzelnachweise
6 Literatur

Hypothesen und Voraussetzungen

Für den Test bzgl. der beiden Mediane $\tilde{x}_1$ und $\tilde{x}_2$ gibt es drei mögliche Hypothesenpaare:

zweiseitig: $H_0: \tilde{x}_1=\tilde{x}_2$ vs. $H_1: \tilde{x}_1\neq\tilde{x}_2$ .
einseitige: $H_0: \tilde{x}_1\leq\tilde{x}_2$ vs. $H_1: \tilde{x}_1>\<span class=$ tilde{x}_2" border="0"> bzw. $H_0: \tilde{x}_1\geq\tilde{x}_2$ vs. $H_1: \tilde{x}_1<\tilde{x}_2$ .

Eine Voraussetzung ist, dass die Stichprobenvariablen $D i$

D i = X i, 1 - X i, 2

unabhängig, identisch verteilt und symmetrisch sind. Die letzte Voraussetzung wird jedoch oft vernachlässigt.

Teststatistik

Zunächst wird für die Teststatistik der Rang $R i$ der absoluten Differenzen berechnet:

R i = rang ( | D i | )

Die Teststatistik $W$ berechnet sich als das Minimum der negativen und der positiven Rangsummen:

$W_+ = \sum_{i=1}^n I(x_{i,1}-x_{i,2}><span class=$ 0) R_i" border="0">

$W_- = \sum_{i=1}^n I(x_{i,1}-x_{i,2}<0) R_i$

$W = min(W_+, W_-)\,$

Im Fall, dass eine oder mehrere Differenzen $x i, 1 - x i, 2 = 0$ sind, gibt es zwei Möglichkeiten:

Die zugehörigen Rangwerte werden zur Hälfte $W +$ und zur Hälfte $W -$ zugeordnet.^[2]
Die Beobachtungen fließen nicht in den Test ein, d.h. $n$ muss korrigiert werden. Eine größere Anzahl von gleichen Beobachtungswerten deutet allerdings auf die Gültigkeit der Nullhypothese hin.

Die Teststatistik ist approximativ normalverteilt für $n > 20$ :

$\frac{W-\tfrac14 n(n+1)}{\sqrt{\tfrac{n(n+1)(2n+1)}{24}}}\approx N(0;1)$ .

Außerdem sollte für $n\leq 60$ noch eine Stetigkeitskorrektur durchgeführt werden

$\frac{|W-\tfrac14 n(n+1)|-0,5}{\sqrt{\tfrac{n(n+1)(2n+1)}{24}}}\approx N(0;1)$ .

Für Werte kleiner gleich 50 liegen die kritischen Werte auch tabelliert vor. ^[3]

Kritische Werte für $W$ , die unterschritten werden müssen um die Nullhypothese abzulehnen
$α$		n
zweiseitig	einseitig	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	25	30	35	40	45	50
0,1000	0,0500		0	2	3	5	8	10	13	17	21	25	30	35	41	47	53	60	100	151	213	286	371	466
0,0500	0,0250			0	2	3	5	8	10	13	17	21	25	29	34	40	46	52	89	137	195	264	343	434
0,0200	0,0100				0	1	3	5	7	9	12	15	19	23	27	32	37	43	76	120	173	238	312	397
0,0100	0,0050					0	1	3	5	7	9	12	15	19	23	27	32	37	68	109	159	220	291	373
0,0050	0,0025						0	1	3	5	7	9	12	15	19	23	27	32	60	98	146	204	272	350
0,0010	0,0005								0	1	2	4	6	8	11	14	18	21	45	78	120	172	233	304

Bindungen bei den Rängen

Im Fall, dass Bindungen bei den Rängen der $| D i |$ auftreten (d.h. mehrere absolute Differenzen den gleichen Rang bekommen), werden jeder Differenz die Mittelwerte der entsprechenden Ränge zugeordnet (siehe Beispiel unten).

Bezeichnet $t i$ die Anzahl der Beobachtungen mit dem gleichen Rang wie das Beobachtungspaar $(x i 1, x i 2)$ , so gilt

$Var(W) = \tfrac{n(n+1)(2n+1)}{24} - \sum_{i=1}^n \tfrac{t_i^3-t_i}{48}$

und für die Approximation

$\frac{W-\tfrac14 n(n+1)}{\sqrt{\tfrac{n(n+1)(2n+1)}{24}- \sum_{i=1}^n \tfrac{t_i^3-t_i}{48}}}\approx N(0;1).$

Lässt man den Korrekturfaktor weg, so ist der Test zu konservativ, d.h. er entscheidet zu oft für die Nullhypothese.

Beispiel

Ein Beispiel für dessen Anwendung: Ein statistisch versierter Bauer möchte feststellen, ob Rinder Heu oder Stroh vorziehen. Er teilt eine Fläche in zwei Bereiche ein, zwischen denen die Tiere frei hin und her wechseln können. Im einen Bereich bietet er den fünf Rindern Stroh an, im anderen Heu. Jede halbe Stunde notiert er, wie viele Tiere sich in welchem Bereich aufhalten; er erhält n = 6 Paare von Stichproben.

Das Ergebnis seiner Beobachtungen ist eine Tabelle, und er berechnet auch die Differenzen aus den Werten:

Tiere beim Heu	Tiere beim Stroh	Differenz
4	1	+3
3	2	+1
2	3	-1
5	0	+5
5	0	+5
3	2	+1

		Beitrag zu
Differenz	Rang	$W +$	$W -$
+1	2	2
+1	2	2
-1	2		2
+3	4	4
+5	5,5	5,5
+5	5,5	5,5
		19	2

Rang: Die drei 1er Werte müssten die Ränge 1 bis 3 belegen, da sie aber gleichwertig sind, wird der Mittelwert ihrer Ränge eingetragen, also (1+2+3)/3=2. Bei den 5er Werten ebenso: (5+6)/2=5,5.

Dann werden die Differenzen nach der Größe geordnet (das Vorzeichen wird dabei nicht berücksichtigt); und jeder Differenz wird ein Rang zugeordnet – die größte Differenz erhält den höchsten Rang. Sind mehrere Differenzen gleichrangig, wird jedem Wert der durchschnittliche Rang zugeordnet.

Die Rangsumme der positiven Differenzen beträgt $w + = 19$ und die Rangsumme der negativen Differenzen beträgt $w - = 2$ , also

w = m i n (w +, w -) = 2

Zweiseitiger Test

Beim zweiseitigen Test mit

$H_0: \tilde{x}_H=\tilde{x}_S$ (Rinder mögen Heu und Stroh gleich) vs.

$H_1: \tilde{x}_H\neq\tilde{x}_S$ (Rinder bevorzugen eine Sorte)

kann die Nullhypothesen zum Signifikanzniveau $α = 10 %$ bzw. $α = 5 %$ nicht abgelehnt werden. Denn

aus der Tabelle oben ergibt sich für $α = 10 %$ und $n = 6$ ein kritischer Wert von $2$ . Da der Prüfwert $w = 2$ nicht kleiner als der kritische Wert ist, kann die Nullhypothese nicht abgelehnt werden bzw.
aus der Tabelle oben ergibt sich für $α = 5 %$ und $n = 6$ ein kritischer Wert von $0$ . Da der Prüfwert $w = 2$ nicht kleiner als der kritische Wert ist, kann die Nullhypothese nicht abgelehnt werden.

Einseitige Tests

Auch bei den einseitigen Tests mit

	Nullhypothese $H 0$	Alternativhypothese $H 1$
Linksseitig	$\tilde{x}_H\geq\tilde{x}_S$ (Rinder mögen Heu mehr oder beide Sorten gleich)	$\tilde{x}_H<\tilde{x}_S$ (Rinder mögen Stroh mehr)
Rechtsseitig	$\tilde{x}_H\leq\tilde{x}_S$ (Rinder mögen Stroh mehr oder beide Sorten gleich)	$\tilde{x}_H>\<span class=$ tilde{x}_S" border="0"> (Rinder mögen Heu mehr)

können die Nullhypothesen nicht abgelehnt werden. Denn

aus der Tabelle oben ergibt sich für $α = 5 %$ und $n = 6$ ein kritischer Wert von $2$ . Da der Prüfwert $w = 2$ nicht kleiner als der kritische Wert ist, kann die Nullhypothese nicht abgelehnt werden bzw.
aus der Tabelle oben ergibt sich für $α = 2, 5 %$ und $n = 6$ ein kritischer Wert von $0$ . Da der Prüfwert $w = 2$ nicht kleiner als der kritische Wert ist, kann die Nullhypothese nicht abgelehnt werden.

Approximation mit der Normalverteilung beim zweiseitigen Test

Berechnet man – als Näherung – daraus den normalverteilten z-Wert:

$z = \frac{w^+-\frac{n(n+1)}{4}}{\sqrt{\frac{n(n+1)(2n+1)}{24}}} = \frac{19-\tfrac{6*7}{4}}{\sqrt{\tfrac{6*7*13}{24}}}=\tfrac{+8,5}{\sqrt{22,75}}=+1,7821$

Aus der Standardnormalverteilungstabelle ergeben sich für den zweiseitigen Test

für $α = 5 %$ kritische Werte von $\pm1,96$ . Da der Prüfwert $z = 1, 7821$ im Intervall $[- 1, 96; + 1, 96]$ liegt, kann die Nullhypothese nicht abgelehnt werden.
für $α = 10 %$ kritischer Werte von $\pm1,65$ . Da der Prüfwert $z = 1, 7821$ nicht im Intervall $[- 1, 65; + 1, 65]$ liegt, kann die Nullhypothese abgelehnt werden.

Damit haben die Rinder zu einem 10% Signifikanzniveau eine Vorliebe für eine der beiden Sorten.

Dies scheint ein Widerspruch zu sein zu dem Ergebnis aus dem exakten zweiseitigen Test. Jedoch ist der mittels der angegebenen Formel berechnete z-Wert ist nur eine Näherung und nur für einen Stichprobenumfang $n > 20$ zuverlässig!

Für die Approximation spielt es bei zweiseitigen Test keine Rolle, ob in der Formel der Wert $w +$ oder $w -$ (oder das Minimum von beiden) eingesetzt wird, denn es folgt

$z = \frac{w^--\frac{n(n+1)}{4}}{\sqrt{\frac{n(n+1)(2n+1)}{24}}} = \frac{2-\tfrac{6*7}{4}}{\sqrt{\tfrac{6*7*13}{24}}}=\tfrac{-8,5}{\sqrt{22,75}}=-1,7821$ .

D.h. die Testentscheidung wäre die gleiche.

Vergleich mit dem Vorzeichentest

Fünf Stichproben tragen ein positives Vorzeichen (+), eine ein negatives (-). Gemäß der Tabelle der kritischen Werte (MacKinnon, 1964) kann man bei diesem Beispiel lediglich von p < 0.5 ausgehen (d.h. weniger als 50 Prozent Irrtumswahrscheinlichkeit). Hätten alle sechs Stichproben das gleiche Vorzeichen, läge p zwischen 0.02 und 0.1 - hier wurde also eindrücklich gezeigt, dass das Verfahren von Wilcoxon besonders bei kleineren Stichproben-Umfängen brauchbare Resultate liefert.

Einzelnachweise

↑ Jürgen Bortz, Gustav A. Lienert, Klaus Boehnke: Verteilungsfreie Methoden in der Biostatistik. 3. Auflage. Springer Verlag, 2008, S. 256,259.
↑ Leonard A. Marascuilo, Maryellen McSweeney: Nonparametric and Distribution-free Methods for the Social Sciences. Brooks/Cole Publishing Co, Dezember 1977, ISBN 978-0818502026.
↑ Jürgen Bortz, Gustav A. Lienert, Klaus Boehnke: Verteilungsfreie Methoden in der Biostatistik. 3. Auflage. Springer Verlag, Berlin 23. Oktober 2010, S. 729.

Literatur

Siegel, Sidney. Nichtparametrische statistische Methoden. Eschborn b. Frankfurt a. M. Verlag Dietmar Klotz, 2001. ISBN 3-88074-102-6.
Siegel, Sidney. Nonparametric statistics for the behavioral sciences. New York (etc.), McGraw-Hill, circa 1988 (vergriffen)

Kategorie:

Nicht-Parametrischer Test

Wikimedia Foundation.

Игры ⚽ Нужна курсовая?

Schlagen Sie auch in anderen Wörterbüchern nach:

Wilcoxon signed-rank Test — Der Wilcoxon Vorzeichen Rang Test ist ein statistischer Test für die Häufigkeitsverteilung gepaarter Stichproben. Im Anwendungsbereich ergänzt er den Vorzeichentest, da er nicht nur die Richtung der Differenzen, sondern auch die Stärke der… … Deutsch Wikipedia
Wilcoxon signed ranks test — Der Wilcoxon Vorzeichen Rang Test ist ein statistischer Test für die Häufigkeitsverteilung gepaarter Stichproben. Im Anwendungsbereich ergänzt er den Vorzeichentest, da er nicht nur die Richtung der Differenzen, sondern auch die Stärke der… … Deutsch Wikipedia
Wilcoxon — ist der Name folgender Personen: Frank Wilcoxon (1892–1965), amerikanischer Chemiker und Statistiker Henry Wilcoxon (1905–1984), britischer Schauspieler und Filmproduzent Siehe auch: Wilcoxon Rangsummentest Wilcoxon Vorzeichen Rang Test … Deutsch Wikipedia
Wilcoxon-Test für gepaarte Stichproben — Der Wilcoxon Vorzeichen Rang Test ist ein statistischer Test für die Häufigkeitsverteilung gepaarter Stichproben. Im Anwendungsbereich ergänzt er den Vorzeichentest, da er nicht nur die Richtung der Differenzen, sondern auch die Stärke der… … Deutsch Wikipedia
Parametrischer Test — Die Artikel Statistischer Test und Signifikanztest überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion über diese Überschneidungen. Bitte entferne diesen… … Deutsch Wikipedia
Quade-Test — Der Quade Test, auch als Spannweitenrangtest von Quade bezeichnet, ist ein statistischer Test zur Untersuchung von drei oder mehr gepaarten Stichproben auf Gleichheit des Lageparameters. Da er keine Normalverteilung der Daten in den Stichproben… … Deutsch Wikipedia
Nicht-parametrischer Test — Der Zweig der Statistik, der als parameterfreie Statistik bekannt ist, beschäftigt sich mit parameterfreien statistischen Modellen und parameterfreien statistischen Tests. Andere gebräuchliche Bezeichnungen sind nicht parametrische Statistik oder … Deutsch Wikipedia
Einstichproben t-Test — Der t Test ist ein Begriff aus der mathematischen Statistik, er bezeichnet eine Gruppe von Hypothesentests. Den t Test im eigentlichen Sinn gibt es nicht. Es handelt sich hier lediglich um einen beliebigen Hypothesentest mit t verteilter… … Deutsch Wikipedia
T-Test — Der t Test ist ein Begriff aus der mathematischen Statistik, er bezeichnet eine Gruppe von Hypothesentests. Den t Test im eigentlichen Sinn gibt es nicht. Es handelt sich hier lediglich um einen beliebigen Hypothesentest mit t verteilter… … Deutsch Wikipedia
Zweistichproben t-Test — Der t Test ist ein Begriff aus der mathematischen Statistik, er bezeichnet eine Gruppe von Hypothesentests. Den t Test im eigentlichen Sinn gibt es nicht. Es handelt sich hier lediglich um einen beliebigen Hypothesentest mit t verteilter… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Wilcoxon-Vorzeichen-Rang-Test

Inhaltsverzeichnis

Hypothesen und Voraussetzungen

Teststatistik

Bindungen bei den Rängen

Beispiel

Vergleich mit dem Vorzeichentest

Einzelnachweise

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Wilcoxon-Vorzeichen-Rang-Test

Inhaltsverzeichnis

Hypothesen und Voraussetzungen

Teststatistik

Bindungen bei den Rängen

Beispiel

Vergleich mit dem Vorzeichentest

Einzelnachweise

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link