Goodman und Kruskals τ

Inhaltsverzeichnis

1 Bestimmtheitsmaß
2 Goodman und Kruskals λ und τ
3 Unsicherheitskoeffizient
4 Goodman und Kruskals γ
5 η²
6 Literatur
7 Einzelnachweise

Proportionale Fehlerreduktionsmaße geben indirekt die Stärke des Zusammenhangs zwischen zwei Variablen X und Y an. Definiert werden sie als

$PRE = \frac{E_1-E_2}{E_1} = 1-\frac{E_2}{E_1}$ ,

wobei $E 1$ der Fehler bei der Vorhersage der abhängigen Variablen Y ohne Kenntnis des Zusammenhangs und $E 2$ der Fehler bei der Vorhersage der abhängigen Variablen Y mit Kenntnis des Zusammenhangs mit X ist.

Da $0\leq E_2 \leq E_1$ gilt, folgt $0 \leq PRE \leq 1$ . Ein Wert von Eins bedeutet, dass unter Kenntnis der unabhängigen Variable, der Wert der abhängigen Variable perfekt vorhergesagt werden kann. Ein Wert von Null bedeutet, dass die Kenntnis der unabhängigen Variablen keine Verbesserung in der Vorhersage der abhängigen Variable ergibt.

Der Vorteil ist, dass damit alle proportionalen Fehlerreduktionsmaße in gleicher Weise unabhängig vom Skalenniveau interpretiert werden können. Als Vergleichsmaßstab kann daher das Bestimmtheitsmaß dienen, da es ein proportionales Fehlerreduktionsmaß ist, oder folgende Daumenregel^[1]:

$P R E < 0,1$ : Keine Beziehung,
$0,1\leq PRE&amp;lt;0,3$ : Schwache Beziehung,
$0,3\leq PRE&amp;lt;0,5$ : Mittlere Beziehung und
$0,5\geq PRE$ : Starke Beziehung.

Der Nachteil ist, dass

die Richtung des Zusammenhangs nicht berücksichtigt werden kann, da Richtungen nur bei ordinalen oder metrischen Skalenniveau angeben werden können und
die Größe der Fehlerreduktion davon abhängt, wie die Vorhersage unter Kenntnis des Zusammenhangs gemacht wird. Ein kleiner Wert des proportionalen Fehlerreduktionmaßes bedeutet nicht, dass es keinen Zusammenhang zwischen den Variablen gibt.

Da eine Variable abhängig und die andere unabhängig ist, unterscheidet man zwischen symmetrischen und asymmetrischen proportionalen Fehlerreduktionsmaßen:

Skalenniveau der		Maß
unabhängigen Variable X	abhängigen Variable Y	Name	Bemerkung
nominal	nominal	Goodman und Kruskals $λ$ ^[2]	Es gibt ein symmetrisches und ein asymmetrisches Maß.
nominal	nominal	Goodman und Kruskals $τ$ ^[2]	Es gibt ein symmetrisches und ein asymmetrisches Maß.
nominal	nominal	Unsicherheitskoeffizient oder Theils U^[3]	Es gibt ein symmetrisches und ein asymmetrisches Maß.
ordinal	ordinal	Goodman und Kruskals $γ$ ^[2]	Es gibt nur ein symmetrisches Maß.
nominal	metrisch	$η 2$	Es gibt nur ein asymmetrisches Maß.
metrisch	metrisch	Bestimmtheitsmaß $R 2$	Es gibt nur ein symmetrisches Maß.

Bestimmtheitsmaß

Für die Vorhersage unter Unkenntnis des Zusammenhangs zwischen zwei metrischen Variablen X und Y dürfen nur Werte der abhängigen Variablen Y benutzt werden. Der einfachste Ansatz ist $\hat{y}_i^{(1)} = c$ und mit $c = \min_{\tilde{c}}\sum_{i=1}^n (y_i - \tilde{c})^2$ gilt und es folgt $c=\bar{y}$ dem arithmetische Mittel. Daher ist der Vorhersagefehler unter Unkenntnis des Zusammenhangs

$E_1 = \sum_{i=1}^n (y_i - \hat{y}_i^{(1)})^2 = \sum_{i=1}^n (y_i - \bar{y})^2$ .

Für die Vorhersage unter Kenntnis des Zusammenhangs nutzen wir die lineare Regression $\hat{y}_i^{(2)} = b_0 + b_1 x_i$ aus:

$E_2 = \sum_{i=1}^n (y_i - \hat{y}_i^{(2)})^2 = \sum_{i=1}^n (y_i - b_0 - b_1 x_i)^2$ .

Das Bestimmtheitsmaß $R 2$ ist dann ein proportionales Fehlerreduktionsmaß, da gilt

$R^2 = 1-\frac{E_2}{E_1} = 1-\frac{\displaystyle\sum_{i=1}^n (y_i - \hat{y}_i^{(2)})^2}{\displaystyle\sum_{i=1}^n (y_i - \bar{y})^2}.$

Werden die Rollen der abhängigen und unabhängigen Variable vertauscht, so ergibt sich der gleiche Wert für $R 2$ . Daher gibt es nur ein symmetrisches Maß.

Goodman und Kruskals λ und τ

Berechnung von Goodman und Kruskals

λ

und

τ

für die Variablen "Subjektive Schichteinstufung des Befragten" und "Wahlabsicht in der Bundestagswahl" der ALLBUS Daten 2006.

Goodman und Kruskals λ

Die Vorhersage unter Unkenntnis des Zusammenhangs ist die Modalkategorie der abhängigen Variable und der Vorhersagefehler

$E_1 = 1- \frac{h_M}{n}$

mit $h M$ die absolute Häufigkeit in der Modalkategorie und $n$ die Anzahl der Beobachtungen.

Die Vorhersage unter Kenntnis des Zusammenhangs ist die Modalkategorie der abhängigen Variable in Abhängigkeit von den Kategorien der unabhängigen Variablen und der Vorhersagefehler ist

$E_2 = \sum_j \frac{h_{\bullet,j}}{n} \left(1-\frac{h_{M,j}}{h_{\bullet,j}}\right)$

mit $h_{\bullet,j}$ die absolute Häufigkeit für die jeweilige Kategorie der unabhängigen Variablen und $h M, j$ die absolute Häufigkeit der Modalkategorie in Abhängigkeit von den Kategorien der unabhängigen Variablen.

Beispiel

Im Beispiel rechts ergibt sich für die abhängige Variable "Wahlabsicht Bundestagswahl" bei Unkenntnis des Zusammenhangs als der Vorhersagewert "CDU/CSU" und damit eine Fehlervorhersage $E 1 = 1 - 770 / 2660 = 0,711$ .

Je nach Ausprägung der Variablen "Subjektive Schichteinstufung" ergibt sich für die abhängige Variable "Wahlabsicht Bundestagswahl" der Vorhersagewert "CDU/CSU" (Kategorie: Mittelschicht, Obere Mittelschicht/Oberschicht), "SPD" (Kategorie: Arbeiterschicht) oder "Andere Partei/Nichtwähler" (alle anderen Kategorien). Der Vorhersagefehler $E 2 = 91 / 2660 * (1 - 27 / 91) + 953 / 2660 * (1 - 264 / 953) + ... + 21 / 2660 * (1 - 6 / 21) = 0,689$ und $λ = 1 - 0,689 / 0,711 = 0,031$ .

Das heißt, im vorliegende Beispiel kann der Fehler bei der Vorhersage der Wahlabsicht der Bundestagswahl des Befragten um 3,1% reduziert werden, wenn man seine eigene subjektive Schichteinstufung kennt.

Goodman und Kruskals τ

Bei Goodman und Kruskals $τ$ wird als Vorhersagewert statt der Modalkategorie ein zufälliger gezogener Wert aus der Verteilung von Y angenommen, d.h. mit Wahrscheinlichkeit $h_{1,\bullet}/n$ wird Kategorie 1 gezogen, mit Wahrscheinlichkeit $h_{2,\bullet}/n$ wird Kategorie 2 gezogen und so weiter. Der Vorhersagefehler ergibt sich dann als

$E_1 = \sum_k \frac{h_{k,\bullet}}{n} \left(1-\frac{h_{k,\bullet}}{n}\right)$

mit $h_{k,\bullet}$ die absolute Häufigkeit der Kategorie $k$ der abhängigen Variablen. Analog ergibt sich der Vorhersagefehler $E 2$ , nur das jetzt die Vorhersage entsprechend für jede Kategorie der unabhängigen Variablen gemacht wird und der Vorhersagefehler $E 2$ ergibt sich als Summe der gewichteten Vorhersagefehler in jeder Kategorie der unabhängigen Variablen.

$E_2 = \sum_j \frac{h_{\bullet,j}}{n} \left(\sum_k \frac{h_{k,j}}{h_{\bullet,j}} \left(1-\frac{h_{k,j}}{h_{\bullet,j}}\right)\right)$

mit $h k, j$ die absolute Häufigkeit für das gemeinsame Auftreten der Kategorien $i$ und $j$ .

Symmetrische Maße

Für Goodman und Kruskals $λ$ und $τ$ können die Vorhersagefehler

$E_1^Y$ und $E_2^Y$ , wenn $Y$ die abhängige Variable ist, und
$E_1^X$ und $E_2^X$ , wenn $X$ die abhängige Variable ist,

berechnet werden. Die symmetrischen Maße für Goodman und Kruskals $λ$ und $τ$ ergeben sich dann als $\frac{(E_1^X-E_2^X)+(E_1^Y-E_2^Y)}{E_1^X+E_1^Y}$ .

Unsicherheitskoeffizient

Entropie

Der Unsicherheitskoeffizient misst die Unsicherheit der Information mit Hilfe der Entropie. Wenn $f k$ die relative Häufigkeit des Auftretens der Kategorie $k$ ist, dann ist die Entropie oder Unsicherheit definiert als

$U = -\sum_k f_k\,\log(f_k).$

Die Unsicherheit $U$ ist Null, wenn für alle möglichen Kategorien bis auf eine $f k = 0$ ist. Die Vorhersage, welchen Kategorienwert eine Variable annimmt, ist dann trivial. Ist $f k = 1 / k$ (Gleichverteilung), dann ist die Unsicherheit $U = log(k)$ und auch maximal.

Asymmetrischer Unsicherheitskoeffizient

Das Fehlermaß unter Unkenntnis des Zusammenhangs ist daher die Unsicherheit $U Y$ für die abhängige Variable

$E_1 = -\sum_k \frac{h_{k,\bullet}}{n} \log\left(\frac{h_{k,\bullet}}{n}\right) = U_Y.$

Das Fehlermaß unter Kenntnis des Zusammenhangs ist die gewichtete Summe der Unsicherheit für jede Kategorie der abhängigen Variablen

$E_2 = \sum_j \frac{h_{\bullet,j}}{n} \underbrace{\left[-\sum_k \frac{h_{k,j}}{h_{\bullet,j}} \log\left(\frac{h_{k,j}}{h_{\bullet,j}}\right)\right]}_{\begin{matrix}\mbox{Unsicherheit in Kategorie j} \\ \mbox{der unabhängigen Variable}\end{matrix}}.$

Dieser Ausdruck lässt auch schreiben als

$E_2 = U_{XY}-U_X = \left[-\sum_{j,k} \frac{h_{k,j}}{n} \log\left(\frac{h_{k,j}}{n}\right)\right]-\left[-\sum_j\frac{h_{\bullet,j}}{n} \log\left(\frac{h_{\bullet,j}}{n}\right)\right]$

mit $U X Y$ die Unsicherheit basierend auf der gemeinsamen Verteilung von $X$ und $Y$ und $U X$ die Unsicherheit der unabhängigen Variable $X$ .

Der Unsicherheitskoeffizient ergibt sich dann als

$U_{asym.}=\frac{E_1-E_2}{E_1} = \frac{U_X+U_Y-U_{XY}}{U_Y}.$

Symmetrischer Unsicherheitskoeffizient

Für den Unsicherheitskoeffizient können die Vorhersagefehler

$E_1^Y$ und $E_2^Y$ , wenn $Y$ die abhängige Variable ist, und
$E_1^X$ und $E_2^X$ , wenn $X$ die abhängige Variable ist,

berechnet werden. Der symmetrische Unsicherheitskoeffizient ergibt sich, wie bei Goodman and Kruskals $λ$ und $τ$ , als

$U_{sym.} = \frac{(E_1^X-E_2^X)+(E_1^Y-E_2^Y)}{E_1^X+E_1^Y} = \frac{2 (U_X+U_Y-U_{XY})}{U_X+U_Y}$ .

Goodman und Kruskals γ

$C$ sei die Zahl konkordanten Paare ( $x i < x j$ und $y i < y j$ ) und $D$ die Zahl diskordanten Paare ( $x i < x j$ und $y i > y j$ ). Wenn wir keine gemeinsamen Rangzahlen (Ties) haben und $n$ die Anzahl der Beobachtungen ist, dann gilt $C + D = n (n - 1) / 2$ .

Unter Unkenntnis des Zusammenhangs können wir keine Aussage darüber machen, ob ein Paar konkordant oder diskordant ist. Daher sagen wir Wahrscheinlichkeit 0,5 ein konkordantes bzw. diskordantes Paar vorher. Der Gesamtfehler für alle möglichen Paare ergibt sich als

$E_1 = \frac{C+D}{2}.$

Unter Kenntnis des Zusammenhangs wird immer Konkordanz vorhergesagt, falls $C\geq D$ , oder immer Diskordanz, wenn $C < D$ . Der Fehler ist

$E_2 = \min(C,D) = \left\{\begin{matrix} D,&amp;amp; \mbox{ falls } C\geq D\\ C, &amp;amp; \mbox{ falls } C&amp;lt;D\end{matrix} \right.$

und es folgt

$\frac{E_1-E_2}{E_1}=\frac{\frac{C+D}{2}-\min(C,D)}{\frac{C+D}{2}}=\frac{|C-D|}{C+D}=|\gamma|.$

Der Betrag von Goodman and Kruskals $γ$ ist damit ein symmetrisches proportionales Fehlerreduktionsmaß.

η²

Berechnung von

η

für die Variablen "Nettoeinkommen des Befragten" (abhängig) und "Subjektive Schichteinstufung des Befragten" (unabhängig) der ALLBUS Daten 2006.

Wie bei dem Bestimmtheitsmaß ist der Vorhersagewert für die abhängige metrische Variable unter Unkenntnis des Zusammenhangs $\bar{y}$ und der Vorhersagefehler

$E_1 = \sum_{i=1}^n (y_i - \bar{y})^2$ .

Bei Kenntnis zu welcher der Gruppen der nominale oder ordinale unabhängigen Variable die Beobachtung gehört, ist der Vorhersagewert gerade der Gruppenmittelwert $\bar{y}_k$ . Der Vorhersagefehler ergibt sich als

$E_2 = \sum_k \sum_{i=1}^n (y_i - \bar{y}_k)^2 \delta_{ik}$ mit $\delta_{ik} = \left\{\begin{matrix} 1,&amp;amp; \mbox{ falls } i=k\\ 0 &amp;amp; \mbox{ sonst } \end{matrix} \right.$

, wenn die Beobachtung $i$ zur Gruppe $k$ gehört und sonst Null. Damit ergibt sich

$\eta^2 = 1-\frac{E_2}{E_1} = 1- \frac{\sum_k \sum_{i=1}^n (y_i - \bar{y}_k)^2 \delta_{ik}}{\sum_{i=1}^n (y_i - \bar{y})^2}$ .

Die Rollen der abhängigen und unabhängigen Variablen kann nicht vertauscht werden, da sie unterschiedliches Skalenniveau haben. Deswegen gibt es nur ein (asymmetrisches) Maß.

In Cohen (1998)^[1] wird als Daumenregel angegeben:

$η 2 < 0,01$ kein Zusammenhang,
$0,01\leq\eta^2&amp;lt;0,04$ geringer Zusammenhang,
$0,04\leq\eta^2&amp;lt;0,16$ mittlerer Zusammenhang und
$0,16\leq\eta^2$ starker Zusammenhang.

Beispiel

In dem Beispiel kann der Fehler bei der Vorhersage des Nettoeinkommens bei Kenntnis der Schichteinstufung um $0,306 2 = 0,094$ , also knapp 10%, reduziert werden. Das zweite $η$ ergibt sich, wenn man die Rolle der Variablen vertauscht, was aber hier unsinnig ist. Daher muss dieser Wert ignoriert werden.

Literatur

Y.M.M. Bishop, S.E. Feinberg, P.W. Holland (1975). Discrete Multivariate Analysis: Theory and Practice. Cambridge, MA: MIT Press.
L.C. Freemann (1986). Order-based Statistics and Monotonicity: A Family of Ordinal Measures of Association. Journal of Mathematical Sociology, 12(1), S. 49-68
J. Bortz (2005). Statistik für Human- und Sozialwissenschaftler (6. Auflage), Springer Verlag.
B. Rönz (2001). Skript "Computergestützte Statistik II", Humboldt-Universität zu Berlin, Lehrstuhl für Statistik.

Einzelnachweise

↑ ^a ^b J. Cohen (1988). Statistical Power Analysis for Behavioral Science. Erlbaum, Hilsdale
↑ ^a ^b ^c L.A. Goodman, W.H. Kruskal (1954). Measures of association for cross-classification. Journal of the American Statistical Association, 49, S. 732-764.
↑ H. Theil (1972), Statistical Decomposition Analysis, Amsterdam: North-Holland Publishing Company (diskutiert den Unsicherheitskoeffizient).

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

Goodman und Kruskals γ — Inhaltsverzeichnis 1 Bestimmtheitsmaß 2 Goodman und Kruskals λ und τ 2.1 Goodman und Kruskals λ 2.2 Goodman und Kruskals τ 2.3 Symmetrische Maße … Deutsch Wikipedia
Goodman und Kruskals λ — Inhaltsverzeichnis 1 Bestimmtheitsmaß 2 Goodman und Kruskals λ und τ 2.1 Goodman und Kruskals λ 2.2 Goodman und Kruskals τ 2.3 Symmetrische Maße … Deutsch Wikipedia
Fehlerreduktionsmaß — Inhaltsverzeichnis 1 Bestimmtheitsmaß 2 Goodman und Kruskals λ und τ 2.1 Goodman und Kruskals λ 2.2 Goodman und Kruskals τ 2.3 Symmetrische Maße … Deutsch Wikipedia
PRE-Maße — Inhaltsverzeichnis 1 Bestimmtheitsmaß 2 Goodman und Kruskals λ und τ 2.1 Goodman und Kruskals λ 2.2 Goodman und Kruskals τ 2.3 Symmetrische Maße … Deutsch Wikipedia
Unsicherheitskoeffizient — Inhaltsverzeichnis 1 Bestimmtheitsmaß 2 Goodman und Kruskals λ und τ 2.1 Goodman und Kruskals λ 2.2 Goodman und Kruskals τ 2.3 Symmetrische Maße … Deutsch Wikipedia
Fehlerreduktionsmaße — Inhaltsverzeichnis 1 Bestimmtheitsmaß 2 Goodman und Kruskals λ und τ 2.1 Goodman und Kruskals λ 2.2 Goodman und Kruskals τ … Deutsch Wikipedia
Kontingenztafel — Kontingenztafeln (auch: Kontingenztabellen oder Kreuztabellen) sind Tabellen, die die absoluten oder relativen Häufigkeiten (Häufigkeitstabellen) von Kombinationen bestimmter Merkmalsausprägungen enthalten. Kontingenz hat dabei die Bedeutung des… … Deutsch Wikipedia
Tau (Buchstabe) — Tau Das Tau (griechisches Neutrum Ταυ, heutige Aussprache taf [1]; Majuskel Τ, Minuskel τ) ist der 19. Buchstabe des griechischen Alphabets. Es hat nach dem milesischen Prinzip einen numerischen Wert von 300 … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Goodman und Kruskals τ

Inhaltsverzeichnis

Bestimmtheitsmaß