Fleiss' Kappa

Cohens Kappa ist ein statistisches Maß für die Interrater-Reliabilität von Einschätzungen von (in der Regel) zwei Beurteilern (Ratern), das Jacob Cohen 1960 vorschlug.

Die Gleichung für Cohens Kappa lautet

$\kappa =\frac{p_0-p_c}{1-p_c}$

wobei $p 0$ der gemessene Übereinstimmungswert der beiden Schätzer und $p c$ die zufällig erwartete Übereinstimmung ist. Wenn die Rater in allen ihren Urteilen übereinstimmen, ist $κ = 1$ . Sofern sich nur Übereinstimmungen zwischen den beiden Ratern feststellen lassen, die mathematisch dem Ausmaß des Zufalls entsprechen, nimmt es einen Wert von $κ = 0$ an. (Negative Werte weisen dagegen auf eine Übereinstimmung hin, die noch kleiner ist als eine zufällige Übereinstimmung.)

Greve und Wentura (1997, S. 111) berichten von verschiedenen Einschätzungen hinsichtlich des $κ$ -Wertes. Als Resümee lässt sich festhalten, dass $κ$ -Werte von 0,40 bis 0,60 vielleicht noch annehmbar sind, aber Werte unter 0,40 mit etwas Skepsis betrachtet werden sollten. Interrater-Reliabilitätswerte von $κ$ >=0,75 scheinen gut bis ausgezeichnet.

Landis und Koch (1977) schlagen dagegen folgende Werte vor: $κ$ <0 = „schlechte Übereinstimmung (poor agreement)“, $κ$ zwischen 0 und 0,20 = „etwas (slight) Übereinstimmung“, 0,21-0,40 = „ausreichende (fair) Übereinstimmung“, 0,41-0,60 = „mittelmäßige (moderate) Übereinstimmung“, 0,61-0,80 = „beachtliche (substantial) Übereinstimmung“, 0,81-1,00 = „(fast) vollkommene ((almost) perfect) Übereinstimmung“.

Problematisch am Koeffizienten ist insbesondere, dass sein maximaler Wert nicht immer und automatisch 1,00 ist (s. u.).

Inhaltsverzeichnis

1 Nominalskalen, zwei Rater
2 Fleiss' Kappa
3 Mehrfachstufung der Meßobjekte, zwei Rater
4 Kardinalskalen-Kappa
5 Literatur und Quellen
6 Weblinks

Nominalskalen, zwei Rater

Wenn lediglich Übereinstimmungen und Nicht-Übereinstimmungen zwischen den beiden Ratern abgeprüft werden, fallen alle auftretenden Beurteilungsunterschiede gleich ins Gewicht. Dies ist insbesondere bei Nominalskalen sinnvoll. Dabei kann das Datenmaterial (also die Urteilshäufigkeiten $h$ ) bei einem Item oder Merkmal mit $z$ (nominalen) Kategorien $K a t$ von beiden Einschätzern in einer $z x z$ Kontingenztafel (also mit $z$ Zeilen und $z$ Spalten) abgetragen werden:

	Rater B			Randhäufigkeiten $h i .$
Rater A	$K a t 1$	...	$K a t z$	$\sum$
$K a t 1$	$h 11$	...	$h 1 z$	$h_{1.}=\sum_i^z h_{1i}$
.	.	...	.	.
.	.	...	.	.
.	.	...	.	.
$K a t z$	$h z 1$	...	$h z z$	$h_{z.}=\sum_i^z h_{zi}$
Randhäufigkeiten $h . i$	$h_{.1}=\sum_i^z h_{i1}$	...	$h_{.z}=\sum_i^z h_{iz}$	$\sum \sum = N$

Dann gilt für den Anteil der übereinstimmenden Einschätzungen der Rater (= Mitteldiagonale der Kontingenztafel) $p 0$ :

$p_0 = \frac {\sum_{i=1}^z h_{ii}} {N}$ ,

wobei $N$ gleich der Anzahl der insgesamt eingeschätzten Beurteilungsobjekte (Personen/Items/Gegenstände) entspricht.

Für die erwarteten Übereinstimmungen werden die Produkte der Randsummen (=Zeilensumme x Spaltensumme) einer Kategorie $K a t$ aufsummiert und schließlich ins Verhältnis zum Quadrat der Gesamtsumme gesetzt:

$p_c = \frac {1}{N^2} \cdot \sum_{i=1}^z {h_{i.} \cdot h_{.i}}$ .

Scott (1955) schlug für seinen Koeffizienten $π$ , der nach derselben Ausgangsformel wie $κ$ berechnet wird, vor, die erwarteten Übereinstimmungen wie folgt zu bestimmen:

$p_c = \frac {1}{N^2} \cdot \sum_{i=1}^z {(\frac {h_{i.} \cdot h_{.i}}{2})^2}$ .

Sofern die Randverteilungen unterschiedlich sind, ist Scotts $π$ immer größer als Cohens $κ$ .

Sobald in der Kontingenztafel auch nur eine Zelle jenseits der Diagonalen gefüllt ist (also Beurteilungsunterschiede auftreten), hängt der maximale Wert von Cohens Kappa von den Randverteilungen ab. Er wird umso geringer, je weiter sich die Randverteilungen von einer Gleichverteilung entfernen. Brennan und Prediger (1981) schlagen hier einen korrigierten Kappa-Wert $κ n$ vor, der $p c$ definiert als $p_c = \frac {1}{z}$ , wobei $z$ wie oben die Anzahl der Kategorien (also der Merkmalsausprägungen) ist. Somit lautet $κ n$ :

$\kappa_n =\frac{p_0-\frac {1}{z}}{1-\frac {1}{z}}$

Fleiss' Kappa

Die Ausweitung der Formeln auf mehr als zwei Rater ist im Prinzip unproblematisch. Die Ausweitung der $κ$ -Statistik wird auch als Fleiss' Kappa bezeichnet. Für den Anteil der aufgetretenen Übereinstimmungen gilt dann z. B. für drei Rater $p_0 = \frac {\sum_i h_{iii}} {N}$ und $p_c = \frac {1}{N^3} \cdot \sum_{i=1}^z {h_{i..} \cdot h_{.i.} \cdot h_{..i}}$ .

Für den Koeffizienten von Brennan und Prediger (1981) schlägt von Eye (2006, S. 15) folgende Ausweitung auf $d$ Rater vor: $\kappa_n =\frac{\sum_i {p_i}-\frac {1}{z^{d-1}}}{1-\frac {1}{z^{d-1}}}$ wobei $i$ ein Index für die Übereinstimmungszellen (Diagonalen) ist.

Wenn $z$ wie oben die Anzahl der Kategorien ( $j = 1,2,3,... z$ ) ist und $d$ die Anzahl der Rater (= Anzahl der Einschätzungen pro Merkmal/Item/Person) und wobei $N$ die Anzahl der insgesamt eingeschätzten Beurteilungsobjekte (Fälle/Personen/Items/Gegenstände) $i = 1,2,3,... N$ ist, gilt folgendes:

$d i j$ ist die Anzahl der Rater, die Beurteilungsobjekt $i$ in Kategorie $j$ passend beurteilt hat.

$\sum_{i=1}^N d_{ij}$ ist die Summe aller Fälle in Beurteilungskategorie $j$ .

$p_{j} = \frac{1}{N \cdot d} \sum_{i=1}^N d_{i j}$ ist der Anteil aller Fälle in Beurteilungskategorie $j$ an allen ( $N \cdot d$ ) Beurteilungen insgesamt.

Das Ausmaß der Beurteilerübereinstimmung beim $i$ . Fall (=bei der $i$ . Person/Item/Gegenstand) berechnet sich dann als

$p_i = \frac{1}{d(d - 1)} \sum_{j=1}^z d_{i j} (d_{i j} - 1) = \frac{1}{d(d - 1)} \left(\sum_{j=1}^z d_{i j}^2 - d_{i j}\right)$

In die $κ$ -Formel fließt der Mittelwert über alle $p i$ ein sowie der Erwartungswert für den Zufall $p c$ ein:

$p_0 = \frac{1}{N} \sum_{i=1}^N p_i = \frac{1}{N d (d - 1)} \left(\sum_{i=1}^N \sum_{j=1}^z d_{i j}^2 - N d\right)$

$p_c = \sum_{j=1}^z p_{j} ^2$ .

**Beispieltafel zur Berechnung von Fleiss' Kappa**
	1	2	3	4	5	$p_i\,$
1	0	0	0	0	14	1.000
2	0	2	6	4	2	0.253
3	0	0	3	5	6	0.308
4	0	3	9	2	0	0.440
5	2	2	8	1	1	0.330
6	7	7	0	0	0	0.462
7	3	2	6	3	0	0.242
8	2	5	3	2	2	0.176
9	6	5	2	1	0	0.286
10	0	2	2	3	7	0.286
Gesamt	20	28	39	21	32
$p_j\,$	0.143	0.200	0.279	0.150	0.229

Beispiel

Im folgenden Rechenbeispiel (aus englischem Artikel) beurteilen $d = 14$ Rater jeweils $N = 10$ Fälle auf einer Skala mit $z = 5$ Kategorien.

Die Kategorien finden sich in den Spalten, die Fälle in den Zeilen. Die Summe aller Beurteilungen $(N \cdot d)= 140$ .

Beispielsweise ist $p j$ in der ersten Spalte

$p_{j=1} = \frac{(0+0+0+0+2+7+3+2+6+0)}{140} = 0.143$

und $p i$ in der zweiten Zeile

$p_{i=2} = \frac{1}{14(14 - 1)} \left((0^2-0)+(2^2-2)+(6^2-6)+(4^2-4)+(2^2-2)\right) = 0.253$

So ergibt sich für

$p_0 = \frac{1}{((10) ((14) (14 - 1)))} \left((3.780) (14) (14-1)\right) = 0.378$

$p c = 0.143 2 + 0.200 2 + 0.279 2 + 0.150 2 + 0.229 2 = 0.211$ und $\kappa = \frac{0.378 - 0.211}{1 - 0.211} = 0.211$

(Dass hier $κ$ so ähnlich ist wie $p c$ ist Zufall.)

Mehrfachstufung der Meßobjekte, zwei Rater

Sind die Rater aber aufgefordert, die Schätzobjekte mehrfach zu stufen (d. h. statt der k nominalen Kategorien geht es nun um Abstufungen und kann für diese Abstufungen mindestens ein Ordinal-Skalenniveau angenommen werden), sollten aber diskonkordant größere Abweichungen der Rater voneinander stärker ins Gewicht fallen als kleinere Abweichungen. In diesem Fall sollten ein gewichtetes Kappa berechnet werden, bei dem für jede Zelle ij der Kontingenztafel ein Gewichtungsfaktor $v i j$ definiert wird, das sich z. B. daran orientieren könnte, wie groß die Abweichung von der Mitteldiagonalen ist (z. B. als quadrierte Abweichungen Mitteldiagonalzellen=0, Abweichungen um 1 Kategorie=1, Abweichungen um 2 Kategorien= $22$ =4 usw.). Dann gilt für dieses (gewichtete) Kappa $κ w$ (vgl. Bortz 1999):

$\kappa_w = 1 - \frac {\sum_{i}^z \sum_{j}^z v_{ij} \cdot h_{ij}}{\sum_{i}^z \sum_{j}^z v_{ij} \cdot \frac {h_{i.}\cdot h_{.j}}{N}}$

Alternativen zu diesem Koeffizienten sind der Rangkorrelationskoeffizient nach Spearman und Kendall's Tau sowie Kendalls Konkordanzkoeffizient W.

Kardinalskalen-Kappa

Dieser Gewichtungsgedanke lässt sich auch weiterführen: Auf Intervall-Skalenniveau ist das Ausmaß des Unterschieds (bzw. der Ähnlichkeit) zwischen den abgegebenen Einschätzungen sogar direkt quantifizierbar (Cohen 1968, 1972). Die Gewichtungswerte für jede Zelle der Kontingenztafel orientieren sich dann jeweils am maximalen und minimalem Unterschied.

Für das Kardinalskalen- $κ$ gilt, dass identische Einschätzungen (bzw. der Minimalunterschied zwischen Beobachtern standardisiert mit dem Wert 0 und der maximale Beobachterunterschied mit einen Wert von 1 gewichtet werden sollen (und die anderen beobachteten Unterschiede jeweils in ihrem Verhältnis dazu):

$\kappa_w = 1 - \frac {\sum_{i}^z \sum_{j}^z v_{ij_{w}} \cdot h_{ij}}{\sum_{i}^z \sum_{j}^z v_{ij_{w}} \cdot \frac {h_{i.}\cdot h_{.j}}{N}}$

und für die [0,1]-Standardisierung der Gewichte:

$v_{ij_{w}} = \frac {v_{ij} - v_{min}} {v_{max} - v_{min}}$ .

Das gewichtete Kappa ist ein Spezialfall des Intraklassen-Korrelationskoeffizienten (Fleiss & Cohen 1973).

Literatur und Quellen

J. Bortz: Statistik für Sozialwissenschaftler. 5. Auflage. Springer, Berlin 1999.

J. Bortz, G. A. Lienert, K. Boehnke: Verteilungsfreie Methoden in der Biostatistik. Kapitel 9. Springer, Berlin 1990.

R. L. Brennan, D. J. Prediger: Coefficient $κ$ : Some uses, misuses, and alternatives. In: Educational and Psychological Measurement. 41, 1981, 687–699.

J. Cohen: A coefficient of agreement for nominal scales. In:Educational and Psychological Measurement. 20, 1960, 37-46.

J. Cohen: Weighted kappa: Nominal scale agreement with provision for scaled disagreement or partial credit. In: Psychological Bulletin. 1968, 213-220.

J. Cohen: Weighted chi square: An extension of the kappa method. In: Education and Psychological Measurement. 32, 1972, 61-74.

J. L. Fleiss: The measurement of interrater agreement. In: ders., Statistical methods for rates and proportions. 2. Auflage. John Wiley & Sons, New York 1981, S. 212-236, Kapitel 13.

J. L. Fleiss, J. Cohen: The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability. In: Educational and Psychological Measurement. 33, 1973, 613-619.

W. Greve, D. Wentura: Wissenschaftliche Beobachtung: Eine Einführung. PVU/Beltz, Weinheim 1997.

J. R. Landis, G. G. Koch: The measurement of observer agreement for categorical data. In: Biometrics. 33, 1977, 159–174.

W. A. Scott: Reliability of content analysis: The case nominal scale coding. In: Public Opinion Quarterly. 19, 1955, 321-325.

A. von Eye: An Alternative to Cohen's $κ$ . In: European Psychologist. 11, 2006, 12-24.

Weblinks

Kappa-Maße im Überblick (französ. Website)

Wikimedia Foundation.

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

Fleiss' kappa — is a statistical measure for assessing the reliability of agreement between a fixed number of raters when assigning categorical ratings to a number of items or classifying items. This contrasts with other kappas such as Cohen s kappa, which only… … Wikipedia
Fleiss' kappa — Cohens Kappa ist ein statistisches Maß für die Interrater Reliabilität von Einschätzungen von (in der Regel) zwei Beurteilern (Ratern), das Jacob Cohen 1960 vorschlug. Die Gleichung für Cohens Kappa lautet wobei p0 der gemessene… … Deutsch Wikipedia
Fleiss — may refer to:People* Heidi Fleiss, former madam * Joseph L. Fleiss, professor of biostatistics * Mike Fleiss, television producer * Nika Fleiss, skier * Noah Fleiss, actor * Paul M. Fleiss, pediatriciantatistics* Fleiss kappa, a statistical… … Wikipedia
Kappa — (uppercase Kappa;, lowercase kappa; or Unicode|ϰ; el. Κάππα) is the 10th letter of the Greek alphabet, used to represent the voiceless velar stop, or k , sound in Ancient and Modern Greek. In the system of Greek numerals it has a value of 20. It… … Wikipedia
Kappa de Cohen — En statistiques, le test du Kappa mesure l’accord entre observateurs lors d un codage qualitatif en catégories. Le calcul du Kappa se fait de la manière suivante : Où Pr(a) est l accord relatif entre codeurs et Pr(e) la probabilité d un… … Wikipédia en Français
Cohen's kappa — coefficient is a statistical measure of inter rater agreement or inter annotator agreement[1] for qualitative (categorical) items. It is generally thought to be a more robust measure than simple percent agreement calculation since κ takes into… … Wikipedia
Cohens Kappa — ist ein statistisches Maß für die Interrater Reliabilität von Einschätzungen von (in der Regel) zwei Beurteilern (Ratern), das Jacob Cohen 1960 vorschlug. Dieses Maß kann aber auch für die Intrarater Reliabiliät verwendet werden, bei dem derselbe … Deutsch Wikipedia
Joseph L. Fleiss — Infobox Scientist name = Joseph L. Fleiss image size = 150x159 birth date = birth date|1937|11|13 birth place = Brooklyn, New York death date = death date and age|2003|6|12|1937|11|13 death place = New Jersey fields = Biostatistics workplaces =… … Wikipedia
Test du Kappa — Kappa de Cohen En statistiques, le test du Kappa mesure l’accord entre observateurs lors d un codage qualitatif en catégories. Le calcul du Kappa se fait de la manière suivante : Où Pr(a) est l accord relatif entre codeurs et Pr(e) la… … Wikipédia en Français
Inter-rater reliability — In statistics, inter rater reliability, inter rater agreement, or concordance is the degree of agreement among raters. It gives a score of how much homogeneity, or consensus, there is in the ratings given by judges. It is useful in refining the… … Wikipedia

Academic dictionaries and encyclopedias

Fleiss' Kappa

Inhaltsverzeichnis

Nominalskalen, zwei Rater

Fleiss' Kappa

Mehrfachstufung der Meßobjekte, zwei Rater

Kardinalskalen-Kappa

Literatur und Quellen

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Fleiss' Kappa

Inhaltsverzeichnis

Nominalskalen, zwei Rater

Fleiss' Kappa

Mehrfachstufung der Meßobjekte, zwei Rater

Kardinalskalen-Kappa

Literatur und Quellen

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link