- Interrater-Reliabilität
-
Interrater-Reliabilität bzw. Urteilerübereinstimmung bezeichnet in der empirischen (Sozial-)Forschung (u. a. Psychologie, Soziologie, Epidemiologie, ...) das Ausmaß der Übereinstimmungen (= Konkordanzen) der Einschätzungsergebnisse bei unterschiedlichen Beobachtern („Ratern“). Hierdurch kann angegeben werden, inwieweit die Ergebnisse vom Beobachter unabhängig sind, weshalb es sich genau genommen um ein Maß der Objektivität handelt. Die Reliabilität ist ein Maß für die Güte der Methode die zur Messung einer bestimmten Variablen eingesetzt werden. Dabei kann zwischen Interrater- und Intrarater-Reliabilität unterschieden werden.
Inhaltsverzeichnis
Interrater-Reliabilität
An einem bestimmten Objekt wird durch zwei unterschiedliche Messinstrumente dieselbe Messung vorgenommen. Die Ergebnisse sollten gleich sein. Bsp: Ein Fragebogen wird von zwei unterschiedlichen Personen für ein und dasselbe Objekt verwendet. Die dabei u.U. auftretenden Abweichungen werden über die Interrater-Reliabilität prozentual ermittelt und gemessen.
Intrarater-Reliabilität
An einem bestimmten Objekt wird durch ein Messinstrument zweimal dieselbe Messung vorgenommen. Die Ergebnisse sollten gleich sein. Bsp: Ein Proband wird von einem Interviewer zweimal und zu unterschiedlichen Zeitpunkten befragt.
Kappa-Statistiken
Es gibt eine Reihe statistischer Verfahren, die zur Bestimmung der Inter-Rater-Reliabilität eingesetzt werden können. Handelt es sich um zwei (oder mehr) unterschiedliche Beobachter, die gleichzeitig mehrere Beobachtungsobjekte (=Fälle, Probanden) kategorial einschätzen, so lässt sich die Interrater-Reliabilität mittels Cohens Kappa (für zwei Rater) bzw. Fleiss' Kappa (für mehr als zwei Rater) abschätzen. Die Kappa-Statistiken prüfen das Ausmaß an Konkordanz durch Einbezug und Vergleich zu dem durch „zufälliges Einschätzen“ typischerweise erreichbaren Ausmaß an Übereinstimmung. Dabei wird davon ausgegangen, dass die einzelnen Einschätzungen eines Raters vollkommen unabhängig voneinander getroffen werden. Kappa kann Werte zwischen +1.0 (bei hoher Konkordanz) und < = 0 (bei niedriger Konkordanz) annehmen. Sie sind insbesondere für Variablen auf Nominalskalenniveau geeignet.
Die Nutzung von Kappa-Statistiken wird auch kritisiert, da die Werte dieser Statistik durch ihre mathematische Unzulänglichkeit zumeist keine Aussage erlauben,[1] stattdessen wird Krippendorffs Alpha empfohlen.
Inter-Rater-Korrelation
Für höhere Skalenniveaus nutzen andere Verfahren den Pearsonscher Maßkorrelationskoeffizienten bzw. Rangkorrelationskoeffizienten nach Spearman und Kendall zur Bestimmung der Inter-Rater-Korrelation zwischen zwei Ratern, wobei jeweils miteinander gepaarte Urteilswerte in Beziehung miteinander gesetzt werden. Der Inter-Rater-Korrelationskoeffizient beschreibt dabei allerdings lediglich einen (irgendwie) gearteten Zusammenhang der beiden Messungen, ohne dass Abweichungen zwischen den Urteilern eine Rolle spielen. So spielen z.B. gleichbleibende Milde- oder Strenge-Tendenzen keine Rolle.
Beispiel: Rater 1 schätzt 4 Objekte auf einer Skala wie folgt ein: 1,2,1,3; Rater 2 urteilt auf derselben Skala für gleichen Objekte: 2,3,2,4. Die Inter-Rater-Korrelation beträgt r=1 und ist vollkommen, obwohl die Urteiler nicht übereinstimmen.
Eine Alternative für ordinalskalierte Daten ist hier Kendalls Konkordanzkoeffizient W, bei dem es um die Berechnung des Ausmaßes der Übereinstimmung bei zwei oder mehr Beurteilern geht.
Intra-Klassen-Korrelation
Für intervallskalierte Daten beschreibt der Intra-Class-Korrelationskoeffizient (ICC, Shrout & Fleiss 1979, McGraw & Wong 1996, auch: Intraklassenkorrelation, Intra-klassenkorrelation), dass die beiden Messwerte den gleichen Wert haben sollen. Er setzt intervallskalierte Daten voraus und wird in der Regel berechnet, wenn mehr als zwei Beobachter vorhanden sind oder/und zwei oder mehr Beobachtungszeitpunkte einbezogen werden sollen.
Literatur
- Cohen, J. (1960). A coefficient for agreement for nominal scales. Education and Psychological Measurement, 20, 37-46.
- Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76(5), 378-382.
- McGraw, K. O., & Wong, S. P. (1996). Forming inferences about some intraclass correlation coefficients. Psychological Methods, 1, 30-46.
- Shrout, P. & Fleiss, J. L. (1979). Intraclass correlation: Uses in assessing rater reliability. Psychological Bulletin, 86, 420-428.
- Wirtz, M. & Caspar, F. (2002). Beurteilerübereinstimmung und Beurteilerreliabilität. München: Hogrefe
Weblinks
- ICC-Online-Rechner der Uni Ulm
- Statistical Methods for Rater Agreement by John Übersax (englisch)
- Excel-Arbeitsblatt mit mehreren berechenbaren Koeffizienten
- Review zu üblicher Praxis, Software, Literatur etc.(Temple University )
Einzelnachweise
- ↑ Krippendorff, K. Reliability in Content Analysis: Some Common Misconceptions and Recommendations. Human Communication Research 30,3: 411-433, 2004.
Kategorien:- Deskriptive Statistik
- Methode der Psychologie
Wikimedia Foundation.