Itemanalyse

Eine Itemanalyse verwendet ein Bündel statistischer Verfahren, um die Eignung einzelner Items, derer Werte beispielsweise durch Fragen einer schriftlichen Umfrage generiert wurden, im Hinblick auf die Zielsetzung der Befragung zu untersuchen.

Ziel ist es dabei, die Qualität einer Skala (Skala meint hier ein Instrument zur Messung bestimmter Variablen, z. B. der politischen Grundeinstellung oder des Umweltbewusstseins der Versuchsperson bei einer Meinungsumfrage) durch Überprüfung der Items zu testen und gegebenenfalls zu verbessern. Aufgabe der Itemanalyse ist es somit, die Brauchbarkeit einzelner Items für einen bestimmten Test zu überprüfen.

Die Itemanalyse ist ein zentrales Instrument für die Testkonstruktion und Testbewertung und kommt per Definition dem Wesen der Reliabilität (als Testgütekriterium) am Nächsten. Entscheidend für den Test als gesamtes sind dagegen dessen Gütekriterien und insbesondere die Frage der Validität, d. h. was der Test (d. h. alle Items zusammengenommen) eigentlich messen soll.

Definition

Eine genaue Definition des Begriffs Itemanalyse ist in der Literatur nicht festgelegt. Sie dient zur Bestimmung empirischer psychometrischer Kriterien einzelner Testaufgaben. Meist zählen zur Itemanalyse bei der klassischen Testkonstruktion:

die Analyse der Rohwertverteilung

die Berechnung statistischer Kennwerte
- Itemschwierigkeit
- Trennschärfe
- Homogenität sowie die

Dimensionalitätsprüfung.

Die Analyse wird an einer Stichprobe durchgeführt, die ein Abbild der Population darstellen soll, für die der Test konzipiert wurde. Die Daten der Itemanalyse werden für die Auswahl und Überarbeitung von Items, zu deren Reihung innerhalb des Tests und evtl. für die Konzeption eines Paralleltests verwendet.

Analyse der Rohwertverteilung

Es besteht die Möglichkeit, die Testwerte graphisch darzustellen (z. B. Histogramm). Hierdurch wird ein erster Überblick über die Verteilung der Werte ermöglicht. Im Hauptinteresse steht hierbei die Streuung und die Beantwortung der Frage, ob die Rohwertverteilung einer Normalverteilung entspricht. Da viele inferenzstatistische Verfahren eine Normalverteilung voraussetzen, ist eine dementsprechende Verteilung erwünscht.

Statistische Kennwerte

Itemschwierigkeit

Die Itemschwierigkeit wird durch einen Index gekennzeichnet, der dem Anteil derjenigen Personen entspricht, die das Item richtig lösen oder bejahen (Bortz & Döring, 2005). Früher wurde dieser Index darum auch Popularitätsindex genannt.

Zweck des Schwierigkeitsindexes ist die Unterscheidung von Probanden mit hoher Merkmalsausprägung und Probanden mit niedriger Merkmalsausprägung. Unbrauchbar sind demzufolge alle Items, die von allen Probanden, bzw. Items, die von keinem Probanden gelöst werden konnten oder bejaht werden. Mit dem Schwierigkeitsindex sollten demnach die Items selektiert werden, die nicht diesen beiden Klassen zugehören. Bei Niveautests sollten die Schwierigkeitsindices über möglichst den ganzen Bereich des gemessenen Merkmals streuen, um einen möglichst großen Anwendungsbereich für den Test zu erhalten.

Schwierigkeitsberechnung bei zweistufigen Antworten (z. B. stimmt/stimmt nicht):

$p=\frac{N_{R}}{N}$

$N R$ = Zahl der „Richtiglöser“, N = Zahl der Probanden, p = Schwierigkeitsindex (nur bei zweistufigen Antworten!)

Dies stellt eine Lösung für den einfachsten Fall dar. Sollten Probanden die Aufgabe nicht gelöst haben oder wird vermutet, dass die Antworten teilweise „richtig erraten“ wurden, so muss auf andere Lösungsalternativen zurückgegriffen werden (vgl. Fisseni, 1997, 41–42).

Schwierigkeitsberechnung bei mehrstufigen Antworten:

In diesem Fall ist p nicht definiert.

Mögliche Lösung des Problems:

Dichotomisierung der Item-Scores (z. B. 0 und 1), dann Berechnung als zweistufig mit p.

Berechnung von Mittelwert und Streuung (Mittelwert äquivalent zu p, jedoch muss die Streuung beachtet werden).

$p m$ = Index für mehrstufige Antworten:

vereinfachte Formel:

$p_{m}=\frac{\text{Erreichte Wertepunkte}}{\text{Erreichbare Wertepunkte}}$

zur exakteren Berechnung liegen von verschiedenen Autoren verschiedene Berechnungsvorschläge vor (vgl. Fisseni, 2004, 43–45).

Schwierigkeitsunterschiede zwischen zwei Items können über eine Mehrfeldertafel geprüft werden.

Diese Formeln gelten strenggenommen nur für reine Niveautests, d. h. solchen, die keine Testzeitbegrenzung vorschreiben und/oder bei denen Probanden alle Aufgaben bearbeiten konnten. Ist die letzte nicht erfüllt, wie es oftmals bei Leistungstests der Fall ist, darf die Anzahl der „richtigen“ Antworten nicht in Beziehung zur Gesamtzahl der Probanden gesetzt werden, sondern nur der Zahl, die die jeweilige Aufgabe überhaupt bearbeitet hat (vgl. Lienert, 1989).

Trennschärfe

→ Hauptartikel: Trennschärfe (Statistik)

Der Trennschärfe eines Items ist zu entnehmen, wie gut das gesamte Testergebnis aufgrund der Beantwortung eines einzelnen Items vorhersagbar ist (Bortz & Döring, 2005). Eine hohe Trennschärfe bedeutet also, dass das Item zwischen den Probanden im Sinne des Gesamttests zu differenzieren vermag (d. h. Probanden mit hoher Merkmalsausprägung lösen ein Item „richtig“, Probanden mit niedriger dagegen nicht).

Die Trennschärfe wird durch den Trennschärfekoeffizienten dargestellt. Dieser Korrelationskoeffizient zwischen einem Einzelitem und dem Gesamttestscore als Kriterium wird für jedes einzelne Item berechnet und richtet sich nach dem Skalenniveau der Testwerte. Ist der Test-Score intervallskaliert und normalverteilt, so wird als Trennschärfe ( $r i t$ ) die Produkt-Moment-Korrelation zwischen den Werten je item i und dem korrigierten Gesamtwert t gewählt:

$r_{it}=\frac{cov(i,t)}{s_{i}\cdot s_{t}}$

Ist $r i t$ 0, wird ein Item von Probanden mit hoher wie niedriger Merkmalsausprägung gleichermaßen gelöst. Sofern negative Trennschärfen nicht mit einer Bedeutungsumkehr der Itemformulierung (oder Skala) gerechtfertigt sind, gelten diese Items als unbrauchbar.

A priori sind möglichst hohe absolute Trennschärfen wünschenswert, insbesondere aber für Niveautests. Die Trennschärfe eines jeden Items ist abhängig von seiner Schwierigkeit, der Homogeneität bzw. Dimensionalität des Tests, der Stellung des Items innerhalb des Tests und der Reliabilität des Kriterums. (Als Kriterium kann neben dem Testwert auch ein Außenkriterium herangezogen werden; dann handelt es sich gleichzeitig um einen Validitätskoeffizienten.) Die höchsten Trennschärfen findet man bei Items mit mittlerer Schwierigkeit (vgl. Lienert, 1989).

Homogenität

Die Homogenität $\bar r_{it}$ gibt an, wie hoch die einzelnen Items eines Tests im Durchschnitt miteinander korrelieren. Bei hoher Homogenität erfassen die Items eines Tests ähnliche Informationen (Bortz & Döring, 2005).

Werden alle k Testitems paarweise miteinander korreliert, ergeben sich $k (k - 1) / 2$ Korrelationskoeffizienten ( $r i i$ ), deren (via Fisher’scher Z-Transformation errechneter) Mittelwert ( $\bar r_{ii'}$ ) die Homogenität des Tests beschreibt.

Die Höhe der Iteminterkorrelationen $r i i$ ist abhängig von der Schwierigkeit. Je größer die Schwierigkeitsunterschiede zwischen den Items, desto geringer wird die Interkorrelation, die wiederum die Reliabilität eines Tests beeinflusst. In der Regel werden daher für einen (Sub-)Test entweder unkorrelierte (d. h. heterogene) Items gleicher Schwierigkeit oder positiv korrelierte (d. h. homogene) Items unterschiedlicher Schwierigkeit genutzt (vgl. Lienert, 1989).

Dimensionalität

Die Dimensionalität eines Tests gibt an, ob er nur ein Merkmal bzw. Konstrukt erfasst (eindimensionaler Test), oder ob mit den Testitems mehrere Konstrukte bzw. Teil-Konstrukte operationalisiert werden (mehrdimensionaler Test) (Bortz & Döring 2005). Die empirische Dimensonalität kann mitunter durch eine Faktorenanalyse bestimmt werden.

Literatur

Bortz & Döring (2005). Forschungsmethoden und Evaluation. Heidelberg: Springer-Verlag. ISBN 3-540-41940-3
Fisseni, H.-J. (1997). Lehrbuch der psychologischen Diagnostik. Göttingen: Hogrefe. ISBN 3-8017-0982-5
Lienert, G. A. (1989). Testaufbau und Testanalyse (4. Aufl.). München: PVU. ISBN 3-621-27086-8

Kategorien:

Wikimedia Foundation.

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

Itemanalyse — Itemanalyse, Auswahl geeigneter Aufgaben (Items), die mithilfe mathematisch statistischer Verfahren daraufhin überprüft werden, ob sie bestimmte Gütekriterien (z. B. Aufgabenreliabilität, schwierigkeit, trennschärfe) im Rahmen der… … Universal-Lexikon
Itemanalyse — Item|ana|ly|se die; , n <Lehnübersetzung aus gleichbed. engl. item analysis> Auswahl geeigneter Aufgaben (Items [b]), die mithilfe mathematisch statistischer Verfahren daraufhin überprüft werden, ob sie bestimmte Gütekriterien im Rahmen der … Das große Fremdwörterbuch
Persönlichkeitsfragebogen — sind weit verbreitete psychologische Methoden, um Persönlichkeitseigenschaften zu erfassen. Sie sind im Unterschied zu vielen anderen Fragebogen in ihrer Form standardisiert, in der Regel nach den Prinzipien der Testmethodik konstruiert und… … Deutsch Wikipedia
Behavior Description Interview — Erste Zielsetzung aller Bewerbungsgespräche ist die Identifizierung geeigneter Bewerber für eine zu besetzende Stelle. Die Verwendung strukturierter Einstellungsinterviews ist für diesen Zweck ein besonders gut geeignetes Instrument, um die… … Deutsch Wikipedia
F-Skala (Autoritäre Persönlichkeit) — Die F Skala (Abkürzung für Faschismus Skala, auch California F scale) ist ein Fragebogen, der typische Einstellungen und Persönlichkeitseigenschaften der autoritären Persönlichkeit erfassen soll. Der Fragebogen ist während des Zweiten Weltkriegs … Deutsch Wikipedia
Strukturiertes Einstellungsinterview — Erste Zielsetzung aller Bewerbungsgespräche ist die Identifizierung geeigneter Bewerber für eine zu besetzende Stelle. Die Verwendung strukturierter Einstellungsinterviews ist für diesen Zweck ein besonders gut geeignetes Instrument, um die… … Deutsch Wikipedia
Verteilung — Ausbreitung; Streuung; Verbreitung; Zuweisung; Auskehrung; Zuordnung; Ausstreuung; Aushändigung; Ausgabe; Herausgabe; Erteilung; Austeilung … Universal-Lexikon
Analyse — Untersuchung (von); kritische Auseinandersetzung (mit); Studie; Betrachtung; Auswertung; Überprüfung; Prüfung; Erforschung; Untersuchung; Begutachtung; … Universal-Lexikon
Aufgabenanalyse — Aufgabenanalyse, Itemanalyse … Universal-Lexikon
Testkonstruktion — Testkonstruktion, Sammelbezeichnung für diejenigen wissenschaftlich begründeten Vorgehensweisen, die bei der Planung und Erstellung von Tests erforderlich sind. Diese Vorgehensweisen insbesondere die Berechnung bestimmter Kennwerte… … Universal-Lexikon

Academic dictionaries and encyclopedias

Itemanalyse

Inhaltsverzeichnis

Definition

Analyse der Rohwertverteilung