- Confusion Matrix
-
Eine Konfusionsmatrix (oder Wahrheitsmatrix) dient zur Beurteilung eines Klassifikators, indem in einer quadratischen Tabelle die Häufigkeiten des Auftretens für alle möglichen Kombinationen von ermittelter Klasse und tatsächlicher Klasse eingetragen werden. Die Konfusionsmatrix ist ein einfacher Spezialfall einer Kontingenztafel mit zwei nominalen Variablen (dem Urteil des Klassifikators und der tatsächlichen Klasse).
Allgemeinfall
Für ein N-Klassen-Problem besteht die Konfusionsmatrix aus einer NxN-Matrix. Die richtig vorhergesagten Objekte befinden sich auf der Diagonalen, die falsch vorhergesagten Objekte befinden sich in den übrigen Zellen der Matrix. Eingetragen wird jeweils die Auftrittshäufigkeit einer Merkmalskombination.
Zur Beurteilung des Klassifikator anhand der Ergebnisse in einer Konfusionsmatrix kann für N=2 der Vierfeldertest und im allgemeinen Fall der Chi-Quadrat-Test verwendet werden. Dabei wird geprüft, ob die Einschätzung des Klassifikators unabhängig von den tatsächlichen Klassen ist oder signifikant mit ihnen korreliert (Unabhängigkeitstest). Für kleine Werte sollte der Exakte Fisher-Test vorgezogen werden. Die Stärke der Korrelation kann mit dem Phi-Koeffizient (N=2) beziehungsweise dem allgemeinen Kontingenzkoeffizienten abgeschätzt werden.
Für die praktische Beurteilung werden die Häufigkeiten gegebenenfalls mit einer Kostenmatrix multipliziert.
Wichtig: Die Dimensionen der Konfusionsmatrix sind nicht normiert. Im Beispiel steht die Wahrheit in den Spalten und die Schätzung in den Zeilen, je nach verwendeter Software können die Dimensionen aber vertauscht sein.
Zwei-Klassen-Fall
Bei einem einfachen Zwei-Klassen-Problem werden häufig die Bezeichnungen positive Klasse und negative Klasse verwendet. Die Einträge der Konfusionsmatrix sind häufig englisch bezeichnet als true positive (TP), false positive (FP), true negative (TN) und false negative (FN).
tatsächliche Klasse positiv negativ ermittelte
Klassepositiv TP (richtig positiv) FP (falsch positiv) negativ FN (falsch negativ) TN (richtig negativ) Aus den Einträgen der Wahrheitsmatrix lassen sich weitere Kennwerte zur Beurteilung eines Klassifikators berechnen. Dies sind die Sensitivität (auch als Recall), Spezifität, der positive Vorhersagewert (auch Relevanz oder auch als Precision), der negative Vorhersagewert (auch Segreganz), die Korrektklassifikationsrate sowie die Falschklassifikationsrate.
Anwendung
Neben der Beurteilung eines Klassifikators durch den Vergleich mit den tatsächlichen Klassen können mit Hilfe einer Konfusionsmatrix auch zwei verschiedene Klassifikatoren verglichen werden.
Wikimedia Foundation.