Receiver Operating Characteristic

Receiver Operating Characteristic

Die Receiver Operating Characteristic (ROC) – Kurve bzw. Grenzwertoptimierungskurve ist eine Methode zur Bewertung und Optimierung von Analyse-Strategien. Die ROC-Kurve stellt visuell die Abhängigkeit der Effizienz mit der Fehlerrate für verschiedene Parameterwerte dar. Sie ist eine Anwendung der Signalentdeckungstheorie.

Sie kann als Methode zur Optimierung (um den besten Parameterwert zu finden), beispielsweise bei einem dichotomen (semi-)quantitativen Merkmal oder Zwei-Klassen-Klassifizierungsproblem, eingesetzt werden.

Inhaltsverzeichnis

Berechnung der ROC-Kurve

Interpretation einer ROC-Kurve
ROC - Kurve echtes Beispiel

Für jeden möglichen Parameterwert (z. B. Sendegeschwindigkeit, Frequenz, ...) ermittelt man die resultierenden relativen Häufigkeitsverteilungen in Form von Sensitivität (Richtig-Positiv-Rate) und Falsch-Positiv-Rate. In einem Diagramm trägt man Sensitivität (Richtig-Positiv-Rate) als Ordinate und Falsch-Positiv-Rate als Abszisse ein. Der Parameterwert selbst taucht dabei nicht auf, kann aber als Beschriftung der Punkte verwendet werden. Es resultiert typischerweise eine gekrümmte, aufsteigende Kurve.

Interpretation der ROC-Kurve

Eine ROC-Kurve nahe der Diagonalen deutet auf einen Zufallsprozess hin: Werte nahe der Diagonalen bedeuten eine gleiche Trefferquote und Falschpositivquote, was der zu erwartenden Trefferhäufigkeit eines Zufallsprozesses entspricht. Die ideale ROC-Kurve steigt zunächst senkrecht an (die Trefferquote liegt nahe bei 100%, während die Fehlerquote anfangs noch nahe bei 0% bleibt), erst danach steigt die Falsch-Positiv-Rate an. Eine ROC-Kurve, die deutlich unterhalb der Diagonalen bleibt, deutet darauf hin, dass die Werte falsch interpretiert wurden. Statt ein Signal zu erkennen, wird Rauschen erfaßt und das Signal ausgefiltert.

Anwendung als Optimierungsmethode

Das theoretische Optimum (im Sinne eines Kompromisses aus Treffer- und Fehlerrate) des getesteten Wertes ermittelt man visuell dann aus dem Kontaktpunkt einer 45° ansteigenden Tangente mit der ROC-Kurve, sofern die Achsen einheitlich skaliert wurden. Andernfalls muss der Tangentenanstieg gleich dem der Diagonalen sein.

Zeichnet man die Testwerte (beispielsweise in Abhängigkeit von der FP-Rate) in das gleiche Diagramm, findet sich der Grenzwert als Lot des Kontaktpunktes der Tangente auf die Testwertekurve. Alternativ können die Punkte der Kurve mit dem Testwert beschriftet werden. Rechnerisch sucht man den Testwert mit dem höchsten Youden-Index. Dieser berechnet sich aus Sensitivitaet + Spezifitaet − 1 (mit relativen Werten berechnet).

Eine alternative Methode, die vor allem im Information Retrieval Anwendung findet, ist die Betrachtung von Recall und Precision.

Anwendung als Qualitätsmaß

Eine ROC-Kurve kann auch als Qualitätsmaß verwendet werden. Dies ist oft im Bereich des Information Retrieval der Fall. Um unabhängig vom Testwert bewerten zu können, wird die ROC-Kurve für alle oder eine Stichprobe von Testwerten berechnet.

Zu der ROC-Kurve berechnet man die Fläche unterhalb der Kurve („Area under curve“, ROC AUC). Dieser Wert kann zwischen 0 und 1 liegen, wobei aber 0,5 der schlechteste Wert ist. Wie zuvor beschrieben ist eine ROC-Kurve nahe der Diagonalen das zu erwartende Ergebnis eines Zufallsprozesses, der eine Fläche von 0,5 hat. Die zuvor als optimal beschriebe Kurve hat eine Fläche zwischen 0,5 und 1. Die Kurve mit der Fläche kleiner 0,5 kann in der Informationstheorie aber letztlich genauso gut sein, wenn man das Ergebnis entsprechend umgekehrt interpretiert („positiv“ und „negativ“ vertauscht).

Der entscheidende Vorteil der Verwendung der ROC AUC gegenüber beispielsweise der reinen Fehlklassifikationsrate ist, dass hier der Parameterwert entfällt, während letztere immer nur für einen einzelnen konkreten Parameterwert berechnet werden kann. Ein hoher ROC AUC-Wert bedeutet anschaulich „für geeignete Wahl des Parameters ist das Ergebnis gut“.

Beispiel

Im Information Retrieval kann hier beispielsweise die Qualität eines Suchergebnisses bewertet werden. „Positiv“ ist hierbei ein passendes Suchergebnis, „Negativ“ ein unpassendes. Der Testwert ist die Anzahl der angeforderten Suchergebnisse. Enthält die Datenbank 10 relevante und 90 irrelevante Dokumente, und ein Verfahren hat in den ersten 10 Ergebnissen 7 relevante gefunden, so geht die ROC-Kurve durch den Punkt (\frac{3}{90}, \frac{7}{10}). Dies berechnet man für alle möglichen Anzahlen von Ergebnissen (0-100).

Die Problemstellung als Optimierungsproblem wäre: „Was ist die optimale Anzahl von Ergebnissen die ich betrachten sollte?“

Die Problemstellung als Qualitätsmaß wäre: „Unabhängig davon, wie viele Ergebnisse ich bekommen will, wie gut ist die Suchfunktion?“

In diesem Beispiel sind natürlich beide Fragestellungen nur bedingt sinnvoll.

Siehe auch

Literatur

  • Tom Fawcett: ROC Graphs: Notes and Practical Considerations for Data Mining Researchers[1]
  • Ulrich Abel: Bewertung diagnostischer Tests. Hippokrates Verlag, Stuttgart 1993, 216 S., ISBN 3-7773-1079-4
  • W. Youden: Index rating for Diagnostic Test. In: Cancer. 3. 1950, 32–35

Wikimedia Foundation.

Игры ⚽ Поможем написать курсовую

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Receiver operating characteristic — In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot of the sensitivity vs. (1 specificity) for a binary classifier system as its discrimination threshold is varied. The ROC can also be… …   Wikipedia

  • Receiver operating characteristic — Die Operationscharakteristik (auch OC Kurve oder OC Funktion genannt) ist ein Begriff aus der statistischen Testtheorie. Gegeben ist eine Zufallsvariable X mit einer Verteilungsfunktion F(x|θ), die von einem unbekannten Parameter θ abhängt. Für… …   Deutsch Wikipedia

  • Receiver Operating Characteristic — Pour les articles homonymes, voir ROC. La courbe ROC de trois estimateurs d épitope La caractéristique de fonctionnement du récepteur ou, en anglais, Receiver Operating Characteristic (dite auss …   Wikipédia en Français

  • receiver operating characteristic curve — a curve that plots sensitivity versus [1 − specificity (or false positive error rate)] to help determine the best cutoff point or points for demarcating dimensional data in diagnostic tests for disease, optimizing the balance between… …   Medical dictionary

  • Characteristic — (from the Greek word for a property or attribute (= trait) of an entity) may refer to: In physics and engineering, any characteristic curve that shows the relationship between certain input and output parameters, for example: I V or current… …   Wikipedia

  • characteristic — 1. SYN: character. 2. Typical or distinctive of a particular disorder. receiver operating c. (ROC) a plot of the sensitivity of a diagnostic test as a function of nonspecificity (one minus the specificity). The ROC curve indicates the …   Medical dictionary

  • Superheterodyne receiver — A 5 tube superheterodyne receiver made in Japan around 1955 In electronics, a superheterodyne receiver (sometimes shortened to superhet) uses frequency mixing or heterodyning to convert a received signal to a fixed intermediate frequency, which… …   Wikipedia

  • ROC curve — receiver operating characteristic c …   Medical dictionary

  • Courbe ROC — Receiver Operating Characteristic Pour les articles homonymes, voir ROC. La caractéristique de fonctionnement du récepteur ou, en anglais, Receiver Operating Characteristic (dite aussi ROC[1]) est une mesure de la performance d un classifieur… …   Wikipédia en Français

  • ROC — • receiver operating characteristic; • receiver operating curve; • receptor operated channels; • relative operating characteristic; • resident on call; • residual organic carbon; • right outer canthus …   Dictionary of medical acronyms & abbreviations

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”