- Cox-Regression
-
Die Cox-Regression ist ein Regressionsmodell aus der mathematischen Statistik. Es wird zur Modellierung von Überlebenszeiten in der Survival Analysis benutzt und basiert auf dem Konzept der Hazardrate. Benannt wurde die Cox-Regression nach dem britischen Statistiker David Cox.
Inhaltsverzeichnis
Das Regressionsmodell
Das von Cox vorgeschlagene Regressionsmodell wird zur Untersuchung des Verhaltens der Hazardfunktion in Abhängigkeit von Umwelteinflüssen benutzt. Grundlage des Modells sind q-dimensionale Einflussvektoren mit , die für jedes Individuum der Studie beobachtet werden können. Der Zusammenhang zwischen diesen Einflüssen und der Hazardfunktion wird dann über die Relation
hergestellt. bezeichnet dabei eine unbekannte baseline-Hazardfunktion, die im Ausgangsfall ohne Einflüsse (also ) die zugehörige Hazardfunktion darstellt. ist ein unbekannter Parameter, ebenfalls q-dimensional. Aufgabe der Statistik ist die Schätzung dieses Parameters.
Die Beobachtungen
Die Beobachtungen bestehen im Modell der Cox-Regression aus einem Tripel , wobei wie oben den Einflussvektor für das Individuum bezeichnet.
ist (wie im Falle der Untersuchung zensierter Daten üblich) als das Minimum von zwei Zufallsvariablen und definiert. Im Falle des tatsächlich beobachteten Todes eines Individuums gibt den Todeszeitpunkt von an. Falls dagegen nur die Studie beendet wurde, gibt den Zeitpunkt der Beendigung an. Es ist offensichtlich, dass nur bei einer Beobachtung des Todes Rückschlüsse auf die Form der Hazardfunktion geschlossen werden können. Daher gibt an, ob der Tod oder das Ende der Studie beobachtet wurde. I bezeichnet hierbei die Indikatorfunktion.
Die Schätzung von
Aufgrund der Struktur von ergibt sich das Problem, dass in Intervallen ohne Todesfall keine Rückschlüsse auf gezogen werden können. Es ist schließlich möglich, dass die unbekannte baseline-Hazardfunktion in diesem Intervall verschwindet und also a priori keine Todesfälle stattfinden können. Man greift daher auf einen Trick zurück und betrachtet bedingte Wahrscheinlichkeiten.
Wenn ausschließlich dann Informationen über erhalten werden können, wenn ein Todesfall stattgefunden hat, bietet sich zum Zeitpunkt des Todes von Individuum die Berechnung der folgenden Wahrscheinlichkeit an: Wie wahrscheinlich ist es, dass von allen noch lebenden Individuen nun ausgerechnet stirbt? Formal lässt sie sich als
berechnen. bezeichnet dabei diejenigen Individuen, die zum Zeitpunkt des Todes von noch leben.
Um eine Art Maximum-Likelihood-Schätzer für zu finden, wird nun in Abhängigkeit von die Likelihood-Funktion
maximiert. Dabei wird durch das Potenzieren der einzelnen bedingten Wahrscheinlichkeiten mit der Tatsache Rechnung getragen, dass nur die Beobachtung eines Todesfalls und nicht die des Endes der Studie Informationen über liefert.
Literatur
- David Cox: Regression models and life tables. Journal of the Royal Statistical Society B, 34 (1972), S. 187 - 220.
Kategorie:- Regressionsmodell
Wikimedia Foundation.