- Kovarianz (Stochastik)
-
Die Kovarianz ist in der Statistik eine nichtstandardisierte Maßzahl für den (linearen) Zusammenhang zweier Zufallsvariablen mit gemeinsamer Verteilung. Ist die Kovarianz eine positive Zahl, dann gehen kleine Werte der einen Variable überwiegend einher mit kleinen Werten der anderen Variable und gleichfalls für große Werte. Für eine negative Kovarianz ist das genau umgekehrt.
Inhaltsverzeichnis
Definition
Sind X und Y zwei reelle, integrierbare Zufallsvariablen, deren Produkt ebenfalls integrierbar ist, d. h. die Erwartungswerte , und existieren, dann heißt
die Kovarianz von X und Y. Die geforderte Existenz der Erwartungswerte ist insbesondere erfüllt, wenn X und Y quadratintegrierbar sind, also wenn und gilt.
Eigenschaften
Interpretation der Kovarianz
- Die Kovarianz ist positiv, wenn X und Y tendenziell einen gleichsinnigen linearen Zusammenhang besitzen, d. h. hohe Werte von X gehen mit hohen Werten von Y einher und niedrige mit niedrigen.
- Die Kovarianz ist hingegen negativ, wenn X und Y einen gegensinnigen linearen Zusammenhang aufweisen, d. h. hohe Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen einher.
- Ist das Ergebnis 0, so besteht kein linearer Zusammenhang zwischen den beiden Variablen X und Y (nichtlineare Beziehungen sind möglich).
Die Kovarianz gibt zwar die Richtung einer Beziehung zwischen zwei Variablen an, über die Stärke des Zusammenhangs wird aber keine Aussage getroffen. Dies liegt an der Linearität der Kovarianz.
Um einen Zusammenhang vergleichbar zu machen, muss die Kovarianz normiert werden. Die gebräuchlichste Normierung mittels der Standardabweichung führt zum Korrelationskoeffizienten.
Beziehung zur Varianz
Die Kovarianz ist eine Verallgemeinerung der Varianz, denn es gilt
- .
Das heißt, die Varianz ist die Kovarianz einer Variable mit sich selbst.
Mit Hilfe der Kovarianzen lässt sich auch die Varianz einer Summe von quadratintegrierbaren Zufallsvariablen berechnen. Allgemein gilt
Speziell für die Summe zweier Zufallsvariablen hat man also die Formel
Verschiebungssatz
Der Verschiebungssatz liefert eine alternative Darstellung der Kovarianz
- .
Diese Formeln ermöglichen in vielen Fällen eine einfachere Berechnung der Kovarianz. Bei numerischer Rechnung muss dabei allerdings auf unerwünschte Stellenauslöschung bei der Subtraktion großer Zahlen geachtet werden.
Symmetrie und Linearität
Die Kovarianz ist eine symmetrische Bilinearform auf dem Vektorraum der quadratisch integrierbaren Zufallsvariablen, d. h. es gilt:
Wegen der Symmetrie ist die Kovarianz auch im zweiten Argument linear. Die Ungleichung zeigt, dass die Kovarianz auch positiv semidefinit ist. Insgesamt folgt hieraus, wie für jede positiv semidefinite symmetrische Bilinearform, die Cauchy-Schwarzsche Ungleichung
Die Linearität der Kovarianz hat zur Folge, dass die Kovarianz vom Maßstab der Zufallsvariablen abhängt. So erhält man beispielsweise die zehnfache Kovarianz, wenn man anstatt X die Zufallsvariable 10X betrachtet. Insbesondere hängt der Wert der Konverianz von den verwendeten Maßeinheiten der Variablen ab. Da diese Eigenschaft die absoluten Werte der Kovarianz schwer interpretierbar macht, betrachtet man häufig stattdessen den maßstabsunabhängigen Korrelationskoeffizienten
Unkorreliertheit
Falls , so heißen die Zufallsvariablen X und Y unkorreliert.
Ist c eine konstante Zufallsvariable, dann ist .
Wenn die Zufallsvariablen paarweise unkorreliert und quadratisch integrierbar sind (d. h. für ), dann gilt für die Varianz der Summe der Zufallsvariablen
- .
Stochastisch unabhängige Zufallsvariablen, deren Kovarianz existiert, sind stets unkorreliert, denn für unabhängige Zufallsvariablen X und Y gilt , also nach dem Verschiebungssatz . Umgekehrt bedeutet Unkorreliertheit aber nicht zwingend, dass die Zufallsvariablen stochastisch unabhängig sind, denn es können nichtlineare Abhängigkeitsstrukturen vorliegen, die die Kovarianz nicht erfassen kann.
Beispiele
- Sei X zweidimensional multinormalverteilt (X = (X1,X2) und mit ), so gilt für die Kovarianz:
- Sei X = (X1,X2) zweidimensional multinomialverteilt (PX = M(n,(p1,p2))), so gilt:
- Das folgende Rechenbeispiel zeigt, dass aus der Unkorreliertheit nicht die Unabhängigkeit folgt:
- Seien X und Y Zufallsvariablen mit und
- Dann gilt und , .
- Es folgt und ebenfalls , also .
- Andererseits sind X und Y wegen nicht stochastisch unabhängig.
- Ein weiteres Beispiel für unkorrelierte, aber stochastisch abhängige Zufallsvariablen:
- Seien X,Y bernoulliverteilt mit Parameter p und unabhängig, dann sind X + Y und X − Y unkorreliert, aber nicht unabhängig.
- Die Unkorreliertheit ist klar, denn Cov(X + Y,X − Y) = Cov(X,X) − Cov(X,Y) + Cov(Y,X) − Cov(Y,Y) = 0.
- Aber X + Y und X − Y sind nicht unabhängig, denn es ist .
Siehe auch
Wikimedia Foundation.