Multivariate Normalverteilung

Die gemeinsame Wahrscheinlichkeitsverteilung mehrerer Zufallsvariablen nennt man multivariate Verteilung oder auch mehrdimensionale Verteilung.

Inhaltsverzeichnis

1 Formale Darstellung
2 Ausgewählte multivariate Verteilungen
3 Die multivariate Normalverteilung
4 Beispiel für eine multivariate Normalverteilung
5 Stichproben bei multivariaten Verteilungen
6 Beispiel zu Stichproben
7 Literatur

Formale Darstellung

Um Verwechslungen zu vermeiden, werden im Folgenden skalare Zufallsvariablen groß geschrieben, Zufallsvektoren dagegen klein. Ferner werden jegliche Vektoren unterstrichen.

Man betrachtet $p$ Zufallsvariablen $X_j\ (j=1, \ldots, p)$ , jeweils mit einem Erwartungswert $E (X j)$ und der Varianz $V (X j)$ . Die Zufallsvariablen sind zudem paarweise korreliert mit der Kovarianz $\operatorname{Cov}(X_j,X_k)\ (j,k=1,\ldots,p; j\ne k)$ .

Die Verteilung ist nun die gemeinsame Wahrscheinlichkeit, dass alle $X j$ höchstens gleich einer jeweiligen Konstanten $x j$ sind, also

$P(X_1 \le x_1,X_2 \le x_2,\ldots, X_p \le x_p) = F_X(x_1,x_2,\ldots, x_p)$ .

Multivariate Zufallsvariablen werden i.A. in einem Zufallsvektor $\underline x$ zusammengefasst:

$\underline x = \begin{pmatrix} X_1 \\ X_2 \\ \vdots\\ X_p \end{pmatrix}$ .

Die Verteilung ist somit

$F_x(\underline x)=F_X(x_1, x_2, \ldots, x_p)$ .

Die Erwartungswerte befinden sich im Erwartungswertvektor

$E(\underline x)= \begin{pmatrix} E(X_1) \\ E(X_2) \\ \vdots\\ E(X_p) \end{pmatrix}$

der meist mit $\underline \mu$ bezeichnet wird.

Die Varianzen werden zusammen mit den Kovarianzen in der ( $p\times p$ )-Kovarianzmatrix $Σ$ aufgeführt:

$\Sigma= \begin{pmatrix} V(X_1) &amp;amp; {\rm Cov}(X_1,X_2) &amp;amp; {\rm Cov}(X_1,X_3) &amp;amp; \ldots &amp;amp; {\rm Cov}(X_1,X_p) \\ {\rm Cov}(X_2,X_1) &amp;amp; V(X_2) &amp;amp; {\rm Cov}(X_2,X_3) &amp;amp; \ldots &amp;amp; {\rm Cov}(X_2,X_p) \\ {\rm Cov}(X_3,X_1) &amp;amp; {\rm Cov}(X_3,X_2) &amp;amp; V(X_3) &amp;amp; \ldots &amp;amp; {\rm Cov}(X_3,X_p) \\ \vdots &amp;amp; \vdots &amp;amp; \vdots &amp;amp; \ddots &amp;amp; \vdots \\ {\rm Cov}(X_p,X_1) &amp;amp; {\rm Cov}(X_p,X_2) &amp;amp; {\rm Cov}(X_p,X_3) &amp;amp; \ldots &amp;amp; V(X_p) \\ \end{pmatrix}$

$Σ$ ist symmetrisch mit den Varianzen auf der Hauptdiagonalen. $\underline x$ ist also verteilt mit dem Erwartungswertvektor $E(\underline x)$ und der Kovarianzmatrix $Σ$ .

Die Umformung zu den Korrelationskoeffizienten

$\rho_{jk}={{\rm Cov}(X_j,X_k) \over\ \sqrt{V(X_j) \cdot V(X_k)}}$

ergibt im Falle positiver Varianzen die Korrelationsmatrix

$R = \begin{pmatrix} 1 &amp;amp; \rho_{12} &amp;amp; \rho_{13} &amp;amp; \ldots &amp;amp; \rho_{1p} \\ \rho_{21} &amp;amp; 1 &amp;amp; \rho_{23} &amp;amp; \ldots &amp;amp; \rho_{2p} \\ \rho_{31} &amp;amp; \rho_{32} &amp;amp; 1 &amp;amp; \ldots &amp;amp; \rho_{3p} \\ \vdots &amp;amp; \vdots &amp;amp; \vdots &amp;amp; \ddots &amp;amp; \vdots \\ \rho_{p1} &amp;amp; \rho_{p2} &amp;amp; \rho_{p3} &amp;amp; \ldots &amp;amp; 1\\ \end{pmatrix}$

Gemeinsame Wahrscheinlichkeiten sind häufig schwierig zu berechnen, vor allem, wenn schon die Einzelwahrscheinlichkeiten nicht analytisch bestimmbar sind. Man behilft sich dann gegebenenfalls mit Abschätzungen. Vor allem können die Auswirkungen der Kovarianz auf die Verteilung in der Regel nicht abgesehen werden.

Sind die Zufallsvariablen stochastisch unabhängig, ist die gemeinsame Verteilung gleich dem Produkt der entsprechenden Einzelverteilungen, den Rand- oder auch Marginalverteilungen.

$F_x(\underline x) = F_X(x_1, x_2, \ldots, x_p) = F_{X_1}(x_1) F_{X_2}(x_2) \cdots F_{X_p}(x_p)$ .

Ausgewählte multivariate Verteilungen

Von Bedeutung sind vor allem die

multivariate Normalverteilung,
Hotelling t-Verteilung als multivariate t-Verteilung,
Wishart-Verteilung als multivariate Chi-Quadrat-Verteilung,

die multivariaten Verfahren zu Grunde liegen. Meistens ist es möglich, mittels einer linearen Transformation den Zufallsvektor in ein Skalar umzuwandeln, das dann univariat verteilt ist und so als Testprüfgröße fungiert.

Die multivariate Normalverteilung

Dichte der zweidimensionalen Standardnormalverteilung

Gegeben ist ein Vektor $\underline x$ aus $p$ gemeinsam normalverteilten Zufallsvariablen mit dem Erwartungswertvektor $μ$ und der Kovarianzmatrix $Σ$ mit Determinante $| Σ |$ , d. h. die gemeinsame Dichtefunktion der Vektorkomponenten sei gegeben durch

$f_x(\underline x)=\frac 1{(2\pi)^{\frac p2}|\Sigma|^{\frac 12}} \exp\left(-{\frac 12}(\underline x-\underline \mu)^T\Sigma^{-1}(\underline x-\underline \mu)\right)$ .

Wir schreiben:

$\underline x\sim \mathcal N_p(\underline \mu, \Sigma)$ .

Die Kovarianzmatrix $Σ$ ist positiv semidefinit. Die Werte der Verteilungsfunktion $F$ müssen numerisch ermittelt werden.

Die multivariate Normalverteilung hat spezielle Eigenschaften:

Sind die Komponenten des Zufallsvektors $\underline x$ paarweise unkorreliert, sind sie auch stochastisch unabhängig.

Die lineare Transformation $\underline y = \underline a + B\underline x$ mit $B$ als $(q\times p)$ -Matrix $(q \le p)$ und $\underline a$ als Vektor der Länge $q$ ist $q$ -dimensional normalverteilt als $\mathcal N_q(\underline a + B\underline \mu, B\Sigma B^T)$ .

Die lineare Transformation

$\underline y = \Sigma^{-\frac 12}(\underline x-\underline \mu)$

standardisiert den Zufallsvektor

x

. Es ist

$\underline Y \sim N_p(\underline 0,\underline 1)$ .

also sind die Komponenten von

y

stochastisch unabhängig.

$X$ kann auch eine singuläre Kovarianzmatrix besitzen. Man spricht dann von einer degenerierten oder singulären multivariaten Normalverteilung.

Beispiel für eine multivariate Normalverteilung

Betrachtet wird eine Apfelbaumplantage mit sehr vielen gleich alten, also vergleichbaren Apfelbäumen. Man interessiert sich für die Merkmale Größe der Apfelbäume, die Zahl der Blätter und die Erträge. Es werden also die Zufallsvariablen definiert:

$X 1$ : Höhe eines Baumes [m]; $X 2$ : Ertrag [100 kg]; $X 3$ : Zahl der Blätter [1000 Stück].

Die Variablen sind jeweils normalverteilt wie

X 1 ˜ N (4; 1); X 2 ˜ N (20; 100); X 3 ˜ N (20; 225);

Die meisten Bäume sind also um 4 ± 1m groß, sehr kleine oder sehr große Bäume sind eher selten. Bei einem großen Baum ist der Ertrag tendenziell größer als bei einem kleinen Baum, aber es gibt natürlich hin und wieder einen großen Baum mit wenig Ertrag. Ertrag und Größe sind korreliert, die Kovarianz beträgt $C o v (X 1, X 2) = 9$ und der Korrelationskoeffizient $ρ 12 = 0, 9$ .

Ebenso ist $\operatorname{Cov}(X_1,X_3)=12{,}75$ mit dem Korrelationskoeffizienten $ρ 13 = 0, 85$ , und $\operatorname{Cov}(X_2,X_3)=120$ mit dem Korrelationskoeffzienten $ρ 23 = 0, 8$ .

Fasst man die drei Zufallsvariablen im Zufallsvektor $\underline x$ zusammen, ist $\underline x$ multivariat normalverteilt mit

$\underline \mu = \begin{pmatrix} 4\\ 20\\ 20 \end{pmatrix}$

und

$\Sigma= \begin{pmatrix} 1 &amp;amp; 9 &amp;amp; 12{,}75\\ 9 &amp;amp; 100 &amp;amp; 120\\ 12{,}75 &amp;amp; 120 &amp;amp; 225 \end{pmatrix}$ .

Die entsprechende Korrelationsmatrix ist

$R= \begin{pmatrix} 1 &amp;amp; 0{,}9 &amp;amp; 0{,}85\\ 0{,}9 &amp;amp; 1 &amp;amp; 0{,}8\\ 0{,}85 &amp;amp; 0{,}8 &amp;amp; 1 \end{pmatrix}$ .

Stichproben bei multivariaten Verteilungen

In der Realität werden in aller Regel die Verteilungsparameter einer multivariaten Verteilung nicht bekannt sein. Diese Parameter müssen also geschätzt werden.

Man zieht eine Stichprobe vom Umfang $n$ . Jede Realisation $i\in\{1,\ldots,n\}$ des Zufallsvektors $\underline x$ könnte man als Punkt in einem $p$ -dimensionalen Hyperraum auffassen. Man erhält so die $(n\times p)$ -Datenmatrix $X$ als

$X= \begin{pmatrix} x_{11}&amp;amp; x_{12}&amp;amp; \cdots &amp;amp;x_{1j}&amp;amp;\cdots &amp;amp;x_{1p}\\ x_{21}&amp;amp; x_{22}&amp;amp; \cdots &amp;amp;x_{2j}&amp;amp;\cdots &amp;amp;x_{2p}\\ \vdots&amp;amp; &amp;amp; &amp;amp; &amp;amp; &amp;amp;\vdots \\ x_{i1}&amp;amp; x_{i2}&amp;amp; \cdots &amp;amp;x_{ij}&amp;amp;\cdots &amp;amp;x_{ip}\\ \vdots&amp;amp; &amp;amp; &amp;amp; &amp;amp; &amp;amp;\vdots \\ x_{n1}&amp;amp; x_{n2}&amp;amp; \cdots &amp;amp;x_{nj}&amp;amp;\cdots &amp;amp;x_{np} \end{pmatrix}$ ,

die in jeder Zeile die Koordinaten eines Punktes enthält.

Der Erwartungswertvektor wird geschätzt durch den Mittelwertvektor der $p$ arithmetischen Mittelwerte

$\hat E(\underline x)=\underline{\bar x}= \begin{pmatrix} \bar x_1\\ \bar x_2\\ \vdots\\ \bar x_j\\ \vdots\\ \bar x_p \end{pmatrix}$

mit den Komponenten

$\bar x_j = \frac 1n\sum_{i=1}^n x_{ij}$ .

Für die Schätzung der Kovarianzmatrix erweist sich die bezüglich der arithmetischen Mittelwerte zentrierte Datenmatrix $X *$ als nützlich. Sie berechnet sich als

$X^*=X-\underline 1\cdot\underline{\bar x}^T$ ,

mit den Elementen $x^*_{ij}$ , wobei $\underline 1$ einen Spaltenvektor der Länge $n$ mit lauter Einsen darstellt.

Die $(p\times p)$ -Kovarianzmatrix hat die geschätzten Komponenten

$s_{jk}=\hat\operatorname{Cov}(X_j,X_k)=\frac 1{n-1}\sum_{i=1}^n x^*_{ij}x^*_{ik}$ .

Sie ergibt sich als

$\widehat\Sigma = S = \frac 1{n-1}X^{*T}X^*$ .

Die Korrelationsmatrix $R$ wird geschätzt durch die paarweisen Korrelationskoeffizienten

$r_{jk} = \frac{\sum\limits_{i=1}^n x^*_{ij}x^*_{ik}} {\sqrt{\sum\limits_{i=1}^n {x^*_{ij}}^2}\sqrt{\sum\limits_{i=1}^n {x^*_{ik}}^2}}$ ,

auf ihrer Hauptdiagonalen stehen Einsen.

Beispiel zu Stichproben

Es wurden 10 Apfelbäume zufällig ausgewählt. Die 10 Beobachtungen werden in der Datenmatrix $X$ zusammengefasst:

$X= \begin{pmatrix} 3{,}3&amp;amp;24&amp;amp; 27 \\ 4{,}9&amp;amp; 41&amp;amp;55\\ 5{,}9&amp;amp; 46&amp;amp;52 \\ 5{,}2&amp;amp; 49&amp;amp;54\\ 3{,}6&amp;amp; 29 &amp;amp;34 \\ 4{,}2&amp;amp;33&amp;amp; 51 \\ 5{,}0&amp;amp;42&amp;amp; 43\\ 5{,}1&amp;amp;35&amp;amp; 54 \\ 6{,}8&amp;amp;60&amp;amp; 70 \\ 5{,}0&amp;amp;41&amp;amp;50 \end{pmatrix}$ .

Die Mittelwerte berechnen sich, wie beispielhaft an $\bar x_1$ gezeigt, als

$\bar x_1=\frac{1}{10}(3{,}3+4{,}9+\ldots+5{,}0)=4{,}9$ .

Sie ergeben den Mittelwertvektor

$\underline{\bar x}= \begin{pmatrix} 4{,}9\\ 40\\ 49 \end{pmatrix}$

Für die zentrierte Datenmatrix $X *$ erhält man die zentrierten Beobachtungen, indem man von den Spalten den entsprechenden Mittelwert abzieht:

3,3 - 4,9 = -1,6;	24 – 40 = -16;	27 - 49 = -22
4,9 - 4,9 = 0;	41 - 40 = 1;	55 - 49 = 6
	...

also

$X^*= \begin{pmatrix} -1{,}6&amp;amp;-16&amp;amp; -22 \\ 0{,}0&amp;amp; 1&amp;amp;6\\ 1{,}0&amp;amp; 6&amp;amp;3 \\ 0{,}3&amp;amp; 9&amp;amp;5\\ -1{,}3&amp;amp; -11 &amp;amp;-15 \\ -0{,}7&amp;amp;-7&amp;amp; 2 \\ 0{,}1&amp;amp;2&amp;amp; -6\\ 0{,}2&amp;amp;-5&amp;amp; 5 \\ 1{,}9&amp;amp;20&amp;amp; 21 \\ 0{,}1&amp;amp;1&amp;amp;1 \end{pmatrix}$ .

Man berechnet für die Kovarianzmatrix die Kovarianzen, wie im Beispiel,

$s_{12}=\hat\operatorname{Cov}(X_1,X_2)=\frac 19(-1{,}6 \cdot (-16)+0\cdot 1+\ldots+0{,}1\cdot 1) =\frac{91}{9}\approx 10{,}09$

und entsprechend die Varianzen

$s_{22}=\hat V(X_2)=\frac 19((-16)^2 +1^2+...+1^2) =\frac{974}{9}\approx 108{,}22$ ,

so dass sich die Kovarianzmatrix

$S= \begin{pmatrix} 1{,}06&amp;amp;10{,}09&amp;amp;10{,}91 \\ 10{,}09&amp;amp; 108{,}22&amp;amp;106{,}22\\ 10{,}91&amp;amp; 106{,}22&amp;amp;142{,}89 \end{pmatrix}$

ergibt.

Entsprechend erhält man für die Korrelationsmatrix zum Beispiel

$r_{12}=\frac{10{,}09}{\sqrt{1{,}06\cdot 108{,}22 }} \approx 0{,}9439$

bzw. insgesamt

$R= \begin{pmatrix} 1&amp;amp;0{,}9439&amp;amp;0{,}8884 \\ 0{,}9439&amp;amp; 1&amp;amp;0{,}8542\\ 0{,}8884&amp;amp; 0{,}8542&amp;amp;1 \end{pmatrix}$ .

Literatur

Mardia, KV, Kent, JT, Bibby, JM: Multivariate Analysis, New York 1979
Fahrmeir, Ludwig, Hamerle, Alfred, Tutz, Gerhard (Hrsg): Multivariate statistische Verfahren, New York 1996
Hartung, Joachim, Elpelt, Bärbel: Multivariate Statistik, München, Wien 1999

Diskrete univariate Verteilungen

Kontinuierliche univariate Verteilungen

Multivariate Verteilungen

Diskrete multivariate Verteilungen:
Ewen's | Multinomial | Dirichlet Multinomial

Multivariate Matrixverteilungen:
Inverse-Wishart | Matrix Normal | Wishart

Wikimedia Foundation.

Игры ⚽ Поможем написать курсовую

Schlagen Sie auch in anderen Wörterbüchern nach:

Multivariate Verteilung — Die Wahrscheinlichkeitsverteilung einer mehrdimensionalen Zufallsvariable nennt man multivariate Verteilung oder auch mehrdimensionale Verteilung. Inhaltsverzeichnis 1 Einführendes Beispiel 2 Zweidimensionale Verteilungsfunktion 3 Der allgemeine… … Deutsch Wikipedia
multivariate normal distribution — normalusis daugiamatis skirstinys statusas T sritis fizika atitikmenys: angl. multivariate normal distribution vok. mehrdimensionale Normalverteilung, f rus. многомерное нормальное распределение, n pranc. distribution normale multivariée, f … Fizikos terminų žodynas
Mehrdimensionale Normalverteilung — Die mehrdimensionale oder multivariate Normalverteilung ist ein Typ multivariater Wahrscheinlichkeitsverteilungen und stellt eine Verallgemeinerung der (eindimensionalen) Normalverteilung auf mehrere Dimensionen dar.[1] Bestimmt wird eine… … Deutsch Wikipedia
Log-Normalverteilung — Die logarithmische Normalverteilung (kurz Log Normalverteilung) ist eine kontinuierliche Wahrscheinlichkeitsverteilung über der Menge der positiven reellen Zahlen. Sie beschreibt die Verteilung einer Zufallsvariablen X, wenn ln(X) normalverteilt… … Deutsch Wikipedia
Log normalverteilung — Die logarithmische Normalverteilung (kurz Log Normalverteilung) ist eine kontinuierliche Wahrscheinlichkeitsverteilung über der Menge der positiven reellen Zahlen. Sie beschreibt die Verteilung einer Zufallsvariablen X, wenn ln(X) normalverteilt… … Deutsch Wikipedia
mehrdimensionale Normalverteilung — normalusis daugiamatis skirstinys statusas T sritis fizika atitikmenys: angl. multivariate normal distribution vok. mehrdimensionale Normalverteilung, f rus. многомерное нормальное распределение, n pranc. distribution normale multivariée, f … Fizikos terminų žodynas
Korrelationsmatrix — Die gemeinsame Wahrscheinlichkeitsverteilung mehrerer Zufallsvariablen nennt man multivariate Verteilung oder auch mehrdimensionale Verteilung. Inhaltsverzeichnis 1 Formale Darstellung 2 Ausgewählte multivariate Verteilungen 3 Die multivariate… … Deutsch Wikipedia
Shapiro-Wilk-Test — Der Shapiro Wilk Test ist ein statistischer Signifikanztest, der die Hypothese überprüft, dass die zugrunde liegende Grundgesamtheit einer Stichprobe normalverteilt ist. Die Nullhypothese H0 nimmt an, dass eine Normalverteilung der… … Deutsch Wikipedia
Bartlett-Test — Als Bartlett Test (auch: Bartlett s Test) werden zwei verschiedene Tests bezeichnet: der Bartlett Test auf Gleichheit der Varianzen in k Stichproben und der Bartlett Test auf Spherizität zur Durchführung einer Faktorenanalyse. Beide Tests beruhen … Deutsch Wikipedia
Gauss-Verteilung — Dichten normalverteilter Zufallsgrößen Die Normal oder Gauß Verteilung (nach Carl Friedrich Gauß) ist ein wichtiger Typ kontinuierlicher Wahrscheinlichkeitsverteilungen. Ihre Wahrscheinlichkeitsdichte wird auch Gauß Funktion, Gauß Kurve, Gauß… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Multivariate Normalverteilung

Inhaltsverzeichnis

Formale Darstellung

Ausgewählte multivariate Verteilungen

Die multivariate Normalverteilung

Beispiel für eine multivariate Normalverteilung

Stichproben bei multivariaten Verteilungen

Beispiel zu Stichproben

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Multivariate Normalverteilung

Inhaltsverzeichnis

Formale Darstellung

Ausgewählte multivariate Verteilungen

Die multivariate Normalverteilung

Beispiel für eine multivariate Normalverteilung

Stichproben bei multivariaten Verteilungen

Beispiel zu Stichproben

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link