Totale Varianz

Totale Varianz

Die totale Varianz ist ein Maß in der Statistik für die Streuung eines multivariaten Datensatzes (mit p Variablen Xj):

T = \sum_{j=1}^p \operatorname{Var}(X_j)= \sum_{j=1}^p \frac{1}{n} \sum_{i=1}^n (x_{ij}-\bar{x}_j)^2 = \frac{1}{n} \sum_{i=1}^n \underbrace{\sum_{j=1}^p (x_{ij}-\bar{x}_j)^2}_{=d ^2(x_i, \bar{x})}

mit xij die ite Beobachtung in der Variable j, \bar{x}_j das arithmetische Mittel der Beobachtungen in der Variablen j und d ^2(x_i, \bar{x}) die quadrierte euklidische Distanz zwischen der multivariaten Beobachtung x_i=(x_{i1},\ldots,x_{ip}) und dem Mittelpunkt der Daten \bar{x}=(\bar{x}_1,\ldots,\bar{x}_p).

Sie ist damit eine Erweiterung der empirischen Varianz einer Variablen auf den multivariaten Fall:

s^2 = \frac{1}{n} \sum_{i=1}^n \underbrace{(x_{i}-\bar{x})^2}_{=d^2(x_i, \bar{x})}.

Eine wichtige Eigenschaft der totalen Varianz ist ihre Invarianz unter einer Rotation des Datensatzes, d.h. die totale Varianz der rotierten Daten ist gleich der totalen Varianz der unrotierten Daten. Dies gilt, da die totale Varianz der mittlere Abstand der Beobachtung zum Datensatzmittelpunkt ist.

Die totale Varianz steht in einem engen Zusammenhang mit der Kovarianzmatrix der Daten, welche ebenfalls als eine Verallgemeinerung der univariaten Varianz betrachtet werden kann, aber von der gewählten Basis abhängt. Die totale Varianz ist dann gerade die Spur dieser Matrix, sie ist also gleichzeitig die Summe der Eigenwerte der Kovarianzmatrix.

Der Anteil der erklärten totalen Varianz wird daher in der Hauptkomponentenanalyse, der Faktoranalyse und der Clusteranalyse als ein Maß benutzt, ob die vorgenommene Datenreduktion den multivariaten Datensatz gut widerspiegelt. Bei der Verwendung dieses Maßes in der Clusteranalyse spricht man von einer „internen Validierung“, da sie ohne zusätzliche externe Information auskommt.


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Varianz — steht für: Stichprobenvarianz, die Varianz als deskriptives Maß zur Beschreibung einer Stichprobe korrigierte Stichprobenvarianz, die empirische Varianz für die Schätzung der Varianz einer Grundgesamtheit Varianz (Stochastik), ein Maß für die… …   Deutsch Wikipedia

  • Allan-Varianz — Die Allan Varianz, benannt nach David W. Allan, stellt ein Maß für die Stabilität von Uhren und Oszillatoren dar. Sie ist auch als Zweiwert Varianz bekannt. Sie ist definiert als die Hälfte des Durchschnitts der Differenzquadrate jeweils zweier… …   Deutsch Wikipedia

  • Durchschnittlich erfasste Varianz — Die durchschnittlich erfasste Varianz (DEV; engl. average variance extracted, AVE) ist in der multivariaten Statistik eine Maßzahl wie gut eine einzelne latenten Variable (Konstrukt) η seine Indikatoren yi (i = 1,...,p) erklärt. Dabei wird die… …   Deutsch Wikipedia

  • Hauptkomponentenanalyse — als Faktorenanalyse: Zwei Hauptkomponenten einer zweidimensionalen Punktwolke (orthogonal rotiert) Die Hauptkomponentenanalyse (siehe auch Hauptachsentransformation oder Singulärwertzerlegung) oder englisch Principal Component Analysis (PCA) …   Deutsch Wikipedia

  • Faktorenanalyse — Die Faktorenanalyse, häufig auch Faktoranalyse, ist ein Verfahren der multivariaten Statistik. Es dient dazu, aus empirischen Beobachtungen vieler verschiedener manifester Variablen (Observablen, Items) auf wenige zugrunde liegende latente… …   Deutsch Wikipedia

  • k-Means-Algorithmus — Ein k Means Algorithmus ist ein Verfahren zur Clusteranalyse. Dabei wird aus einer Menge von ähnlichen Objekten eine vorher bekannte Anzahl von k Gruppen gebildet. Der Algorithmus ist eine der am häufigsten verwendeten Techniken zur Gruppierung… …   Deutsch Wikipedia

  • Beta-Verteilung — Betaverteilung für verschiedene Parameterwerte Dichten verschiedener beta verteilter Zufallsgrößen Die Betaverteilung ist eine kontinuierliche Wahrsc …   Deutsch Wikipedia

  • Betaverteilung — für verschiedene Parameterwerte Dichten verschiedene …   Deutsch Wikipedia

  • Liste mathematischer Sätze — Inhaltsverzeichnis A B C D E F G H I J K L M N O P Q R S T U V W X Y Z A Satz von Abel Ruffini: eine allgemeine Polynomgleichung vom …   Deutsch Wikipedia

  • Cox-Prozess — Pfade von zwei Poissonprozessen mit konstanter Intensität: einmal 2.4 (blau) und 0.6 (rot). Der blaue Prozess hat eine vier mal höhere Intensität und weist auch mit 30 Sprüngen in gezeichneten Zeitintervall [0,14.9] weit mehr auf als der rote… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”