- Multivariate Verfahren
-
In der multivariaten Statistik werden mit Hilfe von Multivariaten Verfahren (auch: Multivariate Analysemethoden) mehrere statistische Variablen oder Zufallsvariablen zugleich untersucht. Zum Beispiel können für Fahrzeuge die Variablen Anzahl der Sitze, Gewicht, Länge usw. erhoben werden. In der univariaten Analyse wird jede Variable einzeln analysiert. Zusammenhangstrukturen zwischen den Variablen, z. B. größere Anzahl von Sitzen bedingt ein größeres Gewicht, können mit der univariaten Analyse nicht erkannt werden. Nur durch die gleichzeitige Analyse mehrerer Variablen können solche Abhängigkeitsstrukturen aufgedeckt werden.
Inhaltsverzeichnis
Gliederung
Multivariate Verfahren wollen im Wesentlichen die in einem Datensatz enthaltene Zahl der Variablen und/oder Beobachtungen reduzieren, ohne die darin enthaltene Information wesentlich zu reduzieren. Dazu wird die (Zusammenhangs-)Struktur der Daten analysiert. Entweder gibt man eine Struktur vor und prüft, ob die Daten mit der vorgegebenen Struktur zusammenpassen (Strukturprüfende Verfahren: Teil der Induktiven Statistik), oder man versucht, die Struktur aus den Daten zu extrahieren (Strukturentdeckende Verfahren: Teil der Explorativen Statistik).
Die klassischen Verfahren sind durchweg lineare Modelle, die besondere Anforderungen an die verwendeten Daten stellen. So sollten die Daten ausreißerfrei und nicht asymmetrisch verteilt sein. Weichen die Daten von der geforderten Struktur ab, behilft man sich beispielsweise, indem man vorhandene Ausreißer entfernt oder die Daten einer nichtlinearen Transformation, etwa dem Logarithmieren, unterzieht.
Es existieren alternative Methoden, die iterativ gewonnene Lösungen ermöglichen. Häufig verwendete Kriterien für optimale Lösungen sind
- Distanzen zwischen Punkten in einem mehrdimensionalen Raum. Erwähnenswert ist hier vor allem die Mahalanobis-Distanz, die man grob vereinfacht als Quadrat der Euklidischen Distanz bezeichnen könnte.
- Varianzen, die minimiert bzw. maximiert werden. Die Varianz dient in der Informationstheorie als Maß für den Informationsgehalt von Daten.
Die manuelle Berechnung multivariater Verfahren ist meist sehr aufwändig. Daher erfuhren diese Methoden erst mit der Entwicklung der EDV ihren Aufschwung.
Die Ergebnisse erlauben häufig keine Rückschlüsse auf zugrunde liegende Daten. Beispielsweise können bei Ergebnissen nur wenige Angaben über zugrunde liegende Wahrscheinlichkeitsverteilungen gemacht werden.
Strukturentdeckende Verfahren
Strukturentdeckende Verfahren sind z. B.
- die Faktorenanalyse, Hauptkomponentenanalyse und die Korrespondenzanalyse zur Reduktion vieler Variablen auf wenige latente Konstrukte,
- die Clusteranalyse zur Reduktion vieler Beobachtungen auf wenige Gruppen von Beobachtungen und
- die Multidimensionale Skalierung zur Berechnung niedrigdimensionaler Konfigurationen aus Distanzen oder (Un-)Ähnlichkeiten zwischen Beobachtungen.
Strukturprüfende Verfahren
Beispiele für Strukturprüfende Verfahren Skalenniveau der unabhängige Variablen abhängige Variable Metrisch Kategoriell Metrisch Multiple lineare Regression Varianzanalyse, Regression mit Dummies Kategoriell Diskriminanzanalyse, Logistische Regression Log-lineares Modell Im Rahmen der Regressionsanalyse für eine abhängige Variable und mehrere unabhängige Variablen werden generalisierte lineare Modelle eingesetzt, um dem Skalenniveaus der abhängigen und unabhängigen Variablen Rechnung zu tragen. Dazu gehören z. B. die multiple lineare Regression, die Logistische Regression (Logit-Modell) und die Log-linearen Modelle usw.
Weitere Strukturprüfende Verfahren sind
- die Varianzanalyse, die eigentlich Mittelwertsunterschiede zwischen verschiedenen Gruppen prüft,
- die Konfirmatorische Faktorenanalyse, die vorgegebene Zusammenfassungen von vielen Variablen zu wenigen latenten Konstrukten überprüft,
- die Strukturgleichungsmodelle, die zusätzlich noch Regressionmodelle zwischen latenten Konstrukten zulässt,
- die Neuronale Netze,
- die Diskriminanzanalyse und
- die Conjoint-Analyse.
Grafische Darstellung
Für die Darstellung mehrere Variablen wurden eine ganze Reihe von speziellen Grafikdarstellungen entwickelt. Eine der berühmtesten frühen multivariaten Grafiken ist die Karte von Charles Joseph Minard aus dem Jahre 1869 über den Russlandfeldzug Napoleons.
Menschen können nicht mehr als drei Dimensionen sehen; an einem Bildschirm in der Regel sogar nur zwei Dimensionen. Hochdimensionale Daten können daher häufig nicht ohne Informationsverluste dargestellt werden.
Spezielle Darstellungsmethoden sind:
- 3D-Streudiagramm
- Streudiagramm-Matrix (engl. Scatterplotmatrix)
- Chernoff- oder Flury Gesichter
- Andrews Kurven
- Parallele Koordinaten
- Netzdiagramm
- Grand Tour
Beispiele
Beispiele für Verwendung von Multivariaten Verfahren:
- Um psychologische Profile zu erstellen und aufgrund von Vergleichen herauszufinden, wer der wahrscheinlichste Täter/Sprecher/Autor ist (Kriminologie, Sprachwissenschaft).
- Um den Text eines anonymen Autors zu vergleichen mit Texten von bekannten Autoren und den wahrscheinlichsten Autor zu finden (eine Spielart des zuerst genannten Punktes).
- Data-Mining: Große Datenmengen in Datenbanken werden auf unbekannte Strukturen hin analysiert. Man erhofft sich hier Erkenntnisse über das Zusammenwirken verschiedener Aspekte, beispielsweise die Konsumausgaben von Kunden in Abhängigkeit vom sozialen Status durch Herausfinden von Ähnlichkeitsstrukturen.
- Entwicklung von sozialen Abstimmungsprozessen (Politische Soziologie) und der Einfluss einzelner Akteure darauf.
- Kreditwürdigkeitsprüfungen von Schuldnern (Diskriminanzanalyse).
- Bei der Wertpapieranalyse: Welche Unternehmenszahlen beeinflussen hauptsächlich die Ertragskraft eines Unternehmens? (Faktorenanalyse)
- Bei der Suche nach Ursachen für die Eiszeiten (Faktorenanalyse)
- In der Radioastronomie für die Signalanalyse bei SETI.[1]
Literatur
- Ahrens, H; Läuter, J: Mehrdimensionale Varianzanalyse. Akademie-Verlag, Berlin, 1974, 1981.
- Atteslander, P; Cromm, J; Grabow, B: Methoden der empirischen Sozialforschung. 11. Aufl., Gruyter-Verlag, 2006, ISBN 3-503-09740-6 (Grundlagenwissen)
- Backhaus, K; Erichson, B; Plinke, R: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. 11. Aufl., Springer, Berlin 2006, ISBN 3-540-27870-2
- Coxon, APM; Davies, PM: The User's Guide to Multidimensional Scaling. Heinemann Educational Books, London 1982, ISBN 0-435-82251-9 und ISBN 0-435-82252-7
- Daly, F et al.: Elements of Statistics. FT Prentice Hall, Harlow 1994, ISBN 0-201-42278-6
- Fahrmeir, L; Tutz, G: Multivariate Statistical Modelling Based on Generalized Linear Models. 2nd ed., Springer, New York 2001, ISBN 0-387-95187-3
- Krzanowski, WJ: Principles of Multivariate Analysis, Oxford University Press, rev. ed. 2000.
- Mardia, KV; Kent, JT; Bibby, JM: Multivariate Analysis. (Probability and Mathematical Statistics). Elsevier Limited, 2006, ISBN 0-12-471252-5
- Tabachnick, B; Fidell, L: Using Multivariate Statistics, 5. Auflage, Allyn & Bacon, Boston 2006, ISBN 0-205-45938-2
Weblinks
- Rößler, Irene / Ungerer, Albrecht: Formelsammlung zu den multivariaten Verfahren
- StatSoft, Inc. (2007). Electronic Statistics Textbook. Tulsa, OK: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html. - (englisch), sehr umfangreiche Darstellung der wichtigsten Multivariaten Analyseverfahren
Einzelnachweise
- ↑ KLT-optimized telecomunications. S.149 - 248, in: Claudio Maccone: Deep space flight and communications. Springer, Berlin 2009, ISBN 978-3-540-72942-6; Innovative SETI by the KLT@CERN Docu.Server (pdf, abgerufen am 7. Juli 2010)
Wikimedia Foundation.