- Explorative Datenanalyse
-
Die explorative Datenanalyse (EDA) oder explorative Statistik ist ein Teilgebiet der Statistik. Sie untersucht und begutachtet Daten, von denen nur ein geringes Wissen über deren Zusammenhänge vorliegt. Viele EDA-Techniken werden im Data-Mining eingesetzt. Außerdem werden sie häufig in Statistik-Veranstaltungen als Einführung in das statistische Denken gelehrt.
Diese Benennung wurde von John W. Tukey in den 1970er Jahren eingeführt. Tukey legte dar, dass ein zu großer Schwerpunkt in der Statistik auf das Auswerten und Testen von gegebenen Hypothesen gelegt wird. Ferner schlug er vor, Daten dazu zu verwenden, um mögliche Hypothesen zu erhalten, welche anschließend getestet werden. Tatsächlich kann die Begriffsverwirrung zwischen den zwei Typen der Analyse und der Anwendung dessen auf die gleiche Datenmenge zu einem Bias führen.
Inhaltsverzeichnis
Ziele
Ziele der explorativen Statistik sind:
- Annahmen (Hypothesen) über die Ursache und den Grund der beobachteten Daten zu bilden
- Annahmen einzuschätzen worauf statistische Inferenz basieren kann
- Die Auswahl von passenden statistischen Werkzeugen und Techniken zu unterstützen
- Eine Basis für die weitere Daten-Sammlung durch Umfragen oder Design von Experimenten bereitzustellen
Verfahren
Grundlegende graphische Methoden, welche in der explorativen Statistik verwendet werden, sind:
- MultiVari Chart
- Run Chart
- Pareto Chart
- Stamm-Blatt-Diagramm
Grundlegende quantitative Methoden sind:
- Median polish
- Letter values
- Resistant line
- Resistant smooth
- Rootogram
Spezielle Verfahren
Software
- GeoDa - Kostenlose, userfreundliche graphische Oberfläche zur Anwendung verschiedener Methoden der explorativen Datenanalyse
- GGobi - Kostenlose interaktive multivariate Visualisierungs Software mit Verknüpfung zu R.
- LiveGraph - Open Source Framework für Daten-Visualisierung und Explorative Datenanalyse (beinhaltet einen Echtzeit Graph-Plotter).
- MANET - Kostenlose Mac interaktive EDA Software.
- Mondrian - Kostenlose interaktive Software für EDA.
- Orange - Kostenlose Komponenten-Basierte Software für eine interaktive EDA.
- PS-Explore
- Visalix - Kostenlose interaktive Web-Anwendung für Daten-Visualisierung und Explorative Datenanalyse.
Literatur
- Hoaglin, D C; Mosteller, F & Tukey, J W (Eds) (1985) Exploring Data Tables, Trends and Shapes ISBN 0471097764
- Hoaglin, D C; Mosteller, F & Tukey, J W (Eds) (1983) Understanding Robust and Exploratory Data Analysis ISBN 0471097772
- Tukey, J W (1977) Exploratory Data Analysis ISBN 0201076160
- Velleman, P F & Hoaglin, D C (1981) Applications, Basics and Computing of Exploratory Data Analysis ISBN 087150409X
- Wolfgang Polasek: EDA Explorative Datenanalyse. Einführung in die deskriptive Statistik (2. Auflage). Springer-Verlag, Berlin 1994, ISBN 9783540583943
- Siegfried Heiler, Paul Michels: Deskriptive und explorative Datenanalyse. Oldenbourg, München 1994, ISBN 3-486-22786-6
Wikimedia Foundation.