- Deskriptive Statistik
-
Die deskriptive (auch: beschreibende) Statistik hat zum Ziel, empirische Daten durch Tabellen, Kennzahlen (auch: Maßzahlen oder Parameter) und Grafiken übersichtlich darzustellen und zu ordnen. Dies ist vor allem bei umfangreichem Datenmaterial sinnvoll, da dieses nicht leicht überblickt werden kann.
Inhaltsverzeichnis
Abgrenzung zu anderen Teilgebieten der Statistik
Neben der deskriptiven Statistik gehören zur Statistik noch
- die explorative Datenanalyse (auch: erkundende Statistik) und
- die mathematische Statistik (auch: schließende Statistik, inferentielle Statistik oder induktive Statistik).
Die explorative Statistik hat zum Ziel, bisher unbekannte Strukturen und Zusammenhänge in den Daten zu finden und hierdurch neue Hypothesen zu generieren. Diese auf Stichprobendaten beruhenden Hypothesen können dann im Rahmen der schließenden Statistik mittels wahrscheinlichkeitstheoretischer Methoden auf ihre Allgemeingültigkeit untersucht werden.
Von der induktiven oder inferentiellen Statistik (Inferenzstatistik) unterscheidet sich die deskriptive Statistik dadurch, dass sie keine Aussagen zu einer über die untersuchten Fälle hinausgehenden Grundgesamtheit macht und keine Überprüfung von Hypothesen ermöglicht.[1] Die deskriptive Statistik verwendet keine stochastischen Modelle (Grundlage der induktiven Statistik), so dass die getroffenen Aussagen nicht durch Fehlerwahrscheinlichkeiten abgesichert sind.
Die Methoden der deskriptiven Statistik können daher bei jeder Art von Stichproben angewandt werden während für die Methoden der induktive Statistik eine Reihe von Voraussetzungen, unter anderem an die Stichprobenziehung, gestellt werden müssen. Die Methoden der explorativen Statistik sind meist identisch mit der deskriptiven Statistik; es ist eher das Ziel der Analyse was beide Teilgebiete unterscheidet.
Methoden der deskriptive Statistik
-
Beispiel für eine Tabelle: Tabellenkalkulation mit OpenOffice.org
-
Beispiel für ein Diagramm: Histogramm einer Variablen
-
Beispiel für einen Parameter: η Koeffizienten für zwei Variablen
Um die Daten darzustellen gibt es im Wesentlichen drei Methoden:
- Tabellen
- In Tabellen werden Daten in einer Matrix mit Zeilen und Spalten dargestellt, wenn die Datenstruktur dies erlaubt. Dabei entspricht üblicherweise eine Zeile einer Beobachtung und eine Spalte einer Variablen der Daten. Der Nachteil einer Tabelle ist, dass bei selbst kleinen Datensätzen, die Struktur der Daten nur schwer zu erfassen ist. Manchmal kann das Umordnen von Spalten oder Zeilen helfen.
- Diagramme
- In Diagrammen und Grafiken werden die Daten bzw. bestimmte Aspekte derselben graphisch übersichtlich dargestellt. Dafür ist jedoch meist eine Zusammenfassung der Daten nötig, so dass Information aus den Daten verloren gehen. Zum Beispiel in einem Streudiagramm von zwei Variablen kann man gut die Relation zwischen den Daten erkennen, jedoch geht die Anzahl der Beobachtungen mit gleichen numerischen Werten verloren (overplotting).
- Parameter
- In Parametern (auch Maßzahlen oder Kennzahlen) wird ein Aspekt der Daten auf eine einzige Zahl reduziert (aggregiert). Um die Daten zu beschreiben, werden dann eine Vielzahl unterschiedlicher Parameter berechnet um den Informationsverlust durch die starke Zusammenfassung auszugleichen.
Tabelle Diagramm Parameter Aggregation der Daten niedrig mittel hoch Übersichtlichkeit niedrig mittel hoch Informationsgehalt hoch mittel niedrig Kenngrößen (statistische Kennwerte)
Zwei Arten von Kenngrößen sind hauptsächlich von Interesse: Lagemaße und Streuungsmaße. Die Wahl der geeigneten Kenngrößen hängt vom Skalen- oder Messniveau der Daten und von der Robustheit der Kenngröße ab.
Lagemaße – zentrale Tendenz einer Häufigkeitsverteilung
- Mittelwert
- Median
- Modus oder Modalwert
- Quantile (Quartile, Dezile)
Aus der Lage der verschiedenen Schätzwerte für die zentrale Tendenz zueinander lassen sich Schiefe und Exzess einer Verteilung bestimmen.
Streuungsmaße – Streuung oder Dispersion der Verteilung
- Varianz
- Standardabweichung (radizierte Varianz)
- Variationsbreite, auch Spannweite (Range) genannt
- Interquartilbereiche
- Mittlere absolute Abweichung
Zusammenhangsmaße geben an, wie stark zwei betrachtete Merkmale miteinander korrelieren.
Beispiele
- Darstellung der Durchschnittstemperatur und der Temperaturschwankungen in einer Region durch Mittelwert und Streuung; Angabe, wie oft bestimmte Temperaturen überschritten werden (Quantil); Vergleich nach Regionen und/oder Zeiträumen mithilfe von Grafiken oder Tabellen.
- In einer Urne sind fünf rote und vier blaue Kugeln. Es werden drei Kugeln ohne Zurücklegen aus dieser Urne gezogen. Definiert man die Zufallsvariable X: Zahl der roten Kugeln unter den drei gezogenen, ist X hypergeometrisch verteilt mit M=5 als Zahl der roten Kugeln in der Urne, N=9 als Gesamtzahl der Kugeln in der Urne und n=3 als Zahl der Versuche. Hier können alle Informationen über die Verteilung von X gewonnen werden.
Siehe auch
- Data-Mining
- Häufigkeitsverteilung
- Kontingenztafel
- Lorenz-Kurve
- Signifikante Stellen in der Messtechnik
- Versuchsplanung
Literatur
- Georg Bol: Deskriptive Statistik. Lehr- und Arbeitsbuch. 6. überarbeitete Auflage. Oldenbourg, München u. a. 2004, ISBN 3-486-57612-7.
- M. Burkschat, E. Cramer, U. Kamps: Beschreibende Statistik. Grundlegende Methoden. Springer, Berlin u. a. 2004, ISBN 3-540-03239-8 (EMILeA-stat).
- Ansgar Steland: Basiswissen Statistik. Kompaktkurs für Anwender aus Wirtschaft, Informatik und Technik. Springer, Berlin u. a. 2007, ISBN 978-3-540-74204-3 (Springer-Lehrbuch).
Weblinks
- Rößler, Irene / Ungerer, Albrecht: Formelsammlung zur deskriptiven Statistik
Einzelnachweise
- ↑ Jürgen Bortz: Statistik für Human- und Sozialwissenschaftler. 6. Auflage, Springer, Heidelberg 2005, ISBN 354021271X, S. 1.
Wikimedia Foundation.