- Korrelationsdiagramm
-
Ein Streudiagramm (engl. Scatterplot) ist die graphische Darstellung von beobachteten Wertepaaren zweier statistischer Merkmale. Diese Wertepaare werden in ein kartesisches Koordinatensystem eingetragen, wodurch sich eine Punktwolke ergibt. Die Darstellung der Punkte kann durch verschiedene kleine Symbole erfolgen.
Anwendung
Man erhofft sich durch das Muster der Punkte im Streudiagramm Informationen über die Abhängigkeitsstruktur der beiden Merkmale, die durch die Koordinaten repräsentiert sind.
Nebenstehendes Beispieldiagramm enthält Punkte, die die beiden Merkmale "Länge" und "Breite" von verschiedenen Artillerieschiffen darstellen. Die Schiffe sind in vier Klassen eingeteilt, denen unterschiedliche Farben zugewiesen sind (Zerstörer, leichter Kreuzer, schwerer Kreuzer, Schlachtschiff). Man erkennt durch ein solches Streudiagramm auf einen Blick verschiedene Korrelationen in den erfassten Daten.
Häufig auftretende Korrelationen sind Cluster (Ballungen) und lineare Strukturen. Cluster können mit der Clusteranalyse untersucht werden. Zur Quantifizierung von linearen Korrelationen bietet sich vor allem die Regressionsanalyse an.
Falls ein drittes (metrisches) Merkmal auch noch mit dargestellt werden soll, kann das durch die Größe der Punkte (bzw. Kreise) geschehen. Den dabei entstehenden Diagrammtyp nennt man Blasendiagramm.
Streudiagramme bei ordinalskalierten Merkmalen
Es sind im allgemeinen nur stetig verteilte Daten für Streudiagramme geeignet. Beobachtungen diskret verteilter Merkmale überlagern sich, wenn gleiche Werte mehrfach vorliegen. Es gibt jedoch auch Möglichkeiten, ordinalskalierte Merkmale in Streudiagramme darzustellen:
- Durch "Sonnenblumen": Es wird an jedem Koordinatenpaar ein Kreis eingetragen. Die Zahl der Wertepaare, die auf diesem Punkt liegen, wird durch Striche an den Kreis dargestellt, so dass sich eine stilisierte Sonnenblume ergibt.
- Durch einen "Jittered Scatterplot" ("Verwackeltes Streudiagramm"): Es werden auf die Daten kleine Zufallszahlen addiert, so dass die Werte leicht auseinander gezogen werden und eine Punktwolke ergeben. Man muss sich allerdings im Klaren sein, dass die Werte eigentlich übereinanderliegen. Man könnte sie als "pseudometrisch" bezeichnen.
Das folgende Beispiel zeigt beide Möglichkeiten anhand der Evaluation einer Statistik-Vorlesung, bei der die Merkmale "Stoff ist verständlich" und "Gesamtnote Statistik" (Noten von 1 bis 4) in ein Streudiagramm eingetragen wurden.
Beispiel: Sonnenblumen-Streudiagramm
Beispiel: Jittered scatter plot
Siehe auch
Wikimedia Foundation.