- Mosaikplot
-
Der Mosaikplot ist ein graphisches Verfahren zur Visualisierung von Datensätzen mit zwei oder mehreren qualitativen Variablen (Merkmalen). Er gibt einen Überblick über die Daten und ermöglicht es, Zusammenhänge zwischen den verschiedenen Merkmalen zu erkennen.
Inhaltsverzeichnis
Beispiel
Der für dieses Beispiel verwendete Datensatz hat 2201 Beobachtungen und 3 Variablen. Die Beobachtungen sind alle Personen, die sich am 15. April 1912 auf der Titanic befunden haben. Die Variablen sind:
- Das Geschlecht der Person (männlich/weiblich)
- Die Klasse (1., 2. und 3. Klasse und Besatzung)
- Hat diese Person den Untergang überlebt (Ja/Nein)?
In, zur Grafik analoger Form, ergibt sich folgende Tabelle:
Geschlecht Überlebt 1. Klasse 2. Klasse 3. Klasse Besatzung Männlich Nein 118 154 422 670 Ja 62 25 88 192 Weiblich Nein 4 13 106 3 Ja 141 93 90 20 Diese Tabelle ist aber eher mühsam zu lesen und schwierig zu interpretieren.
Konstruktion des Mosaikplot
Reihenfolge Variable Achse 1. Geschlecht Vertikal 2. Klasse Horizontal 3. Überlebt Vertikal Die kategorielle Variablen werden zunächst in eine Reihenfolge gebracht. Danach wird jede Variable einer Achse zugeordnet. In der Tabelle rechts ist Reihenfolge und Zuordnung für das Beispiel gegeben. Eine andere Reihenfolge oder Zuordnung wird auch einen anderen Mosaikplot ergeben, d.h. wie in allen multivariaten Plots spielt die Reihenfolge der Variablen eine Rolle.
Am linken Rand ist die erste Variable (Geschlecht) aufgetragen. Die gesamten Daten werden zunächst in zwei Blöcke geteilt: Der unter Streifen beinhaltet alle weiblichen Personen, der obere, größere Block alle männlichen. Man sieht sofort das viel weniger (ca. ein Viertel) der Personen am Schiff weiblich waren.
Am oberen Rand ist die zweite Variable (Klasse) aufgetragen. Die vier senkrechten Spalten stehen also für die vier Ausprägungen dieser Variable (1., 2., 3. Klasse und Besatzung). Diese Spalten sind nicht gleich breit. Die Breite einer Spalte gibt die relative Häufigkeit dieser Ausprägung wieder. Man sieht, dass bei den Männern die Besatzung die größte Gruppe darstellt, bei den Frauen waren die in der 3. Klasse Reisenden die größte Gruppe. Bei den Frauen waren nur wenige Besatzungsmitglieder.
Die dritte Variable (Überlebt) ist auf der rechten Seite dargestellt und außerdem durch die Farbgebung hervorgehoben: Die dunkelgrauen Rechtecke stellen die Personen dar, die das Unglück nicht überlebt haben. Man sieht sofort, dass die Frauen in der 1. Klasse die besten Überlebenschancen hatten. Generell war die Wahrscheinlichkeit das Unglück zu überlegen für Frauen höher als für Männer und für Reisende der 1. Klasse höher als für die übrigen Reisenden. Insgesamt haben ca. 1/3 aller Personen überlebt (hellgraue Flächen).
Unabhängigkeit im Mosaikplot
Marginale Häufigkeiten Klasse Absolut Relativ 1. 325 14,8% 2. 285 12,9% 3. 706 32,1% Besatzung 885 40,2% Geschlecht Absolut Relativ Männlich 1731 78,6% Weiblich 470 21,4% Überlebt Absolut Relativ Nein 1490 67,7% Ja 711 32,3% Häufigkeiten bei vollständiger Unabhängigkeit Geschlecht Überlebt 1. Klasse 2. Klasse 3. Klasse Besatzung Männlich Nein 173,0 151,7 375,9 471,2 Ja 82,6 72,4 179,4 224,8 Weiblich Nein 47,0 41,2 102,1 127,9 Ja 22,4 19,7 48,7 61,0 Mosaikplots können insbesondere über die Unabhängigkeit der dargestellten Variablen Auskunft geben. Eine mögliche Frage wäre: Hängt die Überlebenschance davon ab welches Geschlecht man hat, ob man in einer bestimmten Klasse reist oder einer Kombination von beiden? In diesem Fall wären die drei Variablen nicht unabhängig.
Sind die drei Variablen Geschlecht, Klasse und Überlebt unabhängig voneinander, dann ergibt sich die Häufigkeit in jeder Zelle der obigen Tabelle als Produkt der marginalen relativen Häufigkeiten multipliziert mit der Anzahl der Beobachtungen. Für das Beispiel ergibt sich für den linken oberen Tabelleneintrag
In der folgenden Grafik sieht man links den Mosaikplot der Titanic Daten (titanic) und rechts den Mosaikplot wenn die drei Variablen unabhängig wären (independent). Der rechte Mosaikplot ist also eine Visualisierung der Tabelle Häufigkeiten bei vollständiger Unabhängigkeit. Wären also die drei Variablen unabhängig, dann müssten in jeder Zeile des Mosaikplots alle Rechtecke die gleiche Breite bzw. in jeder Spalte des Mosaikplots alle Rechtecke die gleiche Höhe haben.
Dies ist im titanic Mosaikplot offensichtlich nicht der Fall und die drei Variablen sind abhängig voneinander. D.h. die Überlebenschance hängt vom Geschlecht, der Klasse oder einer Kombination von beiden ab. Auch die Unabhängigkeit von jeweils zwei Variablen kann man so graphisch nachprüfen; unter Umständen ist eine Umordnung der Variablen zur leichteren Visualisierung nötig.
Eigenschaften des Mosaikplots
- Die darzustellenden Variablen sind kategoriell oder ordinal skaliert.
- Es werden mindestens zwei Variablen dargestellt. Nach oben ist die Anzahl prinzipiell nicht limitiert, bei zu vielen Variablen wird die Grafik aber schnell unübersichtlich.
- Die Anzahl der Beobachtungen ist nicht limitiert aber auch nicht in der Grafik ablesbar.
- Die Flächen der rechteckigen Felder, die für eine Merkmalkombination stehen, sind proportional zur Anzahl der Beobachtungen, die diese Merkmalkombination aufweisen.
- Anders als z.B. beim Boxplot oder QQ-Plot ist es beim Mosaikplot nicht möglich, ein Konfidenzintervall einzuzeichnen. Die Signifikanz von unterschiedlichen Häufigkeiten der verschiedenen Merkmalsausprägungen kann daher nicht optisch festgestellt werden. Allerdings gibt es dafür statistische Tests.
- Die Reihenfolge der Variablen kann im Prinzip beliebig gewählt werden. Allerdings ist jeweils darauf zu achten, welche Reihenfolge die Interpretation begünstigt. Eventuell können auch alle Möglichkeiten durchprobiert werden.
Klärung der verwendeten Begriffe
- Der Begriff Variable ist hier im Sinne der multivariaten Statistik zu verstehen, nicht im Sinne der Programmierung. Eine Variable ist also eines von mehreren Merkmalen die für jede Beobachtung erhoben wurde. Die verschiedenen Variablen eines (multivariaten) Datensatzes können unterschiedlichen Variablentypen angehören.
- Mit Variablentyp ist die Einteilung in kategorielle, ordinale oder metrische (quantitative) Merkmale gemeint (letztere lassen sich noch weiter unterteilen was hier aber nicht nötig ist).
- Kategorielle (nominelle) Variable sind Variablen, bei denen die verschiedenen möglichen Ausprägungen nicht sinnvoll durch Zahlen repräsentiert werden können. Sie lassen sich auch nicht in eine sinnvolle Reihenfolge bringen. Beispiele (aus dem Bereich der demographischen Variablen) wären: Geschlecht, Haarfarbe, Muttersprache...
- Ordinale Daten sind Daten, bei denen sich die verschiedenen Ausprägungen in eine sinnvolle Reihenfolge bringen lassen. Beispiele wären: Schulnoten, die verschiedenen Komfort-Klassen bei Hotels oder Flugtickets.
Kategorie:- Diagramm (Statistik)
Wikimedia Foundation.