Mosaikplot

Mosaikplot: Der Mosaikplot ist ein graphisches Verfahren zur Visualisierung von Datensätzen mit zwei oder mehreren qualitativen Variablen (Merkmalen). Er gibt einen Überblick über die Daten und ermöglicht es, Zusammenhänge zwischen den verschiedenen Merkmalen zu erkennen.

Inhaltsverzeichnis

1 Beispiel

1.1 Konstruktion des Mosaikplot

1.2 Unabhängigkeit im Mosaikplot

2 Eigenschaften des Mosaikplots

3 Klärung der verwendeten Begriffe

Beispiel

Mosaikplot der Titanic-Daten

Der für dieses Beispiel verwendete Datensatz hat 2201 Beobachtungen und 3 Variablen. Die Beobachtungen sind alle Personen, die sich am 15. April 1912 auf der Titanic befunden haben. Die Variablen sind:

Das Geschlecht der Person (männlich/weiblich)

Die Klasse (1., 2. und 3. Klasse und Besatzung)

Hat diese Person den Untergang überlebt (Ja/Nein)?

In, zur Grafik analoger Form, ergibt sich folgende Tabelle:

Geschlecht Überlebt 1. Klasse 2. Klasse 3. Klasse Besatzung

Männlich Nein 118 154 422 670

Ja 62 25 88 192

Weiblich Nein 4 13 106 3

Ja 141 93 90 20

Diese Tabelle ist aber eher mühsam zu lesen und schwierig zu interpretieren.

Konstruktion des Mosaikplot

Reihenfolge Variable Achse

1. Geschlecht Vertikal

2. Klasse Horizontal

3. Überlebt Vertikal

Die kategorielle Variablen werden zunächst in eine Reihenfolge gebracht. Danach wird jede Variable einer Achse zugeordnet. In der Tabelle rechts ist Reihenfolge und Zuordnung für das Beispiel gegeben. Eine andere Reihenfolge oder Zuordnung wird auch einen anderen Mosaikplot ergeben, d.h. wie in allen multivariaten Plots spielt die Reihenfolge der Variablen eine Rolle.

Am linken Rand ist die erste Variable (Geschlecht) aufgetragen. Die gesamten Daten werden zunächst in zwei Blöcke geteilt: Der unter Streifen beinhaltet alle weiblichen Personen, der obere, größere Block alle männlichen. Man sieht sofort das viel weniger (ca. ein Viertel) der Personen am Schiff weiblich waren.

Am oberen Rand ist die zweite Variable (Klasse) aufgetragen. Die vier senkrechten Spalten stehen also für die vier Ausprägungen dieser Variable (1., 2., 3. Klasse und Besatzung). Diese Spalten sind nicht gleich breit. Die Breite einer Spalte gibt die relative Häufigkeit dieser Ausprägung wieder. Man sieht, dass bei den Männern die Besatzung die größte Gruppe darstellt, bei den Frauen waren die in der 3. Klasse Reisenden die größte Gruppe. Bei den Frauen waren nur wenige Besatzungsmitglieder.

Die dritte Variable (Überlebt) ist auf der rechten Seite dargestellt und außerdem durch die Farbgebung hervorgehoben: Die dunkelgrauen Rechtecke stellen die Personen dar, die das Unglück nicht überlebt haben. Man sieht sofort, dass die Frauen in der 1. Klasse die besten Überlebenschancen hatten. Generell war die Wahrscheinlichkeit das Unglück zu überlegen für Frauen höher als für Männer und für Reisende der 1. Klasse höher als für die übrigen Reisenden. Insgesamt haben ca. 1/3 aller Personen überlebt (hellgraue Flächen).

Unabhängigkeit im Mosaikplot

Marginale Häufigkeiten
Klasse Absolut Relativ

1. 325 14,8%

2. 285 12,9%

3. 706 32,1%

Besatzung 885 40,2%

Geschlecht Absolut Relativ

Männlich 1731 78,6%

Weiblich 470 21,4%

Überlebt Absolut Relativ

Nein 1490 67,7%

Ja 711 32,3%

Häufigkeiten bei vollständiger Unabhängigkeit
Geschlecht Überlebt 1. Klasse 2. Klasse 3. Klasse Besatzung

Männlich Nein 173,0 151,7 375,9 471,2

Ja 82,6 72,4 179,4 224,8

Weiblich Nein 47,0 41,2 102,1 127,9

Ja 22,4 19,7 48,7 61,0

Mosaikplots können insbesondere über die Unabhängigkeit der dargestellten Variablen Auskunft geben. Eine mögliche Frage wäre: Hängt die Überlebenschance davon ab welches Geschlecht man hat, ob man in einer bestimmten Klasse reist oder einer Kombination von beiden? In diesem Fall wären die drei Variablen nicht unabhängig.

Sind die drei Variablen Geschlecht, Klasse und Überlebt unabhängig voneinander, dann ergibt sich die Häufigkeit in jeder Zelle der obigen Tabelle als Produkt der marginalen relativen Häufigkeiten multipliziert mit der Anzahl der Beobachtungen. Für das Beispiel ergibt sich für den linken oberen Tabelleneintrag

$2201\cdot\underbrace{0,786}_{\mbox{Männlich}}\cdot\underbrace{0,148}_{\mbox{1. Klasse}}\cdot\underbrace{0,677}_{\mbox{Nicht überlebt}}\approx 173$

In der folgenden Grafik sieht man links den Mosaikplot der Titanic Daten (titanic) und rechts den Mosaikplot wenn die drei Variablen unabhängig wären (independent). Der rechte Mosaikplot ist also eine Visualisierung der Tabelle Häufigkeiten bei vollständiger Unabhängigkeit. Wären also die drei Variablen unabhängig, dann müssten in jeder Zeile des Mosaikplots alle Rechtecke die gleiche Breite bzw. in jeder Spalte des Mosaikplots alle Rechtecke die gleiche Höhe haben.

Dies ist im titanic Mosaikplot offensichtlich nicht der Fall und die drei Variablen sind abhängig voneinander. D.h. die Überlebenschance hängt vom Geschlecht, der Klasse oder einer Kombination von beiden ab. Auch die Unabhängigkeit von jeweils zwei Variablen kann man so graphisch nachprüfen; unter Umständen ist eine Umordnung der Variablen zur leichteren Visualisierung nötig.

Eigenschaften des Mosaikplots

Mosaikplot der Verteilung von Zeitperioden und Themen der Guardian's Liste "1000 songs to hear before you die".

Die darzustellenden Variablen sind kategoriell oder ordinal skaliert.

Es werden mindestens zwei Variablen dargestellt. Nach oben ist die Anzahl prinzipiell nicht limitiert, bei zu vielen Variablen wird die Grafik aber schnell unübersichtlich.

Die Anzahl der Beobachtungen ist nicht limitiert aber auch nicht in der Grafik ablesbar.

Die Flächen der rechteckigen Felder, die für eine Merkmalkombination stehen, sind proportional zur Anzahl der Beobachtungen, die diese Merkmalkombination aufweisen.

Anders als z.B. beim Boxplot oder QQ-Plot ist es beim Mosaikplot nicht möglich, ein Konfidenzintervall einzuzeichnen. Die Signifikanz von unterschiedlichen Häufigkeiten der verschiedenen Merkmalsausprägungen kann daher nicht optisch festgestellt werden. Allerdings gibt es dafür statistische Tests.

Die Reihenfolge der Variablen kann im Prinzip beliebig gewählt werden. Allerdings ist jeweils darauf zu achten, welche Reihenfolge die Interpretation begünstigt. Eventuell können auch alle Möglichkeiten durchprobiert werden.

Klärung der verwendeten Begriffe

Der Begriff Variable ist hier im Sinne der multivariaten Statistik zu verstehen, nicht im Sinne der Programmierung. Eine Variable ist also eines von mehreren Merkmalen die für jede Beobachtung erhoben wurde. Die verschiedenen Variablen eines (multivariaten) Datensatzes können unterschiedlichen Variablentypen angehören.

Mit Variablentyp ist die Einteilung in kategorielle, ordinale oder metrische (quantitative) Merkmale gemeint (letztere lassen sich noch weiter unterteilen was hier aber nicht nötig ist).

Kategorielle (nominelle) Variable sind Variablen, bei denen die verschiedenen möglichen Ausprägungen nicht sinnvoll durch Zahlen repräsentiert werden können. Sie lassen sich auch nicht in eine sinnvolle Reihenfolge bringen. Beispiele (aus dem Bereich der demographischen Variablen) wären: Geschlecht, Haarfarbe, Muttersprache...

Ordinale Daten sind Daten, bei denen sich die verschiedenen Ausprägungen in eine sinnvolle Reihenfolge bringen lassen. Beispiele wären: Schulnoten, die verschiedenen Komfort-Klassen bei Hotels oder Flugtickets.

Kategorie:
Diagramm (Statistik)

Geschlecht	Überlebt	1. Klasse	2. Klasse	3. Klasse	Besatzung
Männlich	Nein	118	154	422	670
Ja	62	25	88	192
Weiblich	Nein	4	13	106	3
Ja	141	93	90	20

Reihenfolge	Variable	Achse
1.	Geschlecht	Vertikal
2.	Klasse	Horizontal
3.	Überlebt	Vertikal

Marginale Häufigkeiten
Klasse	Absolut	Relativ
1.	325	14,8%
2.	285	12,9%
3.	706	32,1%
Besatzung	885	40,2%
Geschlecht	Absolut	Relativ
Männlich	1731	78,6%
Weiblich	470	21,4%
Überlebt	Absolut	Relativ
Nein	1490	67,7%
Ja	711	32,3%

Häufigkeiten bei vollständiger Unabhängigkeit
Geschlecht	Überlebt	1. Klasse	2. Klasse	3. Klasse	Besatzung
Männlich	Nein	173,0	151,7	375,9	471,2
Ja	82,6	72,4	179,4	224,8
Weiblich	Nein	47,0	41,2	102,1	127,9
Ja	22,4	19,7	48,7	61,0

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

3D-Diagramm — Ein Diagramm (vom griechischem diagramma = geometrische Figur, Umriss) ist eine grafische Darstellung von Daten, Sachverhalten oder Informationen. Je nach der Zielsetzung des Diagramms werden höchst unterschiedliche Typen eingesetzt. Die… … Deutsch Wikipedia
Explorative Statistik — Die explorative Datenanalyse (EDA) oder explorative Statistik ist ein Teilgebiet der Statistik. Sie untersucht und begutachtet Daten, von denen nur ein geringes Wissen über deren Zusammenhänge vorliegt. Viele EDA Techniken werden im Data Mining… … Deutsch Wikipedia
Kontingenztafel — Kontingenztafeln (auch: Kontingenztabellen oder Kreuztabellen) sind Tabellen, die die absoluten oder relativen Häufigkeiten (Häufigkeitstabellen) von Kombinationen bestimmter Merkmalsausprägungen enthalten. Kontingenz hat dabei die Bedeutung des… … Deutsch Wikipedia
Schaubild — Ein Diagramm (vom griechischem diagramma = geometrische Figur, Umriss) ist eine grafische Darstellung von Daten, Sachverhalten oder Informationen. Je nach der Zielsetzung des Diagramms werden höchst unterschiedliche Typen eingesetzt. Die… … Deutsch Wikipedia
X-y-Diagramm — Ein Diagramm (vom griechischem diagramma = geometrische Figur, Umriss) ist eine grafische Darstellung von Daten, Sachverhalten oder Informationen. Je nach der Zielsetzung des Diagramms werden höchst unterschiedliche Typen eingesetzt. Die… … Deutsch Wikipedia
X-y-Wertepaar — Ein Diagramm (vom griechischem diagramma = geometrische Figur, Umriss) ist eine grafische Darstellung von Daten, Sachverhalten oder Informationen. Je nach der Zielsetzung des Diagramms werden höchst unterschiedliche Typen eingesetzt. Die… … Deutsch Wikipedia
Xy-Diagramm — Ein Diagramm (vom griechischem diagramma = geometrische Figur, Umriss) ist eine grafische Darstellung von Daten, Sachverhalten oder Informationen. Je nach der Zielsetzung des Diagramms werden höchst unterschiedliche Typen eingesetzt. Die… … Deutsch Wikipedia
Diagramm — Ein Diagramm (vom griechischem diagramma = geometrische Figur, Umriss) ist eine grafische Darstellung von Daten, Sachverhalten oder Informationen. Je nach der Zielsetzung des Diagramms werden höchst unterschiedliche Typen eingesetzt. Die… … Deutsch Wikipedia
Explorative Datenanalyse — Die explorative Datenanalyse (EDA) oder explorative Statistik ist ein Teilgebiet der Statistik. Sie untersucht und begutachtet Daten, von denen nur ein geringes Wissen über deren Zusammenhänge vorliegt. Viele EDA Techniken werden im Data Mining… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Mosaikplot

Inhaltsverzeichnis

Beispiel

Konstruktion des Mosaikplot

Unabhängigkeit im Mosaikplot

Eigenschaften des Mosaikplots

Klärung der verwendeten Begriffe

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Mosaikplot

Inhaltsverzeichnis

Beispiel

Konstruktion des Mosaikplot

Unabhängigkeit im Mosaikplot

Eigenschaften des Mosaikplots

Klärung der verwendeten Begriffe

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link