- Parallele Koordinaten
-
Parallele Koordinaten (auch ||-Koordinaten; englisch parallel coordinate plot, PCP) sind eine Methode zur Visualisierung von hochdimensionalen Strukturen und multivariater Daten. In der rechten Grafik zeigen die senkrechten Linien die Achsen des Koordinatensystems. Anders als im Streudiagramm, in dem zwei Koordinatenachsen rechtwinklig zueinander angeordnet sind, verlaufen sie hier parallel und in gleichem Abstand. Jede Linie von links nach rechts entspricht dabei einem Datenpunkt und wird durch einen Polygonzug mit Ecken auf den parallelen Achsen dargestellt. Die Position der Ecke auf der i-ten Achse entspricht der i-ten Koordinate des Punktes.
Inhaltsverzeichnis
Geschichte
Parallele Koordinaten wurden erstmals 1885 von Maurice d'Ocagne beschrieben[1] und 1959 unabhängig von Alfred Inselberg wiederentdeckt.[2] Ab 1977 wurden sie systematisch von ihm weiter entwickelt und popularisiert. Am häufigsten angewendet werden sie bei Algorithmen zur Vermeidung von Zusammenstößen im Flugverkehr (1987), beim Data-Mining, bei Bildanalyseverfahren, in der Optimierung, der Prozesskontrolle, sowie der Einbruchserkennung bei Computern. Ausschlaggebend für die erfolgreiche Anwendung paralleler Koordinaten war Wegmans Artikel Hyperdimensional Data Analysis Using Parallel Coordinates aus dem Jahr 1990.[3]
Generalisierte parallele Koordinaten wurden 2002 und 2006 von Moustafa und Wegman vorgeschlagen.[4][5] Hierbei wird das kartesische Koordinatensystem mittels Basisfunktionen in einen Parameterraum, und dieser dann auf parallele Koordinaten abgebildet. Dadurch lässt sich eine Verbindung zwischen generalisierten parallelen Koordinaten, der Grand Tour und den Andrews-Kurven herstellen.
Vor- und Nachteile
Die parallelen Koordinaten haben Vor- und Nachteile:
- Eine Erhöhung der Dimension bedeutet lediglich das Hinzufügen von weiteren (senkrechten) Achsen.
- Da parallele Koordinaten einen höherdimensionalen Raum auf einen zweidimensionalen Raum abbilden, tritt ein Informationsverlust ein. Dieser kann mit Hilfe der Parseval-Identität gemessen werden.
- Mit Übung sind bestimmte zweidimensionale und auch höherdimensionale Strukturen in parallelen Koordinaten leicht zu erkennen. Die Grafik unten zeigt verschiedene zweidimensionale Strukturen (perfekt positiv und negativ korrelierte Datenpunkte, Cluster, Kreis und normalverteilte Daten) einmal im Streudiagramm (oben) und in parallelen Koordinaten. Es sind Muster in parallelen Koordinaten bekannt für (Hyper-)Ebenen, Kurven, mehrere glatte (Hyper-)Flächen, Ähnlichkeiten, Konvexität und auch nicht orientierbare Flächen.[6] Die Punkt-Linie-Dualität ist ein Hinweis darauf, dass die mathematischen Grundlagen aus der projektiven Geometrie stammen.
Zur Visualisierung von hochdimensionalen Daten in der Statistik müssen drei wichtige Aspekte beachtet werden:
- die Anordnung der Achsen
- Die Anordnung der Achsen ist entscheidend für die Suche nach Strukturen in den Daten. In einer typischen Datenanalyse werden meist viele Anordnungen ausprobiert. Es wurden Anordnungsheuristiken entwickelt, die Einblicke in interessante Strukturen erlauben.[7]
- die Rotation der Achsen (Daten)
- Da die i-te Koordinate durch die Ecke auf der i-ten Achse bestimmt wird, kann eine Rotation der Achsen (= Rotation der Daten) ein anderes Bild ergeben. Die beiden linken Grafiken können als Rotation der Achsen (oder Daten) um 90 Grad aufgefasst werden. Trotz gleicher Struktur ergeben sich unterschiedliche Strukturen in den parallelen Koordinaten.
- die Skalierung der Achsen
- Die parallelen Koordinaten sind im Wesentlichen eine Aneinanderreihung von Linien zwischen Paaren von Koordinatenachsen.[5] Daher sollten die Variablen auf einen ähnlichen Maßstab skaliert sein. Verschiedene Skalierungen können ebenfalls interessante Einsichten in die Daten geben.
Literatur
- Alfred Inselberg: Parallel Coordinates: Visual Multidimensional Geometry and Its Applications. 1. Auflage. Springer, New York 8. Oktober 2009, ISBN 978-0387215075.
- Martin Graham, Jessie Kennedy: Using Curves to Enhance Parallel Coordinate Visualisations. Napier University, Edinburgh, UK (http://www.dcs.napier.ac.uk/~marting/parCoord/GrahamKennedyParallelCurvesIV03.pdf, abgerufen am 29. Sep 2011).
- Rida E. Moustafa, Edward J. Wegman: On Some Generalization of Parallel Coordinate Plots. George Mason University 2002 (Technical report).
Weblinks
- Alfred Inselberg's Homepage mit einem Tutorial, ausgewählten Publikationen und Anwendungen
- Paralleler Koordinatenplot in GGobi
- Paralleler Koordinatenplot in R
- picviz — the graphviz of parallel coordinates (lizenziert unter der GNU GPL v3, implementiert in C)
- XDAT – eine freie JAVA-basierte Software für parallele Koordinaten
Einzelnachweise
- ↑ d'Ocagne, Maurice: Coordonnées Parallèles et Axiales: Méthode de transformation géométrique et procédé nouveau de calcul graphique déduits de la considération des coordonnées parallèlles. Paris: Gauthier-Villars 1885
- ↑ Alfred Inselberg: The Plane with Parallel Coordinates. In: Visual Computer. 1, Nr. 4, 1985, S. 69–91. doi:10.1007/BF01898350.
- ↑ Edward J. Wegman: Hyperdimensional Data Analysis Using Parallel Coordinates. In: Journal of the American Statistical Association. 85, Nr. 411, September 1990, S. 664-675.
- ↑ R. Moustafa, E. Wegman: On Some Generalization to Parallel Coordinate Plot. In: Seeing a million, A Data Visualization Workshop, Rain am Lech (nr.), Germany. 2002.
- ↑ a b R. Moustafa, E. Wegman: Multivariate continuous data—Parallel Coordinates. In: In: Unwin, A., Theus M., Hofmann, H. (Eds.), Graphics of Large Datasets: Visualizing a Million, Springer. 2006, S. 143–156.
- ↑ A. Inselberg: Parallel Coordinates: Visual Multidimensional Geometry and its Applications. Springer 2009
- ↑ Interactive Hierarchical Dimension Ordering Spacing and Filtering for Exploration of High Dimensional Datasets (Seiten 3-4)
Kategorien:- Diagramm (Statistik)
- Multivariate Statistik
Wikimedia Foundation.