- Datenwürfel
-
Ein OLAP-Cube oder Data Cube oder Cube-Operator oder OLAP-Würfel ist ein in der Data-Warehouse-Theorie gebräuchlicher Begriff zur logischen Darstellung von Daten. Die Daten werden dabei als Elemente eines mehrdimensionalen Würfels (engl. cube) angeordnet. Die Dimensionen des Cubes beschreiben die Daten und erlauben auf einfache Weise den Zugriff. Daten können über eine oder mehrere Achsen des Würfels ausgewählt werden. Die Bezeichnung OLAP stammt aus der Datenanalyse, und bedeutet Online Analytical Processing.
Diese Art der Darstellung ist für die Analyse von Daten von Vorteil, da auf verschiedene Aspekte (Dimensionen) der Daten auf gleiche Weise zugegriffen wird. Daher auch der Einsatz bei OLAP Anwendungen, die die Daten in einem Data-Warehouse analysieren oder visuell aufbereiten.
Grundoperationen
- Slicing: Ausschneiden von Scheiben aus dem Datenwürfel
- Dicing: Slicing auf einem Intervall. Hierbei wird ein kleinerer Würfel erzeugt, der einen Teilbereich des Gesamtwürfels enthält.
- Pivoting / Rotation: Drehen des Datenwürfels, so dass mindestens eine andere Dimension sichtbar wird
- Drill-Down: Aufbrechen eines Informationsobjekts nach bestimmten Dimensionen; "Hereinzoomen"
- Roll-Up: Gegenoperation zu Drill-Down; Verdichten auf höhere Hierarchiestufe (z.B. von Monats- auf Jahressicht)
- Drill-Across: Dimension auf der gleichen Hierarchiestufe; Betrachtung der benachbarten Dimensionselemente (andere Region, anderes Produkt, anderer Monat)
- Drill-Through / Drill-In: Verfeinerung bis auf höchsten Detaillierungsgrad (z.B. Stammdatensatz, Transaktionsbeleg)
Beispiel
Cubes kommen häufig bei der Analyse von Unternehmensdaten zum Einsatz, wie z. B. Umsatz, Lagerbestände, Verkäufe. Die Dimensionen, die hier wichtig sein können, sind Zeit, Filiale, Verkäufer, Produkt. Vereinfacht gesagt stellt jede Dimension eine bestimmte Perspektive auf die Fakten dar, wie Umsatz, Gewinn usw..
Der Cube stellt also die Daten (auch Fakten genannt) Umsatz, Lagerbestand, Verkäufe abhängig von den Dimensionen Zeitraum, Filiale, Verkäufer, Kunde und Produkt dar.
Es lassen sich somit sehr leicht die folgenden Fragen beantworten:
- Wieviel Kaffee wurde vergangene Woche in der Filiale Marburg verkauft?
- Wieviel Kaffee befindet sich dort im Lager?
- Welcher Verkäufer hat den meisten Kaffee verkauft?
- Welche Filiale hat vergangenes Jahr den meisten Umsatz gemacht?
Beispiel: ein Würfel mit drei Dimensionen
Technische Umsetzung
Die Daten werden multidimensional (MOLAP), relational (ROLAP) oder in Hybrid-Konfiguration (HOLAP) gespeichert. Einige Systeme laden die Daten bei der Initialisierung komplett in den Hauptspeicher, um schnelle Zugriffe zu ermöglichen. In der Regel ist ein großer Teil (99,99...%) möglicher Intersektionen im Würfel nicht mit Zahlen belegt (Sparsity). Das Handling dieser Teile des Würfels bedingt die Größe des Datenmodells und wird von den Systemen unterschiedlich gehandhabt.
Für relationale Systeme ist der Einsatz eines Sternschemas typisch. Dabei wird eine Trennung in eine Faktentabelle und mehrere darum gruppierte Dimensionstabellen vorgenommen.
Wikimedia Foundation.