- Datasets
-
Ein Dataset bezeichnet eine größere, zusammenhängende Datenmenge, nicht zu verwechseln mit einem Datensatz einer Datenbanktabelle. Im Detail hat der Begriff aber je nach Kontext unterschiedliche Bedeutungen:
Dataset, IBM-Großrechner
Hier ist Dataset eine andere Bezeichnung für eine Datei, die auf einem IBM-Großrechnersystem existiert. Ein Dataset-Name (DSN) kann maximal 44 Zeichen lang sein und besteht aus mehreren Qualifiern (Namensteilen), die durch Punkte voneinander getrennt werden. Jeder Qualifier kann maximal acht Stellen lang sein. Beispiel: MEIN.PRIVATES.TEST.DATASET.V1
In Anwendungsprogrammen wird in der Regel nicht direkt über den Dataset-Namen auf ein Dataset zugegriffen. Stattdessen erfolgt der Zugriff über einen logischen Namen (auch DD-Name genannt), der auf ein entsprechendes DD-Statement eines Jobs verweist.
Für Datasets existieren verschiedene Organisationsformen:
- Sequentielle Dateien: Bei dieser Dateiform werden die Daten sequentiell von Dateianfang bis zum Dateiende geschrieben bzw. gelesen.
- Direct Access Dataset: Die relative Adresse eines Datensatz wird mittels Hash aus dem Schlüssel berechnet.
- Partitioned Dataset (PDS und PDSE): Eine Dateiorganisation, bei der das Dataset ein Verzeichnis mit Membernamen enthält, wobei jedes Member wieder eine einzelne sequentielle Datei darstellt.
- VSAM-Organisationsformen: Die Betriebssystemkomponente VSAM stellt unterschiedliche Organisationsformen zur Verfügung, deren leistungsfähigste, KSDS (key-sequenced dataset), den schlüsselbasierten Zugriff auf die einzelnen Datensätze unterstützt. VSAM-organisierte Dateien werden auch VSAM-Cluster genannt; zu den einzelnen VSAM-Organisationsformen siehe den Artikel VSAM.
- ISAM Dataset (Indexed Sequential Access Method): Veraltete Organisationsform, die praktisch vollständig durch VSAM abgelöst worden ist. Ein ISAM Dataset besteht aus drei physischen Dateien (PRIME, INDEX und OVERFLOW).
- HFS Dataset: Ein Plattenbereich, der zur Aufnahme von Unix-Dateien vorgesehen ist (in Unix-Terminologie würde man sagen: ein Loopback-Dateisystem).
Der Begriff des Datasets wird nur für Dateien auf dem Großrechner verwendet, die unter der MVS-Personality angelegt wurden. Dateien, die unter den Unix System Services (d. h. innerhalb eines HFS-Datasets) angelegt wurden, werden in der Regel nicht als Datasets bezeichnet.
Die Metadaten (Dateiattribute) der Datasets stehen teils im VTOC (bei Plattenspeichern) oder Tape Label bei Magnetbändern, teils im Catalog.
Sequentielle Dateien können als Generation Data Groups (GDG) versioniert werden.
Dataset, .NET
In der .NET-Entwicklungsumgebung von Microsoft bezeichnet ein Dataset eine im Hauptspeicher verwaltete zusammengehörige Datenmenge in tabellarischer Struktur. Typischerweise werden die Daten mit einer SQL-Abfrage aus einer relationalen Datenbank ausgelesen oder von einem Web Service angefordert, dann lokal in einem PC, auf einem Web Server oder Application Server bearbeitet und ggf. in die Datenbank zurückgespeichert. In der Serviceorientierten Architektur (SOA) werden Datenänderungen im Dataset in einem Diffgram zusammengefasst und dieses an den datenliefernden Web Service zurückgegeben.
Ein Dataset enthält also in der Regel zunächst eine Kopie der Daten aus einer bestimmten Sicht auf die Datenbank, ähnlich einem Query oder einem View, dient aber auch der Zwischenspeicherung neuer oder geänderter Daten. Er ist der zentrale Datenpuffer in ASPX- oder Smart-Client-Anwendungen.
Wikimedia Foundation.