- Datenintegration
-
Unter Informationsintegration versteht man das Zusammenführen von Informationen aus verschiedenen Datenbeständen (Datenquellen) mit in der Regel unterschiedlichen Datenstrukturen in eine gemeinsame einheitliche Datenstruktur. Dabei sollen vor allem heterogene Quellen möglichst vollständig und effizient zu einer strukturierten Einheit zusammengeführt werden, die sich effektiver nutzen lässt, als dies bei direktem Zugriff auf die einzelnen Quellen möglich wäre. Informationsintegration ist vor allem dort notwendig, wo mehrere gewachsene Systeme miteinander verbunden werden sollen, also beispielsweise bei der Zusammenführung von Unternehmen, Arbeitsabläufen und Anwendungen oder bei der Informationssuche im Internet. Die Integration komplexerer Systeme ist erst in den 1990er Jahren in den Blickpunkt der informatischen Forschung gerückt und somit in der Entwicklung begriffen.
Inhaltsverzeichnis
Methoden der Informationsintegration
Die Integration heterogener Informationen aus unterschiedlichen Quellen betrifft sowohl die Integration konkreter Daten als auch der Strukturen (Schemata), in denen sie vorliegen. Zunächst müssen in der Regel die lokalen Schemata integriert werden (Schemaintegration), wozu auch (teil)automatische Verfahren herangezogen werden können (Schema Matching). Zur anschließenden Integration der Daten sind Verfahren der Datenfusion und Duplikaterkennung notwendig.
Möglichkeiten und Ziele
Bei Redundanz zwischen den Daten verschiedener Quellen (extensionale Redundanz) lassen sich Zusammengehörigkeiten teilweise automatisch bestimmen und für die Komplettierung von Datensätzen (Datenfusion) nutzen. So können beispielsweise die Einträge einer Telefonliste und eines Mitarbeiterverzeichnisses bei Übereinstimmung von Personennamen kombiniert werden. Da somit mehr Informationen über einzelne Objekte zur Verfügung stehen, spricht man auch von Verdichtung.
Ziel der Integration ist, eine konsistente globale Sicht auf alle Datenquellen zu ermöglichen. Redundante Datenquellen lassen sich dabei zur Verifikation nutzen. Die Zusammenführung von intensional redundanten Quellen führt zu einer höheren Abdeckung (Coverage) und die Komplettierung von Datensätzen bei extensionaler Redundanz von Quellen zu einer höheren Dichte (Density).
Materialisierte vs. Virtuelle Integration
Grundsätzlich lassen sich zwei Arten der Integration unterscheiden:
- Materialisierte oder physische Integration: Die Daten aus den unterschiedlichen Datenquellen mit in der Regel verschiedenen Datenstrukturen werden zunächst auf die Zielstruktur transformiert und in eine zentrale Datenbasis kopiert, wo sie dann für Auswertungen zur Verfügung stehen. Dieses Prinzip findet sich beispielsweise in Datenlager (data warehouse) oder auch im Projekt zum Datenaustausch der Open Archives Initiative.
- Virtuelle oder logische Integration: Die Daten verbleiben in den unterschiedlichen Quellen und die Integration findet erst bei einer Anfrage statt (Föderiertes Informationssystem).
Im Vergleich ergeben sich folgende Vor- und Nachteile
- Aktualität: Während bei materialisierter Integration die Daten nur in regelmäßigen Abständen von den Quellen aktualisiert werden, ist ein virtuell integriertes System stets so aktuell wie seine Quellen.
- Antwortzeit: Da in einem materialisierten System alle Daten zentral gehalten werden, können sie auf schnelle Antwortzeiten optimiert abgelegt werden. Bei virtueller Integration hängt die Antwortzeit stark von der Verfügbarkeit des Datenverwaltungssystems und der Zugriffsgeschwindigkeit auf die Quelldaten, der Übertragungswege sowie den zusätzlich stattfindenden Aufgaben wie Datentransformation (Mapping) und Datenbereinigung ab.
- Flexibilität: Als große Datenspeicher sind materialisierte Systeme zumeist schwieriger zu warten als virtuell integrierte Systeme, bei denen die Wartung der Daten Aufgabe der Quellen ist. Außerdem kann das Hinzufügen einer Quelle die gesamte Integration beeinflussen (Global-as-View), während bei virtueller Integration das Hinzufügen, Entfernen oder Ändern einer Quelle nur auf ihr Mapping auf ein globales Schema Auswirkungen hat (Local-as-View).
Integrationsarchitekturen
Materialisierte Integrationsarchitekturen
Bei materialisierten Systemen werden Daten aus den Quellen importiert, bereinigt und zentral abgelegt. Die in den Quellsystemen vorhandenen Daten werden dabei in der Regel nicht verändert.
- Data Warehouses (DWH): Sind die wichtigsten Vertreter materialisierter Datenbanksysteme. Die für den Informationsbedarf eines Unternehmens erforderlichen Daten werden direkt in einem zentralen Datenlager persistent gespeichert, um eine globale, einheitliche Sicht auf die relevanten Daten zu ermöglichen. Um die Quelldaten in die DWH-Basisdatenbank zu integrieren, muss zu diesem Zweck eine Integrationsschicht implementiert werden (ETL-Prozess).
- Operational Datastores (ODS): Während Data Warehouse Systeme primär den Erfordernissen eines Unternehmensmanagement angepasst ist und somit die zur Verfügung stehenden Informationen den strategischen Entscheidungsprozessen dienen, stehen bei „Operationalen Data Stores“ die integrierten Daten operativen Geschäftsprozessen zur Verfügung. Dies impliziert bereits, dass die in einem zentralen Datenlager gespeicherten Daten „operativ“ eingesetzt werden sollen d.h. nach der abgeschlossenen Integration (Import, Bereinigung, Speicherung) unterliegen diese Daten Veränderungen. Daher stehen im Mittelpunkt der Betrachtung bei ODS Systemen auch nicht historische, sondern primär aktuelle Daten. Insofern ergibt sich ein weiteres wesentliches Unterscheidungsmerkmal zu DWH, da die Synchronisation zu den Quelldaten entweder bei Anfragen oder zumindest in häufigen, regelmäßigen Abständen zu erfolgen hat. ODS werden von Unternehmen zumeist in jenen Geschäftsbereichen eingesetzt, in denen Aktualität der Daten eine wesentliche Rolle spielen, wie z.B. Kunden- und Lieferantenkommunikationsbereichen und Lagerverwaltungsprozessen.
Virtuelle Integrationsarchitekturen
Im Gegensatz zu materialisierten Systemen werden Daten in virtuellen Datenbanksystemen nicht im integrierten System selbst gespeichert, sondern verbleiben physisch in den Datenquellen und werden nur bei Anfragen in das Integrationssystem geladen (virtueller Datenspeicher).
- Föderierte Datenbanksysteme (FDBS): Im Mittelpunkt eines Föderierten Datenbanksystems steht ein „globales konzeptionelles“ = kanonisches Schema. Dieses Schema stellt einerseits die Schnittstelle zu den lokalen, verteilten Datenbanken und ihren lokalen Schemata dar und bietet andererseits anfragenden Anwendungen mittels geeigneter Dienste eine integrierte globale Sicht auf die föderierten Quelldaten. FDBS entstehen zumeist durch die Vereinigung mehrerer Datenbanksysteme (Multidatenbanksysteme) mit dem Ziel einer „zentralen“ (föderierten) Koordination gemeinsamer Aufgaben.
- Mediatorbasierte Integrationssysteme & Wrapper (MBS): Mediatoren dienen als „Vermittler“ zwischen Datenquellen und Anwendungen. Der Mediator nimmt hierbei Anfragen der Anwendung entgegen und beantwortet diese, indem er mit den maßgeblichen Datenquellen kommuniziert. Dies impliziert bereits ein großes Wissen über den Aufbau aller föderierten Datenquellen hinsichtlich Schemata und möglichen Inkonsistenzen der verbundenen Entitäten. Im Gegensatz zu föderierten Datenbanksystemen bieten mediatorbasierte Informationssysteme jedoch nur einen lesenden Zugriff auf die integrierten Systeme. Mediatorbasierte Systeme in Verbindung mit Wrapper stellen bereits eine konkrete Softwareausprägung von Middleware dar. Prinzipiell können Mediatoren auch als Teil eines materialisierten Informationssystems eingesetzt werden, etwa als Vermittler zwischen der Integrationsschicht (oder dem zentralen Datenlager), um Heterogenität der angeschlossenen Quellsysteme zu überwinden. Da jedoch das wesentliche Charakteristikum von materialisierten Systemen, ein im Mittelpunkt stehendes Datenlager, in mediatorbasierte Systemen fehlt, werden sie den virtuellen Informationsarchitekturen zugeordnet.
- Peer-Daten-Management Systeme (PDMS): Als letztes in der Praxis relevantes Integrationssystem sollen Peer-Daten-Management Systeme angeführt werden. Der innere Aufbau einer Peer-Komponente ist wie folgt definiert:
- Peers können ein oder mehrere „eigene“ Datenlager verwalten
- Es stehen Schema Mappings zwischen den eigenen Datenstrukturen und Strukturen anderer Peers zur Verfügung, durch die Datenelemente miteinander in Beziehung gebracht werden können
- Zur Kommunikation mit verbundenen Komponenten stellt jeder Peer ein Exportschema oder Funktionen zur Verfügung. Peers fungieren als eigenständige, autonome Komponenten, die Anfragen sowohl mit eigenen Datenbeständen als auch mit Daten bzw. Anfrageergebnissen anderer verbundener Peers zu beantworten versuchen.
Verwandte Themengebiete
Die Informationsintegration weist unter anderem Überschneidungen und Verwandtschaften mit folgenden Themengebieten auf:
Siehe auch
- Datenbankschema, SchemaSQL
- Data-Warehouse, Föderiertes Datenbanksystem, Portal (Informatik), Verteilte Datenbank
- ETL-Prozess
- Data-Lineage
- Mashup (Internet)
- Master Data Management
Literatur
- Ulf Leser, Felix Naumann, Informationsintegration. dpunkt, 2007, ISBN 3-89864-400-6
- Stefan Conrad: Föderierte Datenbanksysteme. Konzepte der Datenintegration. Springer, 1997 ISBN 3540631763
- M. Tamer Özsu, Patrick Valduriez: Principles of Distributed Database Systems. Prentice Hall, 1999 ISBN 0-13-659707-6
Wikimedia Foundation.