Informationsintegration

Informationsintegration

Unter Informationsintegration versteht man das Zusammenführen von Informationen aus verschiedenen Datenbeständen (Datenquellen) mit in der Regel unterschiedlichen Datenstrukturen in eine gemeinsame einheitliche Datenstruktur. Dabei sollen vor allem heterogene Quellen möglichst vollständig und effizient zu einer strukturierten Einheit zusammengeführt werden, die sich effektiver nutzen lässt, als dies bei direktem Zugriff auf die einzelnen Quellen möglich wäre. Informationsintegration ist vor allem dort notwendig, wo mehrere gewachsene Systeme miteinander verbunden werden sollen, also beispielsweise bei der Zusammenführung von Unternehmen, Arbeitsabläufen und Anwendungen oder bei der Informationssuche im Internet. Die Integration komplexerer Systeme ist erst in den 1990er Jahren in den Blickpunkt der informatischen Forschung gerückt und somit in der Entwicklung begriffen.

Inhaltsverzeichnis

Methoden der Informationsintegration

Die Integration heterogener Informationen aus unterschiedlichen Quellen betrifft sowohl die Integration konkreter Daten als auch der Strukturen (Schemata), in denen sie vorliegen. Zunächst müssen in der Regel die lokalen Schemata integriert werden (Schemaintegration), wozu auch (teil)automatische Verfahren herangezogen werden können (Schema Matching). Zur anschließenden Integration der Daten sind Verfahren der Datenfusion und Duplikaterkennung notwendig.

Möglichkeiten und Ziele

Bei Redundanz zwischen den Daten verschiedener Quellen (extensionale Redundanz) lassen sich Zusammengehörigkeiten teilweise automatisch bestimmen und für die Komplettierung von Datensätzen (Datenfusion) nutzen. So können beispielsweise die Einträge einer Telefonliste und eines Mitarbeiterverzeichnisses bei Übereinstimmung von Personennamen kombiniert werden. Da somit mehr Informationen über einzelne Objekte zur Verfügung stehen, spricht man auch von Verdichtung.

Ziel der Integration ist, eine konsistente globale Sicht auf alle Datenquellen zu ermöglichen. Redundante Datenquellen lassen sich dabei zur Verifikation nutzen. Die Zusammenführung von intensional redundanten Quellen führt zu einer höheren Abdeckung (Coverage) und die Komplettierung von Datensätzen bei extensionaler Redundanz von Quellen zu einer höheren Dichte (Density).

Materialisierte vs. Virtuelle Integration

Grundsätzlich lassen sich zwei Arten der Integration unterscheiden:

  • Materialisierte oder physische Integration: Daten aus unterschiedlichen Datenquellen, - mit in der Regel verschiedenen Datenstrukturen, - werden in die Zielstruktur transformiert und in eine zentrale Datenbasis kopiert, wo sie dann für Auswertungen zur Verfügung stehen. Dieses Prinzip findet sich beispielsweise in Data-Warehouses oder auch im Projekt zum Datenaustausch der Open Archives Initiative.
  • Virtuelle oder logische Integration: Die Daten verbleiben in den unterschiedlichen Quellen und die Integration findet erst bei einer Anfrage statt (Föderiertes Informationssystem).

Im Vergleich ergeben sich folgende Vor- und Nachteile

  • Aktualität: Bei materialisierter Integration ergibt sich die Aktualität der Daten aus dem zeitlichen Abstand der Datenaktualisierungen aus den Quellen; ein virtuell integriertes System ist dagegen stets auf dem aktuellen Stand, da die Daten zum Anfragezeitpunkt integriert werden.
  • Antwortzeit: Da in einem materialisierten System alle Daten zentral gehalten werden, können sie auf schnelle Antwortzeiten optimiert abgelegt werden. Bei virtueller Integration hängt die Antwortzeit stark von der Verfügbarkeit des Datenverwaltungssystems und der Zugriffsgeschwindigkeit auf die Quelldaten, der Übertragungswege sowie den zusätzlich stattfindenden Aufgaben wie Datentransformation (Mapping) und Datenbereinigung ab.
  • Flexibilität: Als große Datenspeicher sind materialisierte Systeme zumeist schwieriger zu warten als virtuell integrierte Systeme, bei denen die Wartung der Daten Aufgabe der Quellen ist. Außerdem kann das Hinzufügen einer Quelle die gesamte Integration beeinflussen (Global-as-View), während bei virtueller Integration das Hinzufügen, Entfernen oder Ändern einer Quelle nur auf ihr Mapping auf ein globales Schema Auswirkungen hat (Local-as-View).
  • Autonomie der Datenquellen: Bei materialisierter als auch virtueller Datenintegration wird nicht direkt Einfluss auf die Datenquellen genommen, bspw. bleibt deren Struktur unverändert. Durch den erforderlichen Zugriff können sich jedoch an sie gestellte Anforderungen, wie Erreichbarkeit und Performanz ändern, virtuelle Datenintegration scheint hierbei einen stärkeren Einfluss zu haben, da bei physischer Integration der Zugriff bspw. gezielt zu Zeiten mit im Allgemeinen schwächerer Auslastung erfolgen könnte.
  • Hardware-Bedarf: Materialisierte Integration erfordert in der Regel die Beschaffung dedizierter Hardware.
  • Datenqualität: Bei materialisierter Integration steht im Allgemeinen mehr Zeit zur Transformation der Daten zur Verfügung, dadurch sind im Vergleich zur virtuellen Datenintegration aufwendigere Analysen möglich, - die erreichbare Datenqualität ist deshalb höher.

Integrationsarchitekturen

Materialisierte Integrationsarchitekturen

Bei materialisierten Systemen werden Daten aus den Quellen importiert, bereinigt und zentral abgelegt. Die in den Quellsystemen vorhandenen Daten werden dabei in der Regel nicht verändert.

  • Data-Warehouses (DWH): Sind die wichtigsten Vertreter materialisierter Datenbanksysteme. Die für den Informationsbedarf eines Unternehmens erforderlichen Daten werden direkt in einem zentralen Data-Warehouse persistent gespeichert, um eine globale, einheitliche Sicht auf die relevanten Daten zu ermöglichen. Um die Quelldaten in die DWH-Basisdatenbank zu integrieren, muss zu diesem Zweck eine Integrationsschicht implementiert werden (ETL-Prozess).
  • Operational Data Stores (ODS): Während Data-Warehouse-Systeme primär den Erfordernissen eines Unternehmensmanagement angepasst ist und somit die zur Verfügung stehenden Informationen den strategischen Entscheidungsprozessen dienen, stehen bei „Operationalen Data-Stores“ die integrierten Daten operativen Geschäftsprozessen zur Verfügung. Dies impliziert bereits, dass die in einem zentralen Data-Warehouse gespeicherten Daten „operativ“ eingesetzt werden sollen, d.h. nach der abgeschlossenen Integration (Import, Bereinigung, Speicherung) unterliegen diese Daten Veränderungen. Daher stehen im Mittelpunkt der Betrachtung bei ODS-Systemen auch nicht historische, sondern primär aktuelle Daten. Insofern ergibt sich ein weiteres wesentliches Unterscheidungsmerkmal zu DWH, da die Synchronisation zu den Quelldaten entweder bei Anfragen oder zumindest in häufigen, regelmäßigen Abständen zu erfolgen hat. ODS werden von Unternehmen zumeist in jenen Geschäftsbereichen eingesetzt, in denen die Aktualität der Daten eine wesentliche Rolle spielt, wie z.B. in Kunden- und Lieferanten-Kommunikationsbereichen und in Lagerverwaltungsprozessen. Mit dem Trend zum Realtime-Data-Warehouse und zu leistungsstärkeren Datenbankmanagementsystemen dürfte der Operational Data Store im Data-Warehouse aufgehen.

Virtuelle Integrationsarchitekturen

Im Gegensatz zu materialisierten Systemen werden Daten in virtuellen Datenbanksystemen nicht im integrierten System selbst gespeichert, sondern verbleiben physisch in den Datenquellen und werden nur bei Anfragen in das Integrationssystem geladen (virtueller Datenspeicher).

  • Föderierte Datenbanksysteme (FDBS): Im Mittelpunkt eines Föderierten Datenbanksystems steht ein „globales konzeptionelles“ (= kanonisches) Schema. Dieses Schema stellt einerseits die Schnittstelle zu den lokalen, verteilten Datenbanken und ihren lokalen Schemata dar und bietet andererseits anfragenden Anwendungen mittels geeigneter Dienste eine integrierte globale Sicht auf die föderierten Quelldaten. FDBS entstehen zumeist durch die Vereinigung mehrerer Datenbanksysteme (Multidatenbanksysteme) mit dem Ziel einer „zentralen“ (föderierten) Koordination gemeinsamer Aufgaben.
  • Mediatorbasierte Integrationssysteme & Wrapper (MBS): Mediatoren dienen als „Vermittler“ zwischen Datenquellen und Anwendungen. Der Mediator nimmt hierbei Anfragen der Anwendung entgegen und beantwortet diese, indem er mit den maßgeblichen Datenquellen kommuniziert. Dies impliziert bereits ein großes Wissen über den Aufbau aller föderierten Datenquellen hinsichtlich Schemata und möglichen Inkonsistenzen der verbundenen Entitäten. Im Gegensatz zu föderierten Datenbanksystemen bieten mediatorbasierte Informationssysteme jedoch nur einen lesenden Zugriff auf die integrierten Systeme. Mediatorbasierte Systeme in Verbindung mit Wrappern stellen bereits eine konkrete Softwareausprägung von Middleware dar. Prinzipiell können Mediatoren auch als Teil eines materialisierten Informationssystems eingesetzt werden, etwa als Vermittler zwischen der Integrationsschicht (oder dem zentralen Data-Warehouse), um die Heterogenität der angeschlossenen Quellsysteme zu überwinden. Da jedoch das wesentliche Charakteristikum von materialisierten Systemen, ein im Mittelpunkt stehendes Data-Warehouse, in mediatorbasierten Systemen fehlt, werden sie den virtuellen Informationsarchitekturen zugeordnet.
  • Peer-Daten-Management Systeme (PDMS): Als letztes in der Praxis relevantes Integrationssystem sollen Peer-Daten-Management-Systeme angeführt werden. Der innere Aufbau einer Peer-Komponente ist wie folgt definiert:
  1. Peers können ein oder mehrere „eigene“ Data-Warehouses verwalten.
  2. Es stehen Schema-Mappings zwischen den eigenen Datenstrukturen und Strukturen anderer Peers zur Verfügung, durch die Datenelemente miteinander in Beziehung gebracht werden können.
  3. Zur Kommunikation mit verbundenen Komponenten stellt jeder Peer ein Exportschema oder Funktionen zur Verfügung. Peers fungieren als eigenständige, autonome Komponenten, die Anfragen sowohl mit eigenen Datenbeständen als auch mit Daten bzw. Anfrageergebnissen anderer verbundener Peers zu beantworten versuchen.


Verwandte Themengebiete

Die Informationsintegration weist unter anderem Überschneidungen und Verwandtschaften mit folgenden Themengebieten auf:

Siehe auch

Literatur


Wikimedia Foundation.

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Schema Mapping — Schematransformation und integration bezeichnet in der Informatik die Überführung von Schemata ineinander (Transformation) beziehungsweise die Kombination mehreren Schemata zu einem neuen Schema (Integration). Beide Aufgaben sind bei der… …   Deutsch Wikipedia

  • Schema Matching — Schematransformation und integration bezeichnet in der Informatik die Überführung von Schemata ineinander (Transformation) beziehungsweise die Kombination mehreren Schemata zu einem neuen Schema (Integration). Beide Aufgaben sind bei der… …   Deutsch Wikipedia

  • Schemaintegration — Schematransformation und integration bezeichnet in der Informatik die Überführung von Schemata ineinander (Transformation) beziehungsweise die Kombination mehreren Schemata zu einem neuen Schema (Integration). Beide Aufgaben sind bei der… …   Deutsch Wikipedia

  • Schematransformation — und integration bezeichnet in der Informatik die Überführung von Schemata ineinander (Transformation) beziehungsweise die Kombination mehreren Schemata zu einem neuen Schema (Integration). Beide Aufgaben sind bei der Datenmigration und… …   Deutsch Wikipedia

  • Datenintegration — Unter Informationsintegration versteht man das Zusammenführen von Informationen aus verschiedenen Datenbeständen (Datenquellen) mit in der Regel unterschiedlichen Datenstrukturen in eine gemeinsame einheitliche Datenstruktur. Dabei sollen vor… …   Deutsch Wikipedia

  • Schematransformation und -integration — bezeichnet in der Informatik die Überführung von Schemata ineinander (Transformation) beziehungsweise die Kombination mehrerer Schemata zu einem neuen Schema (Integration). Beide Aufgaben sind bei der Datenmigration und Informationsintegration… …   Deutsch Wikipedia

  • Analytische Informationssysteme — Unter analytischen Informationssystemen versteht man Informationssysteme, die Online Analytical Processing und Data Mining erlauben, um alle Daten eines Unternehmens so zu analysieren und aufzubereiten, dass sie zur Entscheidungsfindung… …   Deutsch Wikipedia

  • CIDOC CRM — Das CIDOC Conceptual Reference Model bietet die erweiterbare Ontologie für Begriffe und Informationen im Bereich des Kulturerbes. Es ist die Norm (ISO 21127:2006)[1] für den kontrollierten Austausch von Informationen im Bereich des kulturellen… …   Deutsch Wikipedia

  • Data Fusion — Datenfusion (engl. data fusion) bezeichnet die Zusammenführung und Vervollständigung lückenhafter Datensätze zur Datenbereinigung. Während bei der Duplikaterkennung die Datensätze weitgehend vollständig sind und nur kleine Abweichungen aufweisen …   Deutsch Wikipedia

  • Data Warehouse — Ein Data Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher Quellen zusammensetzt. Die Daten werden von den Datenquellen in das Data Warehouse geladen und dort vor allem …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”