Datenfusion

Datenfusion

Datenfusion (engl. data fusion) bezeichnet die Zusammenführung und Vervollständigung lückenhafter Datensätze zur Datenbereinigung. Während bei der Duplikaterkennung die Datensätze weitgehend vollständig sind und nur kleine Abweichungen aufweisen, müssen bei der Datenfusion mehrere zum Teil unvollständige Datensätze kombiniert werden. Datenfusion ist ein wichtiger Bestandteil der Informationsintegration.

Bevor die Fusion von Daten zweier Quellen möglich ist, müssen sie ggf. auf ein gemeinsames Schema gebracht werden (Schemaintegration). Nicht vorhandene Attribute werden mit NULL (für „kein Wert“) aufgefüllt. In der Regel ist auch ein gemeinsames identifizierendes Attribut als Identifikator notwendig - dies kann beispielsweise zuvor durch Duplikaterkennung ermittelt worden sein.

Inhaltsverzeichnis

Subsumtion mit dem MINIMUM-UNION-Operator

Ein einfaches Verfahren der Datenfusion ist, einen Datensatz mit einem anderen zusammenzuführen, wenn ihm mehr Attribute fehlen und er in allen vorhandenen Attributen mit dem anderen Datensatz übereinstimmt (MINIMUM UNION). Der Datensatz mit mehr fehlenden Attributen wird vom vollständigeren Datensatz subsumiert. So subsumiert im folgenden Beispiel beim Minimum Union der erste Datensatz den zweiten:

Heinrich Müller aus Berlin, Alter unbekannt
Heinrich Müller aus Berlin, 55 Jahre

Zusammenführen mit dem MERGE-Operator

Mit dem MERGE-Operator lassen sich auch über Kreuz liegende unvollständige Datensätze zusammenführen. So ergeben beispielsweise die ersten beiden der folgenden Datensätze bei einem MERGE den dritten:

Heinrich Müller aus Berlin, Alter unbekannt
Heinrich Müller aus ???, 55 Jahre
Heinrich Müller aus Berlin, 55 Jahre

Der MERGE-Operator lässt sich in SQL mit Hilfe der COALESCE-Funktion, die den ersten vorhandenen Wert einer gegebenen Liste liefert, ausdrücken.

Konfliktlösung

Wenn bei zusammengehörenden Datensätzen nicht nur einzelne Attributwerte fehlen, sondern voneinander abweichen, spricht man auch von Datenkonflikten. Datenkonflikte können beispielsweise auf Tippfehlern, unterschiedlichen Schreibweisen und Kodierungen, Fehlern bei Berechnungen und automatischer Texterkennung und auf veraltete Daten beruhen. Zur Bereinigung von Datenkonflikten mittels Aggregation müssen Präferenzen oder andere Konfliktlösungsfunktionen angegeben werden (beispielsweise der Durchschnitt verschiedener Zahlenangaben). Die Datensätze werden zunächst nach Duplikaten gruppiert (siehe Duplikaterkennung) und dann innerhalb der Duplikate aggregiert.

Beispiele für Datenkonflikte zwischen Duplikaten:

Heinrich Müller aus Bärlin, 55 Jahre
Heinrich Müller aus Berlin, 54 Jahre
Heinrich Mueller aus Bärlin, 55 Jahre

Siehe auch


Wikimedia Foundation.

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Data Fusion — Datenfusion (engl. data fusion) bezeichnet die Zusammenführung und Vervollständigung lückenhafter Datensätze zur Datenbereinigung. Während bei der Duplikaterkennung die Datensätze weitgehend vollständig sind und nur kleine Abweichungen aufweisen …   Deutsch Wikipedia

  • Datenintegration — Unter Informationsintegration versteht man das Zusammenführen von Informationen aus verschiedenen Datenbeständen (Datenquellen) mit in der Regel unterschiedlichen Datenstrukturen in eine gemeinsame einheitliche Datenstruktur. Dabei sollen vor… …   Deutsch Wikipedia

  • Data Cleaning — Zur Datenbereinigung (engl. data cleansing oder data scrubbing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten… …   Deutsch Wikipedia

  • Data Cleansing — Zur Datenbereinigung (engl. data cleansing oder data scrubbing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten… …   Deutsch Wikipedia

  • Data scrubbing — Zur Datenbereinigung (engl. data cleansing oder data scrubbing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten… …   Deutsch Wikipedia

  • Datenfehler — Zur Datenbereinigung (engl. data cleansing oder data scrubbing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten… …   Deutsch Wikipedia

  • GaV — Global as View (GaV, Global als Sicht) ist ein Fachbegriff aus der Informatik, der sich auf die Art der Verarbeitung von Daten bezieht. Global as View bezeichnet ein Muster zur Zusammenführung von Schemata im Rahmen der Informationsintegration.… …   Deutsch Wikipedia

  • Global-As-View — (GaV, Global als Sicht) ist ein Fachbegriff aus der Informatik, der sich auf die Art der Verarbeitung von Daten bezieht. Global as View bezeichnet ein Muster zur Zusammenführung von Schemata im Rahmen der Informationsintegration. Kernidee ist,… …   Deutsch Wikipedia

  • Informationsintegration — Unter Informationsintegration versteht man das Zusammenführen von Informationen aus verschiedenen Datenbeständen (Datenquellen) mit in der Regel unterschiedlichen Datenstrukturen in eine gemeinsame einheitliche Datenstruktur. Dabei sollen vor… …   Deutsch Wikipedia

  • Multi-Sensor Data Fusion — Multi Sensor Datenfusion (engl. multi sensor data fusion, kurz oft auch nur Data Fusion genannt) bezeichnet die Zusammenführung und Aufbereitung von bruchstückhaften und teilweise widersprüchlichen Sensordaten in ein homogenes, für den Menschen… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”