Data Fusion

Datenfusion (engl. data fusion) bezeichnet die Zusammenführung und Vervollständigung lückenhafter Datensätze zur Datenbereinigung. Während bei der Duplikaterkennung die Datensätze weitgehend vollständig sind und nur kleine Abweichungen aufweisen, müssen bei der Datenfusion mehrere zum Teil unvollständige Datensätze kombiniert werden. Datenfusion ist ein wichtiger Bestandteil der Informationsintegration.

Bevor die Fusion von Daten zweier Quellen möglich ist, müssen sie ggf. auf ein gemeinsames Schema gebracht werden (Schemaintegration). Nicht vorhandene Attribute werden mit NULL (für „kein Wert“) aufgefüllt. In der Regel ist auch ein gemeinsames identifizierendes Attribut als Identifikator notwendig - dies kann beispielsweise zuvor durch Duplikaterkennung ermittelt worden sein.

Subsumtion mit dem MINIMUM-UNION-Operator

Ein einfaches Verfahren der Datenfusion ist, einen Datensatz mit einem anderen zusammenzuführen, wenn ihm mehr Attribute fehlen und er in allen vorhandenen Attributen mit dem anderen Datensatz übereinstimmt (MINIMUM UNION). Der Datensatz mit mehr fehlenden Attributen wird vom vollständigeren Datensatz subsumiert. So subsumiert im folgenden Beispiel beim Minimum Union der erste Datensatz den zweiten:

Heinrich Müller aus Berlin, Alter unbekannt

Heinrich Müller aus Berlin, 55 Jahre

Zusammenführen mit dem MERGE-Operator

Mit dem MERGE-Operator lassen sich auch über Kreuz liegende unvollständige Datensätze zusammenführen. So ergeben beispielsweise die ersten beiden der folgenden Datensätze bei einem MERGE den dritten:

Heinrich Müller aus Berlin, Alter unbekannt

Heinrich Müller aus ???, 55 Jahre

Heinrich Müller aus Berlin, 55 Jahre

Der MERGE-Operator lässt sich in SQL mit Hilfe der COALESCE-Funktion, die den ersten vorhandenen Wert einer gegebenen Liste liefert, ausdrücken.

Konfliktlösung

Wenn bei zusammengehörenden Datensätzen nur einzelne Attributwerte fehlen, sondern voneinander abweichen, spricht man auch von Datenkonflikten. Datenkonflikte können beispielsweise auf Tippfehlern, unterschiedlichen Schreibweisen und Kodierungen, Fehlern bei Berechnungen und automatischer Texterkennung und auf veraltete Daten beruhen. Zur Bereinigung von Datenkonflikten mittels Aggregation müssen Präferenzen oder andere Konfliktlösungsfunktionen angegeben werden (beispielsweise der Durchschnitt verschiedener Zahlenangaben). Die Datensätze werden zunächst nach Duplikaten gruppiert (siehe Duplikaterkennung) und dann innerhalb der Duplikate aggregiert.

Beispiele für Datenkonflikte zwischen Duplikaten:

Heinrich Müller aus Bärlin, 55 Jahre

Heinrich Müller aus Berlin, 54 Jahre

Heinrich Mueller aus Bärlin, 55 Jahre

Wikimedia Foundation.

Игры ⚽ Поможем решить контрольную работу

Schlagen Sie auch in anderen Wörterbüchern nach:

Data fusion — Data fusion, is generally defined as the use of techniques that combine data from multiple sources and gather that information into discrete, actionable items in order to achieve inferences, which will be more efficient and narrowly tailored than … Wikipedia
data fusion — noun Set of methodologies for fusing information coming from different, and sometimes non homogeneous, sources. The result of fusion is a qualitatively different knowledge always referred to a context … Wiktionary
Multi-Sensor Data Fusion — Multi Sensor Datenfusion (engl. multi sensor data fusion, kurz oft auch nur Data Fusion genannt) bezeichnet die Zusammenführung und Aufbereitung von bruchstückhaften und teilweise widersprüchlichen Sensordaten in ein homogenes, für den Menschen… … Deutsch Wikipedia
Data integration — involves combining data residing in different sources and providing users with a unified view of these data.[1] This process becomes significant in a variety of situations, which include both commercial (when two similar companies need to merge… … Wikipedia
Fusion — can refer to combining two or more distinct things *Cell fusion *Freezing, a chemistry term for a liquid undergoing a phase change into a solid *Gene fusion, a genetic event and molecular biology technique *Nuclear fusion, the process by which… … Wikipedia
Data-centric programming language — defines a category of programming languages where the primary function is the management and manipulation of data. A data centric programming language includes built in processing primitives for accessing data stored in sets, tables, lists, and… … Wikipedia
Data's Day — Star Trek: The Next Generation episode Dr. Crusher teaches Data tap dancing. Episode no … Wikipedia
Data Owner — selten auch deutsch Dateneigner – ist ein Begriff aus dem Informationsmanagement. Entsprechend zum Process Owner, der für einen bestimmten Prozess zuständig ist, ist der Data Owner im Rahmen der Governance und Qualität von Daten für einen… … Deutsch Wikipedia
Fusion power — The Sun is a natural fusion reactor. Fusion power is the power generated by nuclear fusion processes. In fusion reactions two light atomic nuclei fuse together to form a heavier nucleus (in contrast with fission power). In doing so they release a … Wikipedia
Fusión en burbujas — La fusión en burbujas, también conocida como sonofusión , es el nombre no técnico para una reacción de fusión nuclear que algunos investigadores creen que ocurre durante una versión de alta presión de la sonoluminiscencia, una forma extrema de la … Wikipedia Español

Academic dictionaries and encyclopedias

Data Fusion

Subsumtion mit dem MINIMUM-UNION-Operator

Zusammenführen mit dem MERGE-Operator

Konfliktlösung

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Data Fusion

Subsumtion mit dem MINIMUM-UNION-Operator

Zusammenführen mit dem MERGE-Operator

Konfliktlösung

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link