Datenbereinigung

Datenbereinigung

Zur Datenbereinigung (engl. data cleaning oder data editing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten (ursprünglich falschen oder veralteten), redundanten, inkonsistenten oder falsch formatierten Daten bestehen.

Wesentliche Schritte zur Datenbereinigung sind die Duplikaterkennung (Erkennen und Zusammenlegen von gleichen Datensätzen) und Datenfusion (Zusammenführen und Vervollständigen lückenhafter Daten).

Die Datenbereinigung ist ein Beitrag zur Verbesserung der Informationsqualität. Allerdings betrifft Informationsqualität auch viele weitere Eigenschaften von Datenquellen (Glaubwürdigkeit, Relevanz, Verfügbarkeit, Kosten...), die sich mittels Datenbereinigung nicht verbessern lassen.

Inhaltsverzeichnis

Prozess zur Datenbereinigung

Der Prozess zur Bereinigung der Daten gliedert sich in zwei aufeinanderfolgende Schritte (Apel, 2009, S. 157]):

  1. Standardisierung und
  2. Bereinigung der Daten.

Daten vor der Bereinigung standardisieren

Für eine erfolgreiche Bereinigung müssen die Daten zunächst standardisiert werden. Dazu werden diese zuerst strukturiert und danach normiert.

Die Strukturierung bringt die Daten in ein einheitliches Format, beispielsweise wird dabei ein Datum in ein einheitliches Datenformat gebracht (01.09.2009). Oder zusammengesetzte Daten werden in ihre Bestandteile zerlegt, z. B. der Name eines Kunden in die Namensbestandteile Anrede, Titel, Vorname und Nachname. Meistens sind solche Strukturierungen nicht trivial und werden mit Hilfe von komplexen Parsern durchgeführt.

Bei der Normierung werden die vorhandenen Werte auf eine normierte Werteliste abgebildet. Diese Normierung kann z. B. für die Anrede, den akademischen Titel oder Firmenzusätze durchgeführt werden. So können beispielsweise die Firmenzusätze e. Kfr. und Kfm durch den normierten Wert e. K. ersetzt werden, wodurch die spätere Bereinigung stark vereinfacht wird.

Daten bereinigen

Für die Bereinigung der Daten stehen sechs Methoden zu Auswahl, die einzeln oder kombiniert angewendet werden können:

  • Ableiten aus anderen Daten: Aus anderen Daten werden die korrekten Werte abgeleitet (z. B. die Anrede aus dem Vornamen).
  • Ersetzen durch andere Daten: Die fehlerhaften Daten werden durch andere Daten (z. B. aus anderen Systemen) ersetzt.
  • Default-Werte verwenden: Es werden Default-Werte anstelle der fehlerhaften Daten verwendet.
  • Fehlerhafte Daten entfernen: Die Daten werden herausgefiltert und nicht weiter verarbeitet.
  • Duplikate entfernen: Duplikate werden über die Duplikaterkennung identifiziert, die nicht-redundanten Daten aus den Dubletten konsolidiert und daraus ein einziger Datensatz gebildet.
  • Zusammenfassungen auftrennen: Im Gegensatz zur Entfernung von Duplikaten werden hierbei fehlerhaft zusammengefasste Daten wieder getrennt.

Ablage der fehlerhaften Daten

Nachdem man die Daten bereinigt hat, sollte man die originären, fehlerhaften Daten auf keinen Fall einfach löschen. Ansonsten wären die Bereinigungen nicht nachvollziehbar, außerdem wäre ein solcher Prozess nicht revisionssicher.

Eine Alternative ist die Speicherung des korrigierten Werts in einer zusätzlichen Spalte. Da zusätzlicher Speicherplatz benötigt wird, empfiehlt sich dieser Ansatz nur bei wenigen, zu korrigierenden Spalten in einem Datensatz. Eine weitere Möglichkeit ist die Speicherung in einer zusätzlichen Zeile, was den Speicherbedarf aber noch stärker ansteigen lässt. Es bietet sich deshalb nur bei einer geringen Anzahl zu korrigierender Datensätze an. Die letzte Möglichkeit bei einer großen Anzahl zu korrigierender Spalten und Zeilen ist das Anlegen einer gesonderten Tabelle.

Literaturhinweise

  • Detlef Apel, Wolfgang Behme, Rüdiger Eberlein, Christian Merighi: Datenqualität erfolgreich steuern. 2009, Hanser Fachbuch, ISBN 978-3-446-42056-4.

Siehe auch


Wikimedia Foundation.

Игры ⚽ Поможем решить контрольную работу

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Data Cleaning — Zur Datenbereinigung (engl. data cleansing oder data scrubbing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten… …   Deutsch Wikipedia

  • Data Cleansing — Zur Datenbereinigung (engl. data cleansing oder data scrubbing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten… …   Deutsch Wikipedia

  • Data Mining — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… …   Deutsch Wikipedia

  • Data mining — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… …   Deutsch Wikipedia

  • Data scrubbing — Zur Datenbereinigung (engl. data cleansing oder data scrubbing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten… …   Deutsch Wikipedia

  • Dataminer — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… …   Deutsch Wikipedia

  • Datamining — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… …   Deutsch Wikipedia

  • Datenfehler — Zur Datenbereinigung (engl. data cleansing oder data scrubbing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten… …   Deutsch Wikipedia

  • Datenschürfung — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… …   Deutsch Wikipedia

  • Matchplus — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”