- Wissensentdeckung in Datenbanken
-
Knowledge Discovery in Databases (KDD), zu Deutsch Erkenntnisgewinnung aus Datenbeständen, umfasst das geläufigere Data-Mining (data mining) und vorbereitende Analysen hierzu. Ziel des KDD ist die Erkennung bislang unbekannter fachlicher Zusammenhänge aus vorhandenen, meist großen Datenbeständen. In Abgrenzung zum Data Mining umfasst KDD als Gesamtprozess auch die Vorbereitung der Daten sowie die Bewertung der Resultate. Die Teilschritte des KDD-Prozesses sind
- Bereitstellung von Hintergrundwissen für den jeweiligen Fachbereich
- Definition der Ziele der Wissensfindung
- Datenauswahl
- Datenbereinigung
- Datenreduktion (z. B. durch Transformationen)
- Auswahl eines Modells, in dem das gefundene Wissen repräsentiert werden soll
- Data-Mining, die eigentliche Datenanalyse
- Interpretation der gewonnenen Erkenntnisse
Üblicherweise werden diese Schritte mehrfach durchlaufen. Das zugehörige Vorgehensmodell ist CRISP-DM.
Inhaltsverzeichnis
Abgrenzung zum Data Mining
Data Mining kann als Anwendung spezifischer Algorithmen zur Extraktion von Mustern aus Datenbeständen im gesamten KDD Prozess gesehen werden. (vgl. Alpar, Niederreichholz, 2000, S. 4 zitiert nach: Fayyad et al 1996) In der Praxis und im kommerziellen Bereich etablierte sich der Begriff Data Mining für den gesamten KDD Prozess. Im engeren Sinn bezieht sich Data Mining auf die „eigentliche“ Mustererkennung innerhalb des gesamten Data Mining- bzw. KDD-Prozess. Bevor Data Mining Algorithmen mit irgendwelchen Daten rechnen können, müssen diese aufbereitet werden. Die Auswahl, Vorverarbeitung und Transformation der Daten nimmt in der Regel 75-85% der Gesamtanstrengungen im Data Mining Prozess ein und hat starken Einfluss auf die Qualität des Gesamtergebnisses (vgl. Alpar, Niederreichholz, 2000, S. 6). Die eigentlichen Berechnungen sind nur ein Schritt im gesamten Prozess der Erkennung von Mustern in Daten, weswegen der Begriff „Knowledge Discovery in Databases“ (KDD) von Forschern der Künstlichen Intelligenz eingeführt wurde (vgl. Fayyad et. al, 1996, S. 39). Letztlich ist Text Mining aus dieser Sichtweise lediglich eine Erweiterung des KDD Prozesses in dem unstrukturierte Daten in eine strukturierte bzw. für Data Mining Algorithmen passende Form überführt werden. Text Mining im weiteren Sinn umfasst jedoch ein viel breiter gefächertes Forschungsgebiet und eine ganze Reihe von Texttechnologien.
Explorationslast
Die Vision des KDD bzw Data Mining verstecktes, valides, nützliches und handlungsrelevantes Wissen aus vorhandenen Datenbeständen zu gewinnen ist mit der Tatsache zu konfrontieren, dass einem Data Mining Projekt in der Praxis eine konkrete betriebswirtschaftliche Problemstellung vorausgeht. Es werden Hypothesen über die Daten bzw. Datenmuster aufgestellt und anschließend zielgerichtet evaluiert. Der zeitliche Hauptaufwand des Data Mining liegt in der Vorverarbeitung der Daten. Die Explorationslast liegt letztlich beim Benutzer, der die Ergebnisse der Data Mining Algorithmen interpretieren und evaluieren muss (vgl. [1] Definition auf wissensexploration.de).
Software
- YALE ist ein frei erhältliches Open Source Tool für Maschinelles Lernen und Data-Mining, das die eher technischen Schritte der Wissensentdeckung (Datenauswahl, Datenbereinigung, Datenreduktion, Modellbildung, Visualisierung etc.) unterstützt
- WEKA ist ein Open Source Tool, welches von der Universität von Waikato entwickelt wurde. Es enthält eine umfangreiche Sammlung von Algorithmen zur Knowledge Discovery in Databases.
Literatur
- Alpar, Paul und Niederreichholz, Joachim (2000), Data Mining im praktischen Einsatz: Verfahren und Anwendungsfälle für Marketing, Vertrieb, Controlling und Kundenunterstützung, Vieweg Verlag, Wiesbaden, Deutschland.
- Fayyad, Usama; Piatetsky-Shapiro, Gregory und Smyth Padhraic (1996), From Data Mining to Knowledge Discovery in Databases, AI Magazine, American Association for Artificial Intelligence, California, USA, Seite 37-54.
- Görz, G.; Rollinger, C. und Schneeberger, J. (2000), Einführung in die künstliche Intelligenz, Oldenbourg Verlag, München, Deutschland, Online: http://www-ai.cs.uni-dortmund.de/lehre/vorlesungen/mlrn/skript/handbuch_ki-ml.pdf [01.11.06]
Weblinks
Wikimedia Foundation.