- Knowledge Discovery in Databases
-
Knowledge Discovery in Databases (KDD), auf Deutsch Wissensentdeckung in Datenbanken, ergänzt das oft synonym gebrauchte Data-Mining um vorbereitende Untersuchungen und Transformationen der auszuwertenden Daten. Ziel des KDD ist die Erkennung bislang unbekannter fachlicher Zusammenhänge aus vorhandenen, meist großen Datenbeständen. In Abgrenzung zum Data-Mining umfasst KDD als Gesamtprozess auch die Vorbereitung der Daten sowie die Bewertung der Resultate. Der Begriff KDD wurde in wissenschaftlichen Kreisen von Gregory Piatetsky-Shapiro geprägt, während in der Praxis der Begriff Data-Mining geläufiger ist, der in der Statistik jedoch traditionell negativ besetzt ist.
Die Teilschritte des KDD-Prozesses sind
- Bereitstellung von Hintergrundwissen für den jeweiligen Fachbereich
- Definition der Ziele der Wissensfindung
- Datenauswahl
- Datenbereinigung
- Datenreduktion (z. B. durch Transformationen)
- Auswahl eines Modells, in dem das gefundene Wissen repräsentiert werden soll
- Data-Mining, die eigentliche Datenanalyse
- Interpretation der gewonnenen Erkenntnisse
Üblicherweise werden diese Schritte mehrfach durchlaufen. Ein verbreitetes Vorgehensmodell ist CRISP-DM.
Software
- RapidMiner ist ein frei erhältliches Open Source Tool für Maschinelles Lernen und Data-Mining, das die eher technischen Schritte der Wissensentdeckung (Datenauswahl, Datenbereinigung, Datenreduktion, Modellbildung, Visualisierung usw.) unterstützt
- WEKA ist ein Open Source Tool, welches von der Universität von Waikato entwickelt wurde. Es enthält eine umfangreiche Sammlung von Algorithmen zur Knowledge Discovery in Databases.
- Environment for DeveLoping KDD-Applications Supported by Index-Structures ist ein Forschungsprojekt der Ludwig-Maximilians-Universität München, das zahlreiche Data-Mining-Algorithmen enthält (vor allem zur Clusteranalyse und Outlier-Erkennung, aber auch Indexstrukturen), zur Verwendung in Lehre und Forschung.
Literatur
- Martin Ester, Jörg Sander: Knowledge Discovery in Databases: Techniken und Anwendungen. Springer, Berlin 2000, ISBN 3540673288.
- Fayyad, Usama; Piatetsky-Shapiro, Gregory und Smyth Padhraic (1996), From Data Mining to Knowledge Discovery in Databases, AI Magazine, American Association for Artificial Intelligence, California, USA, Seite 37-54.
- Alpar, Paul und Niederreichholz, Joachim (2000), Data Mining im praktischen Einsatz: Verfahren und Anwendungsfälle für Marketing, Vertrieb, Controlling und Kundenunterstützung, Vieweg Verlag, Wiesbaden, Deutschland.
Wikimedia Foundation.