Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken

Knowledge Discovery in Databases (KDD), zu Deutsch Erkenntnisgewinnung aus Datenbeständen, umfasst das geläufigere Data-Mining (data mining) und vorbereitende Analysen hierzu. Ziel des KDD ist die Erkennung bislang unbekannter fachlicher Zusammenhänge aus vorhandenen, meist großen Datenbeständen. In Abgrenzung zum Data Mining umfasst KDD als Gesamtprozess auch die Vorbereitung der Daten sowie die Bewertung der Resultate. Die Teilschritte des KDD-Prozesses sind

  1. Bereitstellung von Hintergrundwissen für den jeweiligen Fachbereich
  2. Definition der Ziele der Wissensfindung
  3. Datenauswahl
  4. Datenbereinigung
  5. Datenreduktion (z. B. durch Transformationen)
  6. Auswahl eines Modells, in dem das gefundene Wissen repräsentiert werden soll
  7. Data-Mining, die eigentliche Datenanalyse
  8. Interpretation der gewonnenen Erkenntnisse

Üblicherweise werden diese Schritte mehrfach durchlaufen. Das zugehörige Vorgehensmodell ist CRISP-DM.

Inhaltsverzeichnis

Abgrenzung zum Data Mining

Data Mining kann als Anwendung spezifischer Algorithmen zur Extraktion von Mustern aus Datenbeständen im gesamten KDD Prozess gesehen werden. (vgl. Alpar, Niederreichholz, 2000, S. 4 zitiert nach: Fayyad et al 1996) In der Praxis und im kommerziellen Bereich etablierte sich der Begriff Data Mining für den gesamten KDD Prozess. Im engeren Sinn bezieht sich Data Mining auf die „eigentliche“ Mustererkennung innerhalb des gesamten Data Mining- bzw. KDD-Prozess. Bevor Data Mining Algorithmen mit irgendwelchen Daten rechnen können, müssen diese aufbereitet werden. Die Auswahl, Vorverarbeitung und Transformation der Daten nimmt in der Regel 75-85% der Gesamtanstrengungen im Data Mining Prozess ein und hat starken Einfluss auf die Qualität des Gesamtergebnisses (vgl. Alpar, Niederreichholz, 2000, S. 6). Die eigentlichen Berechnungen sind nur ein Schritt im gesamten Prozess der Erkennung von Mustern in Daten, weswegen der Begriff „Knowledge Discovery in Databases“ (KDD) von Forschern der Künstlichen Intelligenz eingeführt wurde (vgl. Fayyad et. al, 1996, S. 39). Letztlich ist Text Mining aus dieser Sichtweise lediglich eine Erweiterung des KDD Prozesses in dem unstrukturierte Daten in eine strukturierte bzw. für Data Mining Algorithmen passende Form überführt werden. Text Mining im weiteren Sinn umfasst jedoch ein viel breiter gefächertes Forschungsgebiet und eine ganze Reihe von Texttechnologien.

Explorationslast

Die Vision des KDD bzw Data Mining verstecktes, valides, nützliches und handlungsrelevantes Wissen aus vorhandenen Datenbeständen zu gewinnen ist mit der Tatsache zu konfrontieren, dass einem Data Mining Projekt in der Praxis eine konkrete betriebswirtschaftliche Problemstellung vorausgeht. Es werden Hypothesen über die Daten bzw. Datenmuster aufgestellt und anschließend zielgerichtet evaluiert. Der zeitliche Hauptaufwand des Data Mining liegt in der Vorverarbeitung der Daten. Die Explorationslast liegt letztlich beim Benutzer, der die Ergebnisse der Data Mining Algorithmen interpretieren und evaluieren muss (vgl. [1] Definition auf wissensexploration.de).

Software

  • YALE ist ein frei erhältliches Open Source Tool für Maschinelles Lernen und Data-Mining, das die eher technischen Schritte der Wissensentdeckung (Datenauswahl, Datenbereinigung, Datenreduktion, Modellbildung, Visualisierung etc.) unterstützt
  • WEKA ist ein Open Source Tool, welches von der Universität von Waikato entwickelt wurde. Es enthält eine umfangreiche Sammlung von Algorithmen zur Knowledge Discovery in Databases.

Literatur

  • Alpar, Paul und Niederreichholz, Joachim (2000), Data Mining im praktischen Einsatz: Verfahren und Anwendungsfälle für Marketing, Vertrieb, Controlling und Kundenunterstützung, Vieweg Verlag, Wiesbaden, Deutschland.
  • Fayyad, Usama; Piatetsky-Shapiro, Gregory und Smyth Padhraic (1996), From Data Mining to Knowledge Discovery in Databases, AI Magazine, American Association for Artificial Intelligence, California, USA, Seite 37-54.
  • Görz, G.; Rollinger, C. und Schneeberger, J. (2000), Einführung in die künstliche Intelligenz, Oldenbourg Verlag, München, Deutschland, Online: http://www-ai.cs.uni-dortmund.de/lehre/vorlesungen/mlrn/skript/handbuch_ki-ml.pdf [01.11.06]

Weblinks

  • [2] KDD vs Text Mining
  • KDML Bonn Knowledge Discovery & Machine Learning Forschungsgruppe in Bonn

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Wissensentdeckung in Datenbanken — deutscher Begriff für ⇡ Knowledge Discovery in Databases …   Lexikon der Economics

  • Data-Mining — Unter Data Mining (der englische Begriff bedeutet etwa „aus einem Datenberg etwas Wertvolles extrahieren“, eine adäquate deutsche Übersetzung existiert nicht.[1] Der Duden empfiehlt die Schreibweise „Data Mining“[2]) versteht man die… …   Deutsch Wikipedia

  • Apriori-Algorithmus — Der Apriori Algorithmus ist ein Verfahren zur Assoziationsanalyse, einem Bereich des Data Mining. Er dient der Auffindung von sinnvollen und nützlichen Zusammenhängen in transaktionsbasierten Datenbasen, die in Form von sogenannten… …   Deutsch Wikipedia

  • Knowledge Discovery in Databases — (KDD), auf Deutsch Wissensentdeckung in Datenbanken, ergänzt das oft synonym gebrauchte Data Mining um vorbereitende Untersuchungen und Transformationen der auszuwertenden Daten. Ziel des KDD ist die Erkennung bislang unbekannter fachlicher… …   Deutsch Wikipedia

  • RapidMiner — Ein Bildschirmfoto von RapidMiner (YALE). Basisdaten Entwickler rapid i.com Aktu …   Deutsch Wikipedia

  • Text-Mining — Der Begriff Text Mining (engl. für „Textschürfen“) bezeichnet die automatisierte Entdeckung relevanter Informationen aus Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text Mining Software aus Texten Informationen, die die… …   Deutsch Wikipedia

  • Textmining — Der Begriff Text Mining (engl. für „Textschürfen“) bezeichnet die automatisierte Entdeckung relevanter Informationen aus Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text Mining Software aus Texten Informationen, die die… …   Deutsch Wikipedia

  • Textschürfung — Der Begriff Text Mining (engl. für „Textschürfen“) bezeichnet die automatisierte Entdeckung relevanter Informationen aus Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text Mining Software aus Texten Informationen, die die… …   Deutsch Wikipedia

  • Environment for DeveLoping KDD-Applications Supported by Index-Structures — ELKI 0.4 visualisiert OPTICS Ergebnis Basisdaten Maintainer …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”