Wissensentdeckung in Datenbanken

Knowledge Discovery in Databases (KDD), zu Deutsch Erkenntnisgewinnung aus Datenbeständen, umfasst das geläufigere Data-Mining (data mining) und vorbereitende Analysen hierzu. Ziel des KDD ist die Erkennung bislang unbekannter fachlicher Zusammenhänge aus vorhandenen, meist großen Datenbeständen. In Abgrenzung zum Data Mining umfasst KDD als Gesamtprozess auch die Vorbereitung der Daten sowie die Bewertung der Resultate. Die Teilschritte des KDD-Prozesses sind

Bereitstellung von Hintergrundwissen für den jeweiligen Fachbereich
Definition der Ziele der Wissensfindung
Datenauswahl
Datenbereinigung
Datenreduktion (z. B. durch Transformationen)
Auswahl eines Modells, in dem das gefundene Wissen repräsentiert werden soll
Data-Mining, die eigentliche Datenanalyse
Interpretation der gewonnenen Erkenntnisse

Üblicherweise werden diese Schritte mehrfach durchlaufen. Das zugehörige Vorgehensmodell ist CRISP-DM.

Abgrenzung zum Data Mining

Data Mining kann als Anwendung spezifischer Algorithmen zur Extraktion von Mustern aus Datenbeständen im gesamten KDD Prozess gesehen werden. (vgl. Alpar, Niederreichholz, 2000, S. 4 zitiert nach: Fayyad et al 1996) In der Praxis und im kommerziellen Bereich etablierte sich der Begriff Data Mining für den gesamten KDD Prozess. Im engeren Sinn bezieht sich Data Mining auf die „eigentliche“ Mustererkennung innerhalb des gesamten Data Mining- bzw. KDD-Prozess. Bevor Data Mining Algorithmen mit irgendwelchen Daten rechnen können, müssen diese aufbereitet werden. Die Auswahl, Vorverarbeitung und Transformation der Daten nimmt in der Regel 75-85% der Gesamtanstrengungen im Data Mining Prozess ein und hat starken Einfluss auf die Qualität des Gesamtergebnisses (vgl. Alpar, Niederreichholz, 2000, S. 6). Die eigentlichen Berechnungen sind nur ein Schritt im gesamten Prozess der Erkennung von Mustern in Daten, weswegen der Begriff „Knowledge Discovery in Databases“ (KDD) von Forschern der Künstlichen Intelligenz eingeführt wurde (vgl. Fayyad et. al, 1996, S. 39). Letztlich ist Text Mining aus dieser Sichtweise lediglich eine Erweiterung des KDD Prozesses in dem unstrukturierte Daten in eine strukturierte bzw. für Data Mining Algorithmen passende Form überführt werden. Text Mining im weiteren Sinn umfasst jedoch ein viel breiter gefächertes Forschungsgebiet und eine ganze Reihe von Texttechnologien.

Explorationslast

Die Vision des KDD bzw Data Mining verstecktes, valides, nützliches und handlungsrelevantes Wissen aus vorhandenen Datenbeständen zu gewinnen ist mit der Tatsache zu konfrontieren, dass einem Data Mining Projekt in der Praxis eine konkrete betriebswirtschaftliche Problemstellung vorausgeht. Es werden Hypothesen über die Daten bzw. Datenmuster aufgestellt und anschließend zielgerichtet evaluiert. Der zeitliche Hauptaufwand des Data Mining liegt in der Vorverarbeitung der Daten. Die Explorationslast liegt letztlich beim Benutzer, der die Ergebnisse der Data Mining Algorithmen interpretieren und evaluieren muss (vgl. [1] Definition auf wissensexploration.de).

Software

YALE ist ein frei erhältliches Open Source Tool für Maschinelles Lernen und Data-Mining, das die eher technischen Schritte der Wissensentdeckung (Datenauswahl, Datenbereinigung, Datenreduktion, Modellbildung, Visualisierung etc.) unterstützt
WEKA ist ein Open Source Tool, welches von der Universität von Waikato entwickelt wurde. Es enthält eine umfangreiche Sammlung von Algorithmen zur Knowledge Discovery in Databases.

Literatur

Alpar, Paul und Niederreichholz, Joachim (2000), Data Mining im praktischen Einsatz: Verfahren und Anwendungsfälle für Marketing, Vertrieb, Controlling und Kundenunterstützung, Vieweg Verlag, Wiesbaden, Deutschland.
Fayyad, Usama; Piatetsky-Shapiro, Gregory und Smyth Padhraic (1996), From Data Mining to Knowledge Discovery in Databases, AI Magazine, American Association for Artificial Intelligence, California, USA, Seite 37-54.
Görz, G.; Rollinger, C. und Schneeberger, J. (2000), Einführung in die künstliche Intelligenz, Oldenbourg Verlag, München, Deutschland, Online: http://www-ai.cs.uni-dortmund.de/lehre/vorlesungen/mlrn/skript/handbuch_ki-ml.pdf [01.11.06]

Weblinks

[2] KDD vs Text Mining
KDML Bonn Knowledge Discovery & Machine Learning Forschungsgruppe in Bonn

Wikimedia Foundation.

Игры ⚽ Поможем решить контрольную работу

Schlagen Sie auch in anderen Wörterbüchern nach:

Wissensentdeckung in Datenbanken — deutscher Begriff für ⇡ Knowledge Discovery in Databases … Lexikon der Economics
Data-Mining — Unter Data Mining (der englische Begriff bedeutet etwa „aus einem Datenberg etwas Wertvolles extrahieren“, eine adäquate deutsche Übersetzung existiert nicht.[1] Der Duden empfiehlt die Schreibweise „Data Mining“[2]) versteht man die… … Deutsch Wikipedia
Apriori-Algorithmus — Der Apriori Algorithmus ist ein Verfahren zur Assoziationsanalyse, einem Bereich des Data Mining. Er dient der Auffindung von sinnvollen und nützlichen Zusammenhängen in transaktionsbasierten Datenbasen, die in Form von sogenannten… … Deutsch Wikipedia
Knowledge Discovery in Databases — (KDD), auf Deutsch Wissensentdeckung in Datenbanken, ergänzt das oft synonym gebrauchte Data Mining um vorbereitende Untersuchungen und Transformationen der auszuwertenden Daten. Ziel des KDD ist die Erkennung bislang unbekannter fachlicher… … Deutsch Wikipedia
RapidMiner — Ein Bildschirmfoto von RapidMiner (YALE). Basisdaten Entwickler rapid i.com Aktu … Deutsch Wikipedia
Text-Mining — Der Begriff Text Mining (engl. für „Textschürfen“) bezeichnet die automatisierte Entdeckung relevanter Informationen aus Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text Mining Software aus Texten Informationen, die die… … Deutsch Wikipedia
Textmining — Der Begriff Text Mining (engl. für „Textschürfen“) bezeichnet die automatisierte Entdeckung relevanter Informationen aus Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text Mining Software aus Texten Informationen, die die… … Deutsch Wikipedia
Textschürfung — Der Begriff Text Mining (engl. für „Textschürfen“) bezeichnet die automatisierte Entdeckung relevanter Informationen aus Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text Mining Software aus Texten Informationen, die die… … Deutsch Wikipedia
Environment for DeveLoping KDD-Applications Supported by Index-Structures — ELKI 0.4 visualisiert OPTICS Ergebnis Basisdaten Maintainer … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Wissensentdeckung in Datenbanken

Inhaltsverzeichnis

Abgrenzung zum Data Mining

Explorationslast

Software

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Wissensentdeckung in Datenbanken

Inhaltsverzeichnis

Abgrenzung zum Data Mining

Explorationslast

Software

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link