- CRISP-DM
-
Der Cross-Industry Standard Process for Data-Mining gibt den Lebenszyklus in einem Knowledge Discovery in Databases-Prozess vor.
Dieser Prozess wurde aus einem Förderprojekt der Europäischen Union von namhaften Teilnehmern, u.a. der Daimler AG und SPSS, entwickelt und besteht in der Version 1.0 aus sechs Phasen mit jeweiligen Teilphasen, die z.T. wiederholt durchlaufen werden. An der Version 2.0 wird derzeit gearbeitet.
Phasen
Die sechs Phasen im Lebenszyklus sind:
- Business Understanding
In der ersten Phase werden die Ziele und Anforderungen aus Sicht des Auftraggebers festgelegt. Daraus werden die konkrete Aufgabenstellung und die grobe Vorgehensweise abgeleitet. - Data Understanding
Einer ersten Bereitstellung von Daten und Einarbeitung folgt die Untersuchung auf Qualitätsprobleme, erste Zusammenhänge und interessante Teilmengen. - Data Preparation
Aus den ersten Daten wird die endgültige Datenmenge zur Durchführung der Modellierung gewonnen. Dazu werden geeignete Instanzen und Attribute ausgewählt und Werte ggfs. umgerechnet, ergänzt oder gelöscht. Diese Phase kann u.U. mehrmals durchlaufen werden. - Modeling
Die geeigneten Data Mining-Verfahren werden auf die Daten angewendet und ihre Parameter optimiert. In der Regel gibt es mehrere passende Verfahren (mit mehreren möglichen Parameterkombinationen) für die konkrete Aufgabenstellung, häufig mit jeweils unterschiedlichen Voraussetzungen, weshalb die dritte Phase und auch diese ggfs. mehrmals durchlaufen werden muss. Am Ende sollte ein Ranking der verwendeten Modelle stehen. - Evaluation
Aus den Erkenntnissen der vierten Phase wird das Modell gebildet, welches die Aufgabenstellung am besten erfüllt. Die einzelnen Schritte zur Modellgewinnung werden nochmals detailliert auf ihre Korrektheit im Sinne der Aufgabenstellung geprüft und das endgültige Modell genauestens getestet. Es darf keinen außer Acht gelassenen Aspekt der Aufgabenstellung geben. Am Ende dieser Phase sollte Übereinstimmung über die Verwendbarkeit der Ergebnisse erzielt sein. - Deployment
Die gewonnenen Erkenntnisse werden so geordnet und präsentiert, dass die Ziele aus Sicht des Auftraggebers erfüllt sind. Dies kann von der einfachen Erstellung eines Berichts bis zur Integration eines Modells in einen Entscheidungsprozess des Auftraggebers reichen oder sogar in einen fest installierten, sich wiederholenden Data Mining-Prozess seitens des Auftraggebers.
Literatur
- Kapitel 3 aus: R. Otte, V. Otte, V. Kaiser: Data Mining für die industrielle Praxis. Hanser, München 2004, ISBN 3-446-22465-3
- Business Understanding
Wikimedia Foundation.