Definition: Data Mining und Knowledge Discovery in Databases

Der Begriff KDD kann als „Wissensentdeckung in Datenbanken“ übersetzt werden und ist definiert als „der nichttriviale Prozess der Identifizierung gültiger, neuer, potentiell nützlicher und schlussendlich verständlicher Muster in (großen) Datenbeständen“ (vgl. Görz, Rollinger und Schneeberger, 2000 zitiert nach: Fayyad et. al 1996)

Die Abgrenzung von reinen Datenbankabfragen oder Statistiken erfolgt durch den Begriff „nichttrivial“, die Forderung nach neuem und potentiell nützlichem Wissen verlangt dass die Erkenntnisse „interessant“ sind bzw. nicht vorhersehbare Muster aufzeigen, die für Entscheidungsträger nützlich sind (vgl. Alpar und Niederreichholz, 2000, S. 4).
Dieser Definition nach ist Data Mining der eigentliche Analyseschritt bzw. „die Anwendung spezifischer Algorithmen zur Extraktion von Mustern aus Datenbeständen.“ (vgl. Alpar, Niederreichholz, 2000, S. 4 zitiert nach: Fayyad et al 1996)
In der Praxis und im kommerziellen Bereich etablierte sich der Begriff Data Mining für den gesamten KDD Prozess, weshalb nachfolgend beide Begriffe weitgehend synonym verwendet werden. Auch im Deutschen wird der Begriff „Wissensentdeckung“ und Data Mining weitgehend synonym verwendet (vgl. Alpar, Niederreichholz, 2000, S. 4-5; Görz, Rollinger und Schneeberger, 2000, S. 6). Im engeren Sinn bezieht sich also Data Mining auf die „eigentliche“ Mustererkennung innerhalb des gesamten Data Mining- bzw. KDD-Prozess. In dieser Arbeit werden die beiden Begriffe, sofern nicht explizit angemerkt, synonym behandelt.

Explorationslast

Die Vision des Data Mining verstecktes, valides, nützliches und handlungsrelevantes Wissen aus vorhandenen Datenbeständen zu gewinnen ist mit der Tatsache zu konfrontieren, dass einem Data Mining Projekt in der Praxis eine konkrete betriebswirtschaftliche Problemstellung vorausgeht (vgl. Hippner, Merzenich und Wilde, 2002, S. 10). Es werden Hypothesen über die Daten bzw. Datenmuster aufgestellt und anschließend zielgerichtet evaluiert. Der zeitliche Hauptaufwand des Data Mining liegt in der Vorverarbeitung der Daten. Die Explorationslast liegt letztlich beim Benutzer, der die Ergebnisse der Data Mining Algorithmen interpretieren und evaluieren muss. Mit dem Einsatz von Visualisierungstechniken sinkt die Anforderung an eine klare Zielstellung. Die Daten lassen sich visuell explorieren und nach (visuellen) Mustern durchsuchen. Dadurch lassen sich Hypothesen zur Beschaffenheit der Daten(muster) aufstellen. Die Analyse von Text- und Hypertext mit Data Mining Methoden und die Anwendungen für das Web werden in den beiden Kapiteln Text Mining und Web Mining behandelt.

Weiter zu den einzelnen Prozessschritten des Data Mining bzw. KDD