Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum
Text Mining
Links | Kommentare

Text Mining VS Data Mining

Der zentrale Unterschied zwischen Text- und Data Mining (bzw. KDD) ist die zugrunde liegende Datenbasis (vgl. Weiss et. al, 2005, S. 2ff). Die Daten bzw. Attribute können nicht in einer Datenbank ausgewählt werden, sondern die Texte müssen vor der Auswahl in ein strukturiertes Format übertragen werden.

Darstellung: Vergleich von Text- und Data Mining Prozess; Quelle: eigene Darstellung

Typische Data Mining Anwendungen arbeiten auf Basis strukturierter Informationen. Die Daten werden ausgewählt, vorverarbeitet und/oder transformiert, sofern sie nicht schon angemessen extrahiert wurden (z.B. aus einer Datenbank oder einem Data Warehouse) (vgl. Weiss et. al, S. 2).
Texte können, wie bereits erwähnt, in freier, strukturierter oder halb-strukturierter Form vorliegen.
Grundlegende Unterscheidung zwischen Text und Data Mining ist also – wie vom Begriff bereits suggeriert – „Text vs. Zahlen“ (vgl. Weiss et. al, 2005, S. 2). Dennoch unterscheiden sich die verwendeten Methoden grundsätzlich nicht. Um sie anwendbar zu machen müssen die Texte in eine numerische Form transformiert bzw. quantifizierbare Merkmale extrahiert werden (vgl. Spiliopoulou und Winkler, 2002, S. 118).

Weiter zum Text Mining Prozess!