Text Mining - Definition
In Anlehnung an Data Mining bzw. KDD ist Text Mining (dt. „Textschürfung“) der nicht triviale Prozess der Wissensentdeckung in textuellen Daten bzw. eine zielorientierte Form der Textanalyse, die eine effektive und effiziente Nutzung verfügbarer Textarchive ermöglicht (Spiliopoulou und Winkler, 2002, S. 117).
Das „schürfen“ in den Textbeständen zielt darauf ab, neues, nicht-triviales, interessantes und wirtschaftlich verwertbares Wissen, sowie Beziehungen zwischen Texten und Textfragmenten zu entdecken (Spiliopoulou und Winkler, 2002, S. 117).
Gao, Chang und Han (2005, S. 113) bezeichnen Text Mining als „art and technology“ zur Extraktion von Informationen und Wissen aus Dokumentkollektionen. Dies legt nahe, dass sowohl die Ergebnisse als auch die Anwendung des Text Mining nicht-trivialen Charakter haben.
"Text Mining is the art and technology of extraction information and knowledge from text collections stored in the structured repository, document warehouse, for conducting text mining and related business intelligence operations." (Gao, Chang und Han, 2005, S. 113)
Neben der Bezeichnung Text Mining finden sich in der Literatur die Begriffe „Text Data Mining“, „Textual Data Mining“, „Text Knowledge Engineering“, „Knowledge discovery in Texts“ und „Knowledge Discovery in Textual Databases“. Dieser Problematik der einheitlichen Definition des Text Mining Begriffs entgegnen Mehler & Wolff (2005, S. 2-5) mit vier Sichten auf das Text Mining:
- IR Perspektive: Verbesserung des IR durch Textzusammenfassung und Informationsextraktion
- Data Mining-Pespektive: TM als „Data Mining auf textuelle Daten“, Exploration von (interpretationsbedürftigen) Daten aus Texten.
- Methodische Perspektive: TM als „eine Menge von Methoden zur (halb-)automatischen Auswertung großer Mengen natürlich sprachlicher Texte“
- Wissensorientierte Perspektive: Abgrenzung der korpusanalytischen Computerlinguistik und des inhaltsbasierten IR vom Text Mining. TM als textbasierte Datenanalyse zur Exploration von „bisher unbekannter“, „nie zuvor gesehenen“ Information (vgl. Mehler & Wolff, 2005, S. 4).
Aus diesen entwickeln sie zwei Grundpositionen bestehender Text Mining-Ansätze:
- Methodenorientierte Ansatz: Im Zentrum steht die Feststellung der methodischen Unselbständigkeit des Text Mining. Als Sammelbegriff werden unter TM vielfältige Textanalysemethoden subsumiert. Die Explorationslast liegt auf der Seite des Rezipienten, der relevante Zusammenhänge effizienter entdecken oder auch nur identifizieren kann.
- Wissensorientierter Ansatz: Die Explorationslast liegt auf der Seite des Text Mining-Systems. Ein Beispiel sind die Versuche zum automatischen Aufbau von Ontologien. Es stellt sich die Frage ob hier ein unlösbarer Anspruch vorliegt wenn man TM als explorative Textdatenanalyse betrachtet. Zudem existieren kaum massendatentaugliche Anwendungen, die den Ansprüchen eines „künstlich intelligenten“ TM-Systems genügen (vgl. Mehler & Wolff, 2005, S. 5-7).
Umfassender kann Text Mining als
ein Prozess der Zusammenstellung, Organisation und Analyse großer Dokumentsammlungen zur bedarfsgerechten Distribution von Informationen an Entscheidungsträger und der Entdeckung versteckter Beziehungen zwischen Texten und Textfragmenten gesehen werden (vgl. Spiliopoulou und Winkler, 2002, S. 117).
Weiterlesen: Text Mining VS. Data Mining