Den Prozess des Text Mining beschreiben Hippner & Rentzmann (2006, S.287-288) als iterativ und unterteilen ihn in 6 Schritte:
Alternativ dazu beschreiben Gao, Chang und Han (2005, S. 114) folgende Schritte zur Erreichung der Ziele des Text Mining innerhalb eines „Business Intelligence Systems“:
Aus dieser Sicht wird eine konkrete Problemstellung erst nach der Sammlung und Vorverarbeitung der Dokumente formuliert. Dabei ist zu beachten, dass die Daten bzw. Dokumente in einem Document Warehouse bereits aufbereitet und als relevant (für das Unternehmen) einzustufen sind (vgl. Gao, Chang und Han, 2005, S. 111-112).
Für die Anwendung von Text Mining auf die Inhalte des Webs (vgl. Kapitel Web Mining) ist es sinnvoll (und in der Praxis notwendig) die Problemstellung im ersten Schritt zu formulieren, da relevante Dokumente erst ausfindig gemacht werden müssen.
Die Aufgabendefinition eines Text Mining Projekts sollte ein abgrenzbares betriebswirtschaftliches Problem sein. Tendenziell textorientierte betriebliche Aufgaben sind z.B. Marktforschung, Wettbewerberanalysen oder Kundenbeziehungsmanagement. Diese bieten vielfältige Einsatzmöglichkeiten für Text Mining (vgl. Spiliopoulou und Winkler, 2002, S. 118).
Der zweite Schritt ist die Auswahl potentiell inhaltlich relevanter Dokumente. Hierbei kann ein sog. „Document Warehouse“, das Zugriff auf verschiedene Dokumenttypen aus verschiedenen Quellen anbietet, von Nutzen sein (vgl. Hippner und Rentzmann, 2006, S. 288). Für die Sammlung von Dokumenten im Web bieten sich – neben dem manuellen selektieren von Textarchiven – Schnittstellen zu Suchmaschinen oder ein Web Crawler an. Der Zugriff auf den Index der Suchmaschinen ist jedoch limitiert, ein fokussierter Web Crawler ist als Werkzeug zur Identifikation von thematisch relevanten Dokumenten zu bevorzugen (vgl. Kapitel Information Retrieval im Web).
Die Aufbereitung der Dokumente ist der dritte Schritt im Text Mining Prozess und hat das Ziel, Merkmale aus den Dokumenten zu extrahieren, die dann zur Repräsentation der Dokumente dienen.
Im folgenden Abschnitt wird erarbeitet, welches Hintergrundwissen bzw. welche Modelle der Wissensrepräsentation dafür von Nutzen sein können und welche linguistischen Analysen durchgeführt werden können, um unstrukturierte Textbestände in eine strukturierte Form zu überführen.
Erfahren Sie mehr über die Dokumentaufbereitung für das Text Mining.