Aufgaben des Text Mining - topic tracking, summarization, categorization, clustering, concept linkage, information visualization und question answering

Text Mining Aufgaben

Text Mining wird, wie erwähnt, von verschiedenen Forschungsgebieten beeinflusst und der Hauptunterschied zum Data Mining ist die Datenbasis. Während Data Mining in stark strukturierten Daten nach neuartigen Zusammenhängen und Trends sucht, müssen die schwach bzw. unstrukturierten Daten (Fließtexte) beim Text Mining in eine strukturierte Form gebracht werden (vgl. Weiss et. al, 2005, S. 3-6).
Vorraussetzung dafür ist eine strukturelle und linguistische Analyse der Texte. Hintergrundwissen ist notwendig, das in Form von Wörterbüchern, Wortlisten oder Ontologien zur Automatisierung der linguistischen Analyse bereitgestellt werden muss. Dieses Wissen ist für jede Sprache und teils für den jeweiligen Anwendungszweck neu zu erstellen. Gegenstand derzeitiger Forschung ist die Wiederverwendbarkeit bzw. Portabilität dieser Hintergrundinformationen zu erhöhen (Hippner & Rentzmann, 2006).
Die analysierten Textbestände bilden die Grundlage auf denen Text Mining Verfahren aufbauen. Diese sollen in Texten implizit vorhandene Informationen explizit machen und Beziehungen zwischen Informationen verschiedener Texte sichtbar machen.

In den Bereichen IE, „topic tracking“, „summarization“, „categorization“, „clustering“, „concept linkage“, „information visualization“ und „question answering“ können Computerprogramme bereits heute gute Ergebnisse erzielen. Dieser Abschnitt stützt sich weitgehend auf Fan et. al (2005) und beschreibt die häufigsten Anwendungsbereiche des Text Mining:

Informationsextraktion

Die meisten Text Mining Tools bieten eine Funktion zur Extrahierung von Informationen aus Texten an. Diese Technik ermöglicht das automatische Auffinden und Extrahieren von Schlüsselinformationen. Beispielsweise können aus einer Meldung Informationen wie Zeitpunkt, Ort und Personen gewonnen und in einen neuen Zusammenhang gebracht werden.
Lesen Sie hier weiter wenn Sie sich für Informationsextraktion interessieren.

Topic Tracking (Themen Verfolgung)

Unter anderem bieten Yahoo (www.alerts.yahoo.com) und Google (http://www.google.de/alerts) frei verfügbare Topic Tracking Tools an. Der Benutzer gibt bestimmte Schlüsselwörter ein und wird dann über neue Informationen im Web benachrichtigt. Diese Technologie ermöglicht beispielsweise einem Unternehmen Informationen über seine Marke(n), seine Produkte, Konkurrenten, oder ein anderes Thema von Interesse zu filtern und übersichtlich aufzulisten.

Zusammenfassen (Summarization)

Das Ziel ist die automatische Zusammenfassung von (langen oder mehreren) Texten, um dem Leser einen schnellen Überblick zu geben, welches die Hauptaussagen eines Textes sind. Ein Ansatz versucht jeden Satz statistisch zu gewichten und die wichtigsten Sätze zu extrahieren. Oder es wird nach Schlüsselsätzen und –Wörtern gesucht, z.B. „zusammenfassend“, „die wichtigsten Punkte“, „daraus folgt“ etc., die üblicherweise die Hauptaussage eines Textes einleiten. Ein einfaches Beispiel ist die Auto-Zusammenfassen Funktion in Microsoft Word.

Kategorisieren (Categorize)

Ein Dokument wird durch die inhaltliche Analyse einer Kategorie zugeordnet. Dazu werden Beispieldokumente als Trainingsbasis verwendet. Neue Dokumente werden mit dem sog. Klassifizierer „verglichen“ und anschließend kategorisiert. Häufig basiert die Kategorisierung auf einem Thesaurus das Themen vordefiniert und Zusammenhänge über Synonyme und verwandte Begriffe herstellt.

Clusterbildung (Clustering)

Beim „Clustering“ wird eine Sammlung von Dokumenten kategorisiert bzw. in sog. Cluster unterteilt. Im Unterschied zum Kategorisieren erfolgt dieser Vorgang vollautomatisch, ohne vorher Kategorien zu definieren. Die Dokumente werden gewichtet und können auch mehreren Clustern zugeordnet werden.

Concept Linkage (deutsch etwa „Themen-Verbindung“)

Durch “concept linkage” werden verwandte Dokumente durch Auffinden gemeinsamer Themen miteinander verbunden und Zusammenhänge hergestellt, die mit herkömmlichen Forschungsmethoden nur schwer zu erkennen gewesen wären. Beispielsweise wird ein Zusammenhang der Konzepte „Migräne“ und „Depression“ festgestellt, sowie ein Zusammenhang zwischen „Depression“ und „Magnesiummangel“. Dass es einen Zusammenhang von „Migräne“ und „Magnesiummangel“ gibt, hätte ein Mensch bei großen Datenmengen leicht übersehen, im Rahmen eines Text Mining Prozess konnte dieser Zusammenhang jedoch erkannt werden (vgl. Gao, Chang und Han, 2005, S. 114).

Informationsvisualisierung (Information Visualizing)

Visual text mining stellt große Textbestände in einer visuellen Hierarchie oder Landkarte dar und ermöglicht das „forsten“ nach Informationen. Der Benutzer interagiert und kann die Karte zoomen, skalieren und Unterkarten erstellen. Nützlich ist dieses Konzept bei einem großen Sortiment von Dokumenten, um entsprechende Themengebiete und deren Zusammenhang visuell und übersichtlich zu erfassen.

Frage-Antwort-Systeme (Question Answering)

Die Beantwortung von Fragen, die in natürlicher Sprache gestellt werden, ist ein weiteres Anwendungsgebiet von Text Mining. Dabei werden verschiedene Text Mining Technologien kombiniert eingesetzt, wie z.B. IR, um Entitäten wie Personen, Orte und Jahreszahlen zu differenzieren; oder Kategorisieren, um Fragen einem bestimmten Typ zuzuordnen. Das Massachusetts Institute of Technology (MIT) hat seit 1993 ein solches System online: START (SynTactic Analysis using Reversible Transformations).

Lesen Sie weiter: Szenario und Komponenten einer Informationsextraktion, Visualisierungstechniken, Web Mining.

Oder springen Sie zur Übersicht der Text Mining Software