Evaluation von Text Mining Software Tools

Übersicht/Evaluation

Generell können die analysierten Lösungen in zwei Gruppen unterteilt werden: Anbieter, die sich auf bestimmte Text Mining Funktionalitäten spezialisieren und Anbieter, die umfassende „Business Intelligence“ bzw. IR Lösungen durch Texttechnologien erweitern. Autonomy, Clarabridge, Clearforest, Convera, Inxight, Nstein und SAS bieten umfassende Content Management bzw. Business Intelligence Lösungen. Leximancer, MediaStyle, Megaputer, NetOWL, TEMIS, Visísimo, SPSS, Wordmap, bieten hauptsächlich Text Mining Funktionalitäten.

Feature	vorhanden	teilweise vorhanden	nicht vorhanden
Retrieval+	bietet konzept-basiertes IR	nur boolesches Retrieval	Keine Volltextsuche
Crawler	Vorhandensein eines Web-Crawlers	Anbindung von einzelnen Webseiten	Keine Web-Quellen
Concept Linkage	Entdeckung und Verknüpfung gemeinsamer Konzepte in verschiedenen Dokumenten	/	Keine Verknüpfung von Konzepten
Zusammenfassen	Zusammenfassung mehrerer Texte	Zusammenfassung einzelner Texte	Keine Zusammenfassung
Semantisches Wissen	Erweiterung und Personalisierung von Taxonomien, Thesauren oder Ontologien	Verwendung von vordefiniertem Hintergrundwissen	Kein Hintergrundwissen
Klassifikation	neue Dokumente werden automatisch vordefinierten Kategorien zugeordnet	/	Keine Klassifizierung
Clustern	Dokumente werden in nicht-vordefinierte, vom System automatisch gefundene Kategorien bzw. Gruppen eingeordnet	/	Kein Clustering
IE	eigene Regeln oder annotierte Trainingsdaten und personalisierte Entitäten werden unterstützt	vordefinierte Entitäten können extrahiert werden	Keine IE Funktionen
Topic Tracking	automatische Benachrichtigung/Verfolgung von Neuigkeiten und Veränderungen in den Daten	/	Keine automatische Themenverfolgung
Visualisierung	mindestens 2 verschiedene Möglichkeiten textuelle Daten zu visualisieren	Nur eine Visualisierungsmöglichkeit	Keine Visualisierung
Freie Abfragen	Abfragen in „natürlicher“ Sprache werden unterstützt	/	Keine derartige Funktionalität
Übersetzen	Dokumente und Abfragen können übersetzt werden.	Dokumente können übersetzt werden	Keine Übersetzung
Demo	Installierbare Demoversion	Nur online abrufbar	Keine Demoversion

Die einzelnen Lösungen werden anhand dieser Kriterien ausgewertet und es werden daraus Empfehlungen für die Eignung der verschiedenen Lösungen abgeleitet.

Hier gelangen sie zur Evaluationstabelle der einzelnen Text Mining / Web Mining Produkte, ausgewertet nach den oben stehenden Kriterien.
Hier gelangen sie zur Evaluation und Markübersicht der Text Mining Software.

Zusammenfassend kann festgehalten werden: NStein bietet die umfassendste Lösung und als einziger Anbieter „Sentiment Detection“.
Media Style ist für Web Mining gut geeignet, biete aber kein Topic Tracking.
Wordmap ist eine gute Einzellösung für die Kategorisierung.
Vivisimo ist für das Clustern von Webdokumenten einer bestehenden Datenbasis geeignet.
NetOWL bietet einen guten Kompromiss zwischen IE und automatischer Zusammenfassung.
Leximancer ist ein gutes visuelles Explorationstool.
Convera bietet (Web) IR in Verbindung mit soliden Visualisierungstechniken.
Autonomy bietet eine umfassende Lösung, jedoch ohne (automatische) Web-Anbindung.
Clarabridge eignet sich, um auf einem vorhanden Content Management / Business Intelligence System aufzusetzen.
Megaputer eignet sich zum Rezipieren und Zusammenfassen großer Textbestände.
SPSS bietet umfassende Statistikfunktionalitäten und klassische Data Mining Methoden.
Temis/SAS sind die „Allrounder“ der Analyse.
Inxight hebt sich durch ein breites Spektrum an Dateiformaten, die breite Sprachunterstützung und Web Topic Tracking ab.

Auffallend bei der Analyse (vergleiche dazu die Evaluations-Tabelle) ist die Tatsache, dass nur ein Anbieter (NStein) Funktionen zum Übersetzten anbietet. Dies wäre allerdings für ein sprach-unabhängiges IR sehr hilfreich und würde die effektive Vollständigkeit einer Suche verbessern, weil Dokumente in verschiedenen Sprachen gefunden und gelesen werden können. Abfragen in natürlicher Sprache werden auch nur von drei Anbietern unterstützt: Autonomy, Megaputer und NStein. Durch die angekündigte Zusammenarbeit von Inxight und Clarabridge sind signifikante Synergieeffekte zu erwarten (http://www.kmworld.com/Articles/ReadArticle.aspx?ArticleID=15516). Inxight stellt eine umfassende Lösung bereit, die praktisch alle für die Analyse relevanten Aufgaben meistert und viel versprechende Visualisierungstechniken anbietet und Clarabridge ist ideal zur Integration in ein bestehendes System. Die Tatsache, dass nur Convera und Media Style von den 15 untersuchten Lösungen einen Web Crawler zur Verfügung stellt, bestärkt die Vorgehensweise in dieser Arbeit fokussierte Web Crawler zur Sammlung von (relevanten) Web Dokumenten getrennt zu analysieren. Einige Lösungen erlauben zwar das manuelle Selektieren von Web Seiten, die Integration eines fokussierten Web Crawlers könnte jedoch ein attraktives Feature sein und einen neuen Datenbestand schaffen, bestehende Systeme mit Web Daten anreichern und Markt- und Konkurrenzanalysen im Web effektiver und effizienter machen. Mit dem „Nsentiment“ Modul bietet NStein als einziger Anbieter eine Lösung, die neben Fakten und Informationen auch subjektive Meinungen und Polaritäten aus den Texten zu extrahiert. NStein ist deshalb als Vorreiter und Marktführer für eine aktuelle Strömung im Text Mining zu sehen. Im Artikel Sentiment Detection wird dazu ein Ausblick auf das sog. „Sentiment Detection“ gegeben, das eine Polaritätsanalyse bzw. die Deutung der Meinung des Verfassers eines Textes ermöglicht.