Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum
Software
Links | Kommentare

Übersicht/Evaluation

Generell können die analysierten Lösungen in zwei Gruppen unterteilt werden: Anbieter, die sich auf bestimmte Text Mining Funktionalitäten spezialisieren und Anbieter, die umfassende „Business Intelligence“ bzw. IR Lösungen durch Texttechnologien erweitern. Autonomy, Clarabridge, Clearforest, Convera, Inxight, Nstein und SAS bieten umfassende Content Management bzw. Business Intelligence Lösungen. Leximancer, MediaStyle, Megaputer, NetOWL, TEMIS, Visísimo, SPSS, Wordmap, bieten hauptsächlich Text Mining Funktionalitäten.

Feature vorhanden teilweise vorhanden nicht vorhanden
Retrieval+ bietet konzept-basiertes IR nur boolesches Retrieval Keine Volltextsuche
Crawler Vorhandensein eines Web-Crawlers Anbindung von einzelnen Webseiten Keine Web-Quellen
Concept Linkage Entdeckung und Verknüpfung gemeinsamer Konzepte in verschiedenen Dokumenten / Keine Verknüpfung von Konzepten
Zusammenfassen Zusammenfassung mehrerer Texte Zusammenfassung einzelner Texte Keine Zusammenfassung
Semantisches Wissen Erweiterung und Personalisierung von Taxonomien, Thesauren oder Ontologien Verwendung von vordefiniertem Hintergrundwissen Kein Hintergrundwissen
Klassifikation neue Dokumente werden automatisch vordefinierten Kategorien zugeordnet / Keine Klassifizierung
Clustern Dokumente werden in nicht-vordefinierte, vom System automatisch gefundene Kategorien bzw. Gruppen eingeordnet / Kein Clustering
IE eigene Regeln oder annotierte Trainingsdaten und personalisierte Entitäten werden unterstützt vordefinierte Entitäten können extrahiert werden Keine IE Funktionen
Topic Tracking automatische Benachrichtigung/Verfolgung von Neuigkeiten und Veränderungen in den Daten / Keine automatische Themenverfolgung
Visualisierung mindestens 2 verschiedene Möglichkeiten textuelle Daten zu visualisieren Nur eine Visualisierungsmöglichkeit Keine Visualisierung
Freie Abfragen Abfragen in „natürlicher“ Sprache werden unterstützt / Keine derartige Funktionalität
Übersetzen Dokumente und Abfragen können übersetzt werden. Dokumente können übersetzt werden Keine Übersetzung
Demo Installierbare Demoversion Nur online abrufbar Keine Demoversion

Die einzelnen Lösungen werden anhand dieser Kriterien ausgewertet und es werden daraus Empfehlungen für die Eignung der verschiedenen Lösungen abgeleitet.

Hier gelangen sie zur Evaluationstabelle der einzelnen Text Mining / Web Mining Produkte, ausgewertet nach den oben stehenden Kriterien.
Hier gelangen sie zur Evaluation und Markübersicht der Text Mining Software.


Zusammenfassend kann festgehalten werden: NStein bietet die umfassendste Lösung und als einziger Anbieter „Sentiment Detection“.
Media Style ist für Web Mining gut geeignet, biete aber kein Topic Tracking.
Wordmap ist eine gute Einzellösung für die Kategorisierung.
Vivisimo ist für das Clustern von Webdokumenten einer bestehenden Datenbasis geeignet.
NetOWL bietet einen guten Kompromiss zwischen IE und automatischer Zusammenfassung.
Leximancer ist ein gutes visuelles Explorationstool.
Convera bietet (Web) IR in Verbindung mit soliden Visualisierungstechniken.
Autonomy bietet eine umfassende Lösung, jedoch ohne (automatische) Web-Anbindung.
Clarabridge eignet sich, um auf einem vorhanden Content Management / Business Intelligence System aufzusetzen.
Megaputer eignet sich zum Rezipieren und Zusammenfassen großer Textbestände.
SPSS bietet umfassende Statistikfunktionalitäten und klassische Data Mining Methoden.
Temis/SAS sind die „Allrounder“ der Analyse.
Inxight hebt sich durch ein breites Spektrum an Dateiformaten, die breite Sprachunterstützung und Web Topic Tracking ab.



Auffallend bei der Analyse (vergleiche dazu die Evaluations-Tabelle) ist die Tatsache, dass nur ein Anbieter (NStein) Funktionen zum Übersetzten anbietet. Dies wäre allerdings für ein sprach-unabhängiges IR sehr hilfreich und würde die effektive Vollständigkeit einer Suche verbessern, weil Dokumente in verschiedenen Sprachen gefunden und gelesen werden können. Abfragen in natürlicher Sprache werden auch nur von drei Anbietern unterstützt: Autonomy, Megaputer und NStein. Durch die angekündigte Zusammenarbeit von Inxight und Clarabridge sind signifikante Synergieeffekte zu erwarten (http://www.kmworld.com/Articles/ReadArticle.aspx?ArticleID=15516). Inxight stellt eine umfassende Lösung bereit, die praktisch alle für die Analyse relevanten Aufgaben meistert und viel versprechende Visualisierungstechniken anbietet und Clarabridge ist ideal zur Integration in ein bestehendes System. Die Tatsache, dass nur Convera und Media Style von den 15 untersuchten Lösungen einen Web Crawler zur Verfügung stellt, bestärkt die Vorgehensweise in dieser Arbeit fokussierte Web Crawler zur Sammlung von (relevanten) Web Dokumenten getrennt zu analysieren. Einige Lösungen erlauben zwar das manuelle Selektieren von Web Seiten, die Integration eines fokussierten Web Crawlers könnte jedoch ein attraktives Feature sein und einen neuen Datenbestand schaffen, bestehende Systeme mit Web Daten anreichern und Markt- und Konkurrenzanalysen im Web effektiver und effizienter machen. Mit dem „Nsentiment“ Modul bietet NStein als einziger Anbieter eine Lösung, die neben Fakten und Informationen auch subjektive Meinungen und Polaritäten aus den Texten zu extrahiert. NStein ist deshalb als Vorreiter und Marktführer für eine aktuelle Strömung im Text Mining zu sehen. Im Artikel Sentiment Detection wird dazu ein Ausblick auf das sog. „Sentiment Detection“ gegeben, das eine Polaritätsanalyse bzw. die Deutung der Meinung des Verfassers eines Textes ermöglicht.