Feature | vorhanden | teilweise vorhanden | nicht vorhanden |
---|---|---|---|
Retrieval+ | bietet konzept-basiertes IR | nur boolesches Retrieval | Keine Volltextsuche |
Crawler | Vorhandensein eines Web-Crawlers | Anbindung von einzelnen Webseiten | Keine Web-Quellen | Concept Linkage | Entdeckung und Verknüpfung gemeinsamer Konzepte in verschiedenen Dokumenten | / | Keine Verknüpfung von Konzepten |
Zusammenfassen | Zusammenfassung mehrerer Texte | Zusammenfassung einzelner Texte | Keine Zusammenfassung |
Semantisches Wissen | Erweiterung und Personalisierung von Taxonomien, Thesauren oder Ontologien | Verwendung von vordefiniertem Hintergrundwissen | Kein Hintergrundwissen |
Klassifikation | neue Dokumente werden automatisch vordefinierten Kategorien zugeordnet | / | Keine Klassifizierung |
Clustern | Dokumente werden in nicht-vordefinierte, vom System automatisch gefundene Kategorien bzw. Gruppen eingeordnet | / | Kein Clustering |
IE | eigene Regeln oder annotierte Trainingsdaten und personalisierte Entitäten werden unterstützt | vordefinierte Entitäten können extrahiert werden | Keine IE Funktionen |
Topic Tracking | automatische Benachrichtigung/Verfolgung von Neuigkeiten und Veränderungen in den Daten | / | Keine automatische Themenverfolgung |
Visualisierung | mindestens 2 verschiedene Möglichkeiten textuelle Daten zu visualisieren | Nur eine Visualisierungsmöglichkeit | Keine Visualisierung |
Freie Abfragen | Abfragen in „natürlicher“ Sprache werden unterstützt | / | Keine derartige Funktionalität |
Übersetzen | Dokumente und Abfragen können übersetzt werden. | Dokumente können übersetzt werden | Keine Übersetzung |
Demo | Installierbare Demoversion | Nur online abrufbar | Keine Demoversion |
Die einzelnen Lösungen werden anhand dieser Kriterien ausgewertet und es werden daraus Empfehlungen für die Eignung der verschiedenen Lösungen abgeleitet.
Hier gelangen sie zur Evaluationstabelle der einzelnen Text Mining / Web Mining Produkte, ausgewertet nach den oben stehenden Kriterien.
Hier gelangen sie zur Evaluation und Markübersicht der Text Mining Software.
Zusammenfassend kann festgehalten werden:
NStein bietet die umfassendste Lösung und als einziger Anbieter „Sentiment Detection“.
Media Style ist für Web Mining gut geeignet, biete aber kein Topic Tracking.
Wordmap ist eine gute Einzellösung für die Kategorisierung.
Vivisimo ist für das Clustern von Webdokumenten einer bestehenden Datenbasis geeignet.
NetOWL bietet einen guten Kompromiss zwischen IE und automatischer Zusammenfassung.
Leximancer ist ein gutes visuelles Explorationstool.
Convera bietet (Web) IR in Verbindung mit soliden Visualisierungstechniken.
Autonomy bietet eine umfassende Lösung, jedoch ohne (automatische) Web-Anbindung.
Clarabridge eignet sich, um auf einem vorhanden Content Management / Business Intelligence
System aufzusetzen.
Megaputer eignet sich zum Rezipieren und Zusammenfassen großer Textbestände.
SPSS bietet umfassende Statistikfunktionalitäten und klassische Data Mining Methoden.
Temis/SAS sind die „Allrounder“ der Analyse.
Inxight hebt sich durch ein breites Spektrum an Dateiformaten, die breite
Sprachunterstützung und Web Topic Tracking ab.
Auffallend bei der Analyse (vergleiche dazu die Evaluations-Tabelle) ist die Tatsache, dass nur ein Anbieter (NStein) Funktionen zum
Übersetzten anbietet. Dies wäre allerdings für ein sprach-unabhängiges IR sehr hilfreich und
würde die effektive Vollständigkeit einer Suche verbessern, weil Dokumente in verschiedenen
Sprachen gefunden und gelesen werden können.
Abfragen in natürlicher Sprache werden auch nur von drei Anbietern unterstützt: Autonomy,
Megaputer und NStein.
Durch die angekündigte Zusammenarbeit von Inxight und Clarabridge sind signifikante
Synergieeffekte zu erwarten (http://www.kmworld.com/Articles/ReadArticle.aspx?ArticleID=15516).
Inxight stellt eine umfassende Lösung bereit, die praktisch alle für die Analyse relevanten
Aufgaben meistert und viel versprechende Visualisierungstechniken anbietet und Clarabridge ist
ideal zur Integration in ein bestehendes System.
Die Tatsache, dass nur Convera und Media Style von den 15 untersuchten Lösungen einen Web
Crawler zur Verfügung stellt, bestärkt die Vorgehensweise in dieser Arbeit fokussierte Web Crawler zur Sammlung von (relevanten) Web Dokumenten getrennt zu analysieren.
Einige Lösungen erlauben zwar das manuelle Selektieren von Web Seiten, die Integration eines fokussierten Web Crawlers könnte jedoch ein attraktives Feature sein und einen neuen
Datenbestand schaffen, bestehende Systeme mit Web Daten anreichern und Markt- und
Konkurrenzanalysen im Web effektiver und effizienter machen.
Mit dem „Nsentiment“ Modul bietet NStein als einziger Anbieter eine Lösung, die neben Fakten
und Informationen auch subjektive Meinungen und Polaritäten aus den Texten zu extrahiert.
NStein ist deshalb als Vorreiter und Marktführer für eine aktuelle Strömung im Text Mining zu
sehen. Im Artikel Sentiment Detection wird dazu ein Ausblick auf das sog. „Sentiment Detection“ gegeben,
das eine Polaritätsanalyse bzw. die Deutung der Meinung des Verfassers eines Textes ermöglicht.