Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum
Software
Links | Kommentare

Marktübersicht / Evaluation / Software Analyse

Die einzelnen Lösungen wurden anhand dieser Kriterien ausgewertet.
Die Analyse zeigt Stärken und Schwächen der untersuchten Lösungen. Durch die unterschiedliche Zielstellung der diversen Anbieter ist ein direkter Vergleich nicht angebracht. Aus der Evaluierung werden Empfehlungen abgeleitet, für welchen Einsatzzweck eine Lösung geeignet ist. Abschließend werden einige Auffälligkeiten erörtert und generelle Schwächen bzw. Verbesserungsmöglichkeiten herausgearbeitet.

Generell können die analysierten Lösungen in Anbieter, die sich auf bestimmte Text Mining Funktionalitäten spezialisieren und Anbieter, die umfassende „Business Intelligence“ bzw. IR Lösungen durch Texttechnologien erweitern unterteilt werden. Umfassende Content Management bzw. Business Intelligence Lösungen bieten Autonomy, Clarabridge, Clearforest, Convera, Inxight, Nstein und SAS an.
Leximancer, MediaStyle, Megaputer, NetOWL, TEMIS, Visísimo, SPSS, Wordmap, bieten hauptsächlich Software an, die einzelne Text Mining Funktionalitäten ermöglichen.

Hier erhalten Sie mehr Informationen zu den Text Mining Anbietern und Produkten



Autonomy bietet ein mächtiges System an und ist für den Einsatz in Großunternehmen und Konzernen konzipiert. Neben Text werden auch Audio-Daten durch die angebotenen Funktionalitäten zugänglich gemacht. „Meaning Based Computing“ bezieht sich dabei nicht auf die Erfassung einer Meinung bzw. Polarität einer Aussage in den Inhalten, sondern auf die automatische Extraktion von Konzepten und Erkennung des Kontexts. Abgesehen von einem Web Crawler und einer Funktion zum Übersetzten bietet Autonomy mit dem IDOL Server neben Anbieter NStein die umfassendste Lösung.
Clarabridge spezialisiert sich mit der „Content Mining Plattform“ auf eine Business Intelligence Lösung die Texte in strukturierte Daten umwandelt. Aus der Data Mining Perspektive ist das Angebot umfassend: Multi-dimensionale Analysen, Zeit-Serien Analysen, Warenkorb- und Abweichungsanalysen. Einzigartig ist, dass auch Bilder „interpretiert“ werden.
Clearforest bietet mit der Text Analysis Platform eine Erweiterung für Business Intelligence und Content Management Systeme. Verschiedene graphische Darstellungen zeichnen das Angebot aus. Zur Informationsextraktion und Visuellen Datenexploration ist das Produkt dann geeignet, wenn auf ein bestehendes System aufgesetzt wird.
Converas „Retrieval Ware 8“ ist ein erweitertes IR System. Der Schwerpunkt liegt auf den Funktionalitäten für konzept-basiertes Retrieval und ist durch den vorhanden Web Crawler eine gute Lösung zur Wissensgewinnung im Web bzw. ein „echtes“ Web Mining System.
Inxight bietet mit dem SDX ein umfassendes, flexibles und erweiterbares IE-System. Die Unterstützung von mehr als 30 Sprachen und 220 Dateitypen bleibt unerreicht. Der „Awareness Server“ ist eine Topic Tracking Lösung die auch für das Web eingesetzt werden kann. „Startree“ bietet mehrere Visualisierungsmöglichkeiten. Für die Kombination IE, Topic Tracking und Visualisierung ist Inxight die erste Wahl.
Media Style bietet ein IR System mit Text Mining Funktionalitäten. Konzept-basiertes IR, IE und ein Visualisierungswerkzeug zeichnen das Angebot aus und der vorhandene Web Crawler machen Media Style zum besten Web Content Mining Anbieter.

Nstein bietet eine IR Lösung und ein erweitertes Content Management System. Das „Ntelligent Enterprise Search“ IR System ist umfassend und bietet alle Funktionalitäten. Schwächen gegenüber anderen Anbietern sind in der IE Komponente zu sehen. Einzigartig ist die Topic Tracking und PIM Funktionalität: NStein bietet eine Lösung, die in Texten die Meinung des Verfassers bzw. die Polarität eines Textes erkennt. Dafür ist Nstein als Anbieter erste Wahl. Hinzu kommt die Möglichkeit Abfragen in „natürlicher“ Sprache zu formulieren und eine Funktion zum Übersetzen von Texten. Erwähnenswert ist die Linguistic DNA (LDNA) Technologie von NStein, die statistische und computerlinguistische Verfahren kombiniert anwendet und – so die Annahmen –die jedem Text zugrunde liegende einzigartige Charakteristika extrahiert. Die „Ntelligent Enterprise Search“ Lösung implementiert u.a. eine viel versprechende Technik zum konzeptbasierten IR.
SAS bietet eine Solide Text Mining Komplettlösung, die sich durch Ausgewogenheit der verschiedenen Komponenten auszeichnet. Funktionen für Topic Tracking und Zusammenfassen sind nicht integriert. Davon abgesehen: eine Allroundlösung.
Leximancer ermöglicht Themen und Konzepte einer Dokumentsammlung automatisch zu erkennen. Die Visualisierung durch die interaktive „Konzept Map“ erlaubt eine visuelle Exploration der Daten.
Megaputer bietet mit dem Textanalyst eine einzigartige Funktionalität: das automatische Zusammenfassen von großen Textbeständen bzw. mehreren Dokumenten. Für die schnelle Rezeption großer Textmengen ist der Textanalyst empfehlenswert.
NewOWL bietet mit dem Text Miner eine Lösung, die sich durch eine breite Unterstützung von Dokumenttypen und die Kompatibilität zu allen gängigen Plattformen auszeichnet. Sind vor allem IE Funktionalitäten und themenbasierte Textzusammenfassung im Vordergrund ist der Text Miner die richtige Wahl und bietet zudem Volltextsuche und Visualisierungsmöglichkeiten. TEMIS bietet drei Text Mining Komponenten an, um bestehende Systeme zu erweitern bzw. zu ergänzen. Für bestehende IR Systeme sind diese (IE, Clustering und Kategorisierung) eine gute Erweiterungsmöglichkeit.
Visísimo spezialisiert sich auf Clustering von (Web-) Dokumenten. Die clusty Suchmaschine (www.clusty.com) zeigt eindrucksvoll das Potential dieses Produkts. Zur Integration in bestehende Lösungen bzw. zum Clustern von Webdokumenten die beste Lösung. Wordmap hat sich auf die Kategorisierung von Dokumenten spezialisiert. Zu einer Suchabfrage werden verwandte Kategorien angezeigt und können kontextabhängig fokussiert werden. Diese Lösung ist Vivísimos Clustering Engine vorzuziehen, wenn man auf die (oft fehlerhafte und irreführende) automatische Gruppierung von Dokumenten verzichtet und Dokumente mit hoher Präzision in eine vorhandene Taxonomie einordnen will.
SPSS bietet aus der Data Mining Sicht die beste Lösung. Durch das vorhandene Know-how aus dem Bereich Statistik sind die Tools von SPSS für tiefgründige (Text-)Datenanalysen eine viel versprechende Lösung. Besonderheit ist die „Text Analysis for Surverys“ Komponente, die Antworten von offenen Fragestellungen analysiert. Für die Lösung der im Anwendungsszenario beschriebenen Aufgaben können die Anbieter Autonomy, Inxight und NStein empfohlen werden. Diese bieten ein umfassendes Angebot an Text Mining Funktionalitäten.

Hier gelangen sie zur Evaluationstabelle der einzelnen Text Mining / Web Mining Produkte, ausgewertet nach den oben stehenden Kriterien.
Hier gelangen sie zur Übersicht der Evaluationskriterien und der Zusammanfassung der einzelnen Text Mining / Web Mining Produkte