Die einzelnen Lösungen wurden anhand dieser Kriterien ausgewertet.
Die Analyse zeigt Stärken und Schwächen der untersuchten Lösungen. Durch die
unterschiedliche Zielstellung der diversen Anbieter ist ein direkter Vergleich nicht angebracht. Aus
der Evaluierung werden Empfehlungen abgeleitet, für welchen Einsatzzweck eine Lösung geeignet
ist. Abschließend werden einige Auffälligkeiten erörtert und generelle Schwächen bzw.
Verbesserungsmöglichkeiten herausgearbeitet.
Generell können die analysierten Lösungen in Anbieter, die sich
auf bestimmte Text Mining Funktionalitäten spezialisieren und Anbieter, die umfassende „Business
Intelligence“ bzw. IR Lösungen durch Texttechnologien erweitern unterteilt werden.
Umfassende Content Management bzw. Business Intelligence Lösungen bieten Autonomy, Clarabridge, Clearforest, Convera, Inxight, Nstein und SAS an.
Leximancer, MediaStyle, Megaputer, NetOWL, TEMIS, Visísimo, SPSS, Wordmap, bieten
hauptsächlich Software an, die einzelne Text Mining Funktionalitäten ermöglichen.
Hier erhalten Sie mehr Informationen zu den Text Mining Anbietern und Produkten
Autonomy bietet ein mächtiges System an und ist für den Einsatz in Großunternehmen und
Konzernen konzipiert. Neben Text werden auch Audio-Daten durch die angebotenen
Funktionalitäten zugänglich gemacht. „Meaning Based Computing“ bezieht sich dabei nicht auf die
Erfassung einer Meinung bzw. Polarität einer Aussage in den Inhalten, sondern auf die
automatische Extraktion von Konzepten und Erkennung des Kontexts. Abgesehen von einem Web
Crawler und einer Funktion zum Übersetzten bietet Autonomy mit dem IDOL Server neben
Anbieter NStein die umfassendste Lösung.
Clarabridge spezialisiert sich mit der „Content Mining Plattform“ auf eine Business Intelligence Lösung die Texte in strukturierte Daten umwandelt. Aus der Data Mining Perspektive ist das
Angebot umfassend: Multi-dimensionale Analysen, Zeit-Serien Analysen, Warenkorb- und
Abweichungsanalysen. Einzigartig ist, dass auch Bilder „interpretiert“ werden.
Clearforest bietet mit der Text Analysis Platform eine Erweiterung für Business Intelligence und Content Management Systeme. Verschiedene graphische Darstellungen zeichnen das Angebot
aus. Zur Informationsextraktion und Visuellen Datenexploration ist das Produkt dann geeignet,
wenn auf ein bestehendes System aufgesetzt wird.
Converas „Retrieval Ware 8“ ist ein erweitertes IR System. Der Schwerpunkt liegt auf den
Funktionalitäten für konzept-basiertes Retrieval und ist durch den vorhanden Web Crawler eine
gute Lösung zur Wissensgewinnung im Web bzw. ein „echtes“ Web Mining System.
Inxight bietet mit dem SDX ein umfassendes, flexibles und erweiterbares IE-System. Die
Unterstützung von mehr als 30 Sprachen und 220 Dateitypen bleibt unerreicht. Der „Awareness
Server“ ist eine Topic Tracking Lösung die auch für das Web eingesetzt werden kann. „Startree“
bietet mehrere Visualisierungsmöglichkeiten. Für die Kombination IE, Topic Tracking und
Visualisierung ist Inxight die erste Wahl.
Media Style bietet ein IR System mit Text Mining Funktionalitäten. Konzept-basiertes IR, IE und ein Visualisierungswerkzeug zeichnen das Angebot aus und der vorhandene Web Crawler machen
Media Style zum besten Web Content Mining Anbieter.
Nstein bietet eine IR Lösung und ein erweitertes Content Management System. Das „Ntelligent
Enterprise Search“ IR System ist umfassend und bietet alle Funktionalitäten. Schwächen
gegenüber anderen Anbietern sind in der IE Komponente zu sehen. Einzigartig ist die Topic
Tracking und PIM Funktionalität: NStein bietet eine Lösung, die in Texten die Meinung des
Verfassers bzw. die Polarität eines Textes erkennt. Dafür ist Nstein als Anbieter erste Wahl. Hinzu
kommt die Möglichkeit Abfragen in „natürlicher“ Sprache zu formulieren und eine Funktion zum
Übersetzen von Texten. Erwähnenswert ist die Linguistic DNA (LDNA) Technologie von NStein,
die statistische und computerlinguistische Verfahren kombiniert anwendet und – so die Annahmen
–die jedem Text zugrunde liegende einzigartige Charakteristika extrahiert. Die „Ntelligent
Enterprise Search“ Lösung implementiert u.a. eine viel versprechende Technik zum konzeptbasierten
IR.
SAS bietet eine Solide Text Mining Komplettlösung, die sich durch Ausgewogenheit der
verschiedenen Komponenten auszeichnet. Funktionen für Topic Tracking und Zusammenfassen
sind nicht integriert. Davon abgesehen: eine Allroundlösung.
Leximancer ermöglicht Themen und Konzepte einer Dokumentsammlung automatisch zu
erkennen. Die Visualisierung durch die interaktive „Konzept Map“ erlaubt eine visuelle Exploration
der Daten.
Megaputer bietet mit dem Textanalyst eine einzigartige Funktionalität: das automatische
Zusammenfassen von großen Textbeständen bzw. mehreren Dokumenten. Für die schnelle
Rezeption großer Textmengen ist der Textanalyst empfehlenswert.
NewOWL bietet mit dem Text Miner eine Lösung, die sich durch eine breite Unterstützung von
Dokumenttypen und die Kompatibilität zu allen gängigen Plattformen auszeichnet. Sind vor allem
IE Funktionalitäten und themenbasierte Textzusammenfassung im Vordergrund ist der Text Miner
die richtige Wahl und bietet zudem Volltextsuche und Visualisierungsmöglichkeiten.
TEMIS bietet drei Text Mining Komponenten an, um bestehende Systeme zu erweitern bzw. zu
ergänzen. Für bestehende IR Systeme sind diese (IE, Clustering und Kategorisierung) eine gute
Erweiterungsmöglichkeit.
Visísimo spezialisiert sich auf Clustering von (Web-) Dokumenten. Die clusty Suchmaschine
(www.clusty.com) zeigt eindrucksvoll das Potential dieses Produkts. Zur Integration in bestehende
Lösungen bzw. zum Clustern von Webdokumenten die beste Lösung.
Wordmap hat sich auf die Kategorisierung von Dokumenten spezialisiert. Zu einer Suchabfrage
werden verwandte Kategorien angezeigt und können kontextabhängig fokussiert werden. Diese
Lösung ist Vivísimos Clustering Engine vorzuziehen, wenn man auf die (oft fehlerhafte und
irreführende) automatische Gruppierung von Dokumenten verzichtet und Dokumente mit hoher
Präzision in eine vorhandene Taxonomie einordnen will.
SPSS bietet aus der Data Mining Sicht die beste Lösung. Durch das vorhandene Know-how aus
dem Bereich Statistik sind die Tools von SPSS für tiefgründige (Text-)Datenanalysen eine viel
versprechende Lösung. Besonderheit ist die „Text Analysis for Surverys“ Komponente, die
Antworten von offenen Fragestellungen analysiert.
Für die Lösung der im Anwendungsszenario beschriebenen Aufgaben können die Anbieter
Autonomy, Inxight und NStein empfohlen werden. Diese bieten ein umfassendes Angebot an Text
Mining Funktionalitäten.
Hier gelangen sie zur Evaluationstabelle der einzelnen Text Mining / Web Mining Produkte, ausgewertet nach den oben stehenden Kriterien.
Hier gelangen sie zur Übersicht der Evaluationskriterien und der Zusammanfassung der einzelnen Text Mining / Web Mining Produkte