Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum

Artikel
Sentiment Detection
Semantic Web 2.0?
Text Mining Praxis
Links | Kommentare

Sentiment Detection: Erfassung der Polarität einer Aussage

Das „Semantic Web“ (vgl. Berners-Lee, Hendler und Lassila, 2001) ist eine komplexe und technologiezentrierte Spezifikation für ein maschinenlesbares Web. Im universitären Bereich wird intensiv in diesem Bereich geforscht, zentrales Problem ist dabei, dass Entwickler hauptsächlich an Einzellösungen und Prototypen arbeiten und isolierte Ontologien entwickeln. Für klar abgegrenzte Domänen, wie z.B. die Bioinformatik oder medizinische Informatik haben sich die Konzepte des „Semantic Web“ jedoch bereits bewährt (vgl. Ziegler, 2006c, S. 56ff).

Dagegen ist das Web 2.0 (vgl. O’Reilly, 2005) ein anarchistisches Konzept das bereits von einer breiten Masse akzeptiert ist und durch das sog. „tagging“ eine demokratische Lösung für das Problem der einheitlichen Verwendung von Metainformationen bringt. Die sog. „Folksonomy“ ist ein pragmatischer, benutzerzentrierter Ansatz zur Wissensrepräsentation des „Web 2.0“ (vgl. dazu Darst. 11, „Semantische Treppe“). Eine Sammlung von beliebigen Schlüsselwörtern (tags), die von den Benutzern den Themen zugeordnet werden stehen im Gegensatz zu aufwendig erstellten Ontologien und haben sich in der Praxis bereits bewährt (vgl. Ziegler, 2006c, S. 58).
Text Mining könnte durch die Verwendung dieser zusätzlichen Meta-Informationen in vielen Bereichen profitieren. Ein Beleg dafür ist die aus dem Web 2.0 bekannte „tag cloud“, die häufig verwendete Schlüsselwörter (tags) eines Textes oder einer Textsammlung geschlossen darstellt, wobei größere Formatierung einer stärkeren Verwendungsfrequenz entspricht und zentrale Themen dadurch visuell hervorhebt. Dies ist als effizientes Werkzeug zur visuellen Exploration anzusehen. Ein Paradebeispiel ist die Analyse amerikanischer Präsidentenreden im Zeitraum 1766-2001 (vgl. http://chir.ag/phernalia/preztags/). Häufig angesprochene Themen können interaktiv in einer Zeitleiste untersucht bzw. erkannt werden.

Auch wenn die Zukunft des Webs erweiterte Auszeichnungssprachen und eine komplexe Metadaten-Infrastruktur zur Verfügung stellt, wird nach persönlicheA?r Meinung des Autors immer der Bedarf bestehen, freie Texte zu analysieren und latentes Wissen zu gewinnen.

Übersicht