Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse
| Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen
und Informationsextraktion | > Empowering Business Intelligence.
Die Komplexität und Mehrdeutigkeit der natürlichen Sprache erfordert eine aufwendige Phase der Aufbereitung, um Datenanalysen im Sinne des Data Mining zu erlauben. Die Computerlinguistik beschäftigt sich mit der maschinellen Verarbeitung natürlicher Sprache. Auf Informatik und Linguistik aufbauend haben sich neue und eigenständige Methoden für die maschinelle Verarbeitung geschriebener Sprache entwickelt (vgl. Carstensen et. al, 2004. S.1-2). Nach Selektion der relevanten Textarchive sind die Dokumente zu bereinigen und in eine für die Mustererkennung geeignete Datenstruktur zu überführen. Dazu müssen Terme aus den Texten extrahiert werden, die zur Repräsentation der Dokumente dienen. Die Texte werden morphologisch, syntaktisch und semantisch analysiert. Techniken dazu kommen aus dem Bereich Computerlinguistik und Informationsextraktion (vgl. Hippner & Rentzmann, 2006; Weiss et al, 2005, S. 20-42):
Morphologische Analysen: Untersuchung einzelner Wortformen und sinntragender Wortbestandteile. Dazu gehören:
Syntaktische Analysen: Die Syntax beschäftigt sich mit dem Satzbau oder allgemeiner formuliert mit den Beziehungen zwischen den Zeichen (vgl. Blumauer und Pellegrini, 2003, S. 10). Zur syntaktischen Analyse gehört:
Semantische Analysen: Sie Semantik beschäftigt sich mit Sinn und Bedeutung von Sprache. Dazu wird kontextuelles Wissen (vgl. Abschnitt Hintergrundwissen) verwendet, um den Text in bedeutungsabhängige Einheiten zu zerlegen. Dazu gehört z.B. „Word Sense Disambiguation“ (deutsch etwa „Auflösung der Doppelsinnigkeit von Wörtern“): Wörter können abhängig vom Kontext unterschiedliche Bedeutung haben (z.B. „Bank“ als Geldinstitut oder Sitzmöglichkeit). Ein Wörterbuch erfasst zwar die unterschiedlichen Bedeutungen von Wörtern, ist aber normalerweise nicht für den Einsatz mit Computerprogrammen vorbereitet. Ein Versuch, die Bedeutung im jeweiligen Kontext für Wörter zu bestimmen ist das bereits erwähnte Wordnet Thesaurus (http://wordnet.princeton.edu/). Auch Domänen-Ontologien können eine semantische Analyse unterstützten bzw. ermöglichen.
Lesen Sie weiter über die Methoden des Text Mining.