Text Mining Dokumentaufbereitung: Morphologische, Syntaktische und Semantische Analysen
Die Komplexität und Mehrdeutigkeit der natürlichen Sprache erfordert eine aufwendige Phase der Aufbereitung, um Datenanalysen im Sinne des Data Mining zu erlauben. Die Computerlinguistik beschäftigt sich mit der maschinellen Verarbeitung natürlicher Sprache. Auf Informatik und Linguistik aufbauend haben sich neue und eigenständige Methoden für die maschinelle Verarbeitung geschriebener Sprache entwickelt (vgl. Carstensen et. al, 2004. S.1-2).
Nach Selektion der relevanten Textarchive sind die Dokumente zu bereinigen und in eine für die Mustererkennung geeignete Datenstruktur zu überführen. Dazu müssen Terme aus den Texten extrahiert werden, die zur Repräsentation der Dokumente dienen. Die Texte werden morphologisch, syntaktisch und semantisch analysiert. Techniken dazu kommen aus dem Bereich Computerlinguistik und Informationsextraktion (vgl. Hippner & Rentzmann, 2006; Weiss et al, 2005, S. 20-42):
Morphologische Analysen
Morphologische Analysen: Untersuchung einzelner Wortformen und sinntragender Wortbestandteile. Dazu gehören:
- Tokenisierung
- Stammformreduktion der Wörter (engl.: „stemming“, „lemmatization“)
- Finden von Satzgrenzen
Der Erste Schritt der linguistischen Analyse ist die Zerlegung des Textes in Wörter bzw. sog. Tokens. Leerzeichen, Tabulatoren und Zeilenumbrüche können als „delimiter“ (deutsch etwa: „Abgrenzer“, „Begrenzer“) angesehen werden, um die einzelnen Wörter zu trennen. Klammern (z.B. ()<> ) sind immer „delimiter“, können aber auch Tokens sein. Punkte, Beistriche, Semikolons und Doppelpunkte sind hingegen abhängig vom Anwendungskontext „delimiter“ oder Teile von Tokens (z.B. Abkürzungen). Der Prozess ist an die zu untersuchende Sprache anzupassen.
Ist der Text in eine Sequenz von Tokens zerlegt worden, können die einzelnen Wörter auf deren Stammform reduziert werden. Ziel ist die Reduktion der verschiedenen Typen von Tokens; so kann bspw. „schrieb“ und „geschrieben“ auf den Stamm „schreiben“ oder „Heftchen“ und „Hefte“ auf „Heft“ reduziert werden. Ob dies jedoch sinnvoll bzw. notwendig ist, entscheidet die jeweilige Anwendung.
Beim Finden von Satzgrenzen wird festgestellt, wann ein Interpunktionszeichen Teil des Satzes oder Ende des Satzes ist.
Syntaktische Analysen
Syntaktische Analysen: Die Syntax beschäftigt sich mit dem Satzbau oder allgemeiner formuliert mit den Beziehungen zwischen den Zeichen (vgl. Blumauer und Pellegrini, 2003, S. 10). Zur syntaktischen Analyse gehört:
- Part-of-Speech (POS) Tagging (deut. etwa “Satzteil-auszeichnung“)
- Phrase Recognition (deut. etwa „Ausdrucks-Erkennung“)
- Parsing (grammatikalische Analyse)
Beim POS-Tagging werden die verschiedenen Satzteile und Ausdrucksformen mit ihren Wortarten ausgezeichnet. z.B. Substantiv, Verb, Adjektiv, Adverb, Konjunktion, aber auch Fremdwörter, Kardinalnummern etc. Dazu werden zwei Informationsquellen eingesetzt: Lexika (Wörter und Wortarten) und syntagmatische Informationen (häufige Sequenzen von Wortarten).
Phrase Recognition hat die Aufgabe die identifizierten Wörter zu Wortgruppen bzw. Phrasen zusammenzufassen und kann als partielle grammatikalische Analyse angesehen werden. Eine Sonderstellung nimmt dabei das „Named Entity Recognition“ ein, das z.B. Personen, Firmennamen und Ortschaften im Text findet und Bestandteil des IE ist.
Parsing bedeutet soviel wie „grammatikalisch zerlegen“ und kann als umfassende grammatikalische Analyse gesehen werden. Die Annotation des Satzbaus und die gezielte Extraktion von Informationen aus bestimmten syntaktischen Einheiten ist das Ziel. Der Satzbau wird analysiert und jedes Wort gemäß seiner Stellung im Satz annotiert (z.B. Subjekt, Prädikat, Objekt). Werkzeuge zur partiellen syntaktischen Analyse für die deutsche Sprache 85,7% Abdeckung (vgl. Hippner & Rentzmann, 2006, S. 288).
Semantische Analysen
Semantische Analysen: Sie Semantik beschäftigt sich mit Sinn und Bedeutung von Sprache. Dazu wird kontextuelles Wissen (vgl. Abschnitt Hintergrundwissen) verwendet, um den Text in bedeutungsabhängige Einheiten zu zerlegen. Dazu gehört z.B. „Word Sense Disambiguation“ (deutsch etwa „Auflösung der Doppelsinnigkeit von Wörtern“): Wörter können abhängig vom Kontext unterschiedliche Bedeutung haben (z.B. „Bank“ als Geldinstitut oder Sitzmöglichkeit). Ein Wörterbuch erfasst zwar die unterschiedlichen Bedeutungen von Wörtern, ist aber normalerweise nicht für den Einsatz mit Computerprogrammen vorbereitet. Ein Versuch, die Bedeutung im jeweiligen Kontext für Wörter zu bestimmen ist das bereits erwähnte Wordnet Thesaurus (http://wordnet.princeton.edu/). Auch Domänen-Ontologien können eine semantische Analyse unterstützten bzw. ermöglichen.
Lesen Sie weiter über die Methoden des Text Mining.