Computerlinguistische Komponenten
Als mögliche IE Komponenten, identifiziert Neumann (2001, S. 452-453) folgende:
- Tokenscanner: Textstruktur (Paragraphen, Titelzeichen, Abschnitte etc.) und spezielle Zeichenketten (Interpunktionszeichen, Datumsangaben, Abkürzungen, HTML-Tags, etc.) werden identifiziert.
- Lexikalische Analyse: Morphologische Analyse der Wortformen (Bestimmung der Wortart mit Part-Of-Speech-Tagger) und der Flexionsform (Plural/Singular, etc.).
- Eigennamenerkennung: Finden und Normalisieren von speziellen Ausdrücken wie Personen-, Firmen-, Produkt-, Ortsnamen und komplexen Datums-, Zeit-, und Maßausdrücken. Wichtig ist die Behandlung von Referenzen zwischen Eigennamen.
- Parsing: Es wird keine vollständige syntaktische Analyse durchgeführt, sondern eine flache, fragmentarische Analyse. Der Vorgang wird stark modularisiert und erlaubt es dadurch einfache, aber domänenunabhängige Phrasenanalysen mit sehr domänenspezifischen Regeln zur Erkennung von komplexen (Satz-)Einheiten zu kombinieren.
- Koreferezauflösung: Zentrale Aufgabe ist es festzustellen, ob unterschiedliche linguistische Objekte auf dieselbe Templateinstanz Bezug nehmen. Dazu gehört die EN-Koreferenzauflösung, um festzustellen, dass bspw. „Präsident Bush“, „George W. Bush“ und „Bush“ in einem Text dieselbe Personen bezeichnen, die Auflösung der Pronominalen Referenz (Referenzen zwischen Pronomen, Eigennamen, Phrasen) und der Referenzen zwischen Designatoren („der Softwareriese“, „der Redmonter Konzern“) und anderen Instanzen („Microsoft“).
- Erkennung domänenrelevanter Muster: „Dies ist der kritische Teil eines IE Systems, da hier die Regeln definiert werden, die die Struktur von Templateinstanzen bestimmen“ (Neumann, 2001, S. 453). Dabei werden anhand von Merkmalen der Köpfe der extrahierten Phrasen domänenspezifisch die einzelnen Merkmale einer Templateinstanz gefüllt.
- Template-Unification: Da sich die gesuchten Informationen über mehrere Sätze und Abschnitte verteilen können, ist es notwendig, Informationen aus unterschiedlichen Templateinstanzen zu vereinigen. Im Allgemeinen wird diese komplexe Aufgabe dadurch bewerkstelligt, dass zwei Templates, die mindestens ein gleiches Attribut haben, mittels Unification (deut. Zusammenführung) vereinigt werden. Dazu wird für je zwei typkompatible Attribute bestimmt, ob eine Koreferenz besteht, ob sie semantisch kompatibel sind (mittels Domänenlexikon) oder ob sie in einem „Subsumtions“-Verhältnis stehen. Darüber hinaus werden auch sehr anwendungsspezifische Heuristiken eingesetzt.
Die beiden letztgenannten Komponenten benötigen domänenspezifisches Wissen und sind in ihrer Erstellung sehr zeitintensiv und verlangen Expertenwissen und Anpassungen um weiteren Anwendungsgebieten zu genügen. Deshalb wird versucht mit Methoden des Maschinellen Lernens den Prozess der Domänenmodellierung im IE-Prozess zu automatisieren .
Lesen Sie nach: Semantisches Hintergrundwissen für Text Mining Technologie.
Lesen Sie weiter: Visualisierungstechniken für Text Mining