Texte können prinzipiell in freier, strukturierter und semi-strukturierter Form vorliegen [vgl. 32]. Freie Texte beinhalten keinerlei Hintergrundinformationen über die Eigenschaften einzelner Textteile. Um Sie zu analysieren müssen computerlinguistische Verfahren eingesetzt werden, um die implizite syntaktische und semantische Struktur explizit zu machen.
Strukturierte Texte sind textuelle Informationen in einer Datenbank oder Datei, die einem vordefinierten und strikten Format folgen. Einfache Regeln reichen oft aus, um Informationen aus Texten zu extrahieren deren Format bekannt ist.
Halb-strukturierte Texte sind zwischen freien Texten und strukturierten Texten einzuordnen. Computerlinguistische Verfahren können nur bedingt eingesetzt werden und einfache Regeln zur Extraktion reichen nicht aus. Eine Art Struktur ist durch tokens and delimiters gegeben. [vgl. 32]
Word Dokumente können mittels Formatvorlagen strukturiert und gestaltet werden. Für die Erschließung der Struktur sind die vordefinierten Formatvorlagen für Überschriften unterschiedlicher Hierarchieordnung gut verwendbar. Benutzerdefinierte Vorlagen sind weniger geeignet und sollten vernachlässigt werden. Dies gilt auch für Autorenangaben, Titel, Stichwörter und Kommentare, die als Meta-Informationen extrahiert werden könnten, aber sehr unzuverlässig sind (vgl. Lewandowski, 2005, S. 65).
PDF Dokumente beinhalten als Strukturinformationen oft Lesezeichen, um innerhalb eines Dokuments zu navigieren. Zudem sind oft, ähnlich wie bei Word Dokumenten Meta Informationen verfügbar. Lesezeichen und Meta-Informationen sind jedoch unzuverlässig und finden nur bedingt Anwendung bei der textuellen Erschließung von Web Dokumenten.
HTML Dokumente nehmen eine Sonderstellung ein. Sie sind den unstrukturierten Fließtexten ähnlich, enthalten jedoch durch die HTML Tags Strukturinformationen. Allerdings werden diese nicht einheitlich verwendet und dienen in vielen Fällen gestalterischen Aspekten. [vgl. Lewandowski 2005, S. 59ff] Innerhalb eines HTML Dokuments lassen sich aber zumindest Textpassagen, Überschriften und hervorgehobene Satzteile identifizieren. Die HTML-Tags können also teilweise zur gezielten Extraktion von Informationen zur Hilfe genommen werden.
Folgende Tabelle listet einige Tags, die Strukturinformationen beinhalten:
Tag | Bedeutung |
---|---|
title | Titel der Seite (Fenster-Title) |
h1, h2, ..., h6 | Überschriften |
b, i, u | fett, kursiv, unterstrichen |
strong | betont |
font size | Schriftgröße |
p | Paragraph |