Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum

Information Retrieval
Einleitung
Retrieval Modelle
Invertierter Index
Gütemaße im IR
IR vs. Web IR
Dokumenttypen im Web
Strukturelemente
Links | Kommentare

Dokumenttypen im Web

Die einfachste Form von Texten sind sog. „plain text“ Dateien. Sie beinhalten nur Text und keine Formatierung, wie z.B. Fett oder Kursiv. Plattform-Unabhängigkeit und Einfachheit sind die Kennzeichen der ASCII kompatiblen Dateien (vgl. techterms.org, 2006). Im Web werden Sie häufig für „Readme“ (deutsch: lies mich) Dateien eingesetzt, die wichtige Informationen enthalten, z.B. Liste der Veränderungen zwischen Programmversionen, Lizenzbestimmungen, Installationsanleitung etc. Dies beweist eine Abfrage „readme filetype: txt“ auf google.de mit 859.000 Treffern.

HTML Dokumente

Die Standardsprache im Web ist die „HyperText Markup Language (HTML)“. Texte werden innerhalb von sog. „HTML tags“ platziert und dadurch strukturell und gestalterisch beschrieben. Die ursprünglich explizit strukturbeschreibenden tags, verlieren zunehmend an Bedeutung zu Gunsten von eher Layout-orientierten Auszeichnungen (vgl. Lewandowski 2005, S. 61). Dennoch lassen sich inhaltsbeschreibende Tags ausmachen. Im nächsten Abschnitt werden einige davon vorgestellt. Um HTML Dokumenten maschinenlesbar zu machen müssen diese erst bereinigt bzw. analysiert werden und in eine einheitliche Syntax übertragen werden. Mit der Extensible Markup Language (XML) setzt das W3C einen Standard zur Erstellung maschinen- und menschenlesbarer Dokumente (http://www.w3.org/XML/). XML Daten bzw. -Dokumente lassen sich problemlos weiterverarbeiten, in eine Webseite einbetten und in ein anderes Format bringen. Beim Austausch von Daten kommt XML im Web, aber auch darüber hinaus, eine immer bedeutendere Rolle zu. Als Weiterentwicklung von HTML kann die XHTML (Extensible HTML) Auszeichnungssprache angesehen werden (http://www.w3.org/TR/html401/). Hinsichtlich der Strukturelemente unterscheidet sich XHTML jedoch nicht von HTML (Version 4.01), die beiden Formatierungssprachen werden im Folgenden nicht unterschieden und beide als „HTML-Dokumente“ bezeichnet (vgl. http://www.w3.org/MarkUp/#recommendations). Eine weitere, bereits weit verbreitete Anwendung von XML sind die sog. RSS-Feeds.

RSS

“RDF Site Summary” wird dazu verwendet, um Neuigkeiten und Ereignisse einer Seite zu beschreiben und im Web auszutauschen. Es kann wahlweise der gesamte Inhalt oder nur ein Teil des Webseiteninhalts in einem sog. RSS-Feed veröffentlicht werden. Dabei beinhaltet ein solcher „feed“ eine Liste von Objekten, die über einen Verweis eindeutig identifiziert sind und jedes dieser Objekte kann mit einer Vielzahl an Meta-Daten verknüpft werden (vgl. http://www.rss-specifications.com/rss-specifications.htm). RSS-Feeds sind semi-strukturiert: Die explizit strukturbeschreibenden Tags werden mit Fließtexten gefüllt. Es besteht also auch hier ein Bedarf, freie Texte (semantisch) zu analysieren.

Microsoft-Office-Dokumente

Ein populäres Format um Dokumente zu Erstellen ist das Microsoft-Word Format (.doc). Als Austauschformat für Office Dokumente bietet Microsoft auch das „Rich Text Format (.rtf)“ an, welches jedoch in Fragen der Erschließung keiner Unterscheidung zum Proprietären Word-Format bedarf (vgl. Lewandowski 2005, S. 65ff). Daneben existieren noch Dokumenttypen für Powerpoint (.ppt) und Excel (.xls), die von Suchmaschinen gefunden werden.

Adobe Formate

Das Portable Document Format (PDF) hat sich vor allem für wissenschaftliche Publikationen und umfangreiche Dokumente etabliert. PDF wurde von der Firma Adobe als Austauschformat entwickelt und erlaubt es plattformunabhängig alle Layoutelemente beizubehalten. Die Dateigröße ist dabei im Vergleich zu Word Dokumenten in der Regel um ein Vielfaches kleiner. PDF-Dateien werden von allen wichtigen Suchmaschinen unterstützt und nehmen im Web eine wichtige Rolle ein (vgl. Lewandowski 2005, S. 66).
Daneben existiert auch noch das PostScript Format, das eher drucktechnisch orientiert ist, jedoch auch im Web Verbreitung findet (vgl. http://www.adobe.com/products/postscript/).

Erweiterungen

Diverse Erweiterungen für Web-Browser ermöglichen den Einsatz von weiteren Formaten im Web. z.B. Macromedias Flash Plug-In: das weit verbreitete Plug-In hat sich mittlerweile zum Quasi-Standard für Browsererweiterungen etabliert. Es ermöglicht Animationen auf Vektor-Basis in einem herkömmlichen Browser. Jedoch lassen sich Texte in Flash Animationen nicht bzw. nur sehr schwer extrahieren. Für die Indexierung von Flash-Webseiten gibt es zwar schon Ansätze und Prototypen, diese durchsuchbar zu machen, doch sind sie für die automatische Weiterverarbeitung generell ungeeignet (vgl. Lewandowski 2005, S. 61).

Für das Web Information Retrieval und damit auch für jede Internet-Suchmaschine ist der Web Crawler jene Komponente, die Retrieval bzw. das Wiederfinden von Informationen überhaupt erst möglich macht: Sammeln von Ressourcen im World Wide Web.