Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum

Information Retrieval
Einleitung
Retrieval Modelle
Invertierter Index
Gütemaße im IR
IR vs. Web IR
Dokumenttypen im Web
Strukturelemente
Links | Kommentare

Der invertierte Index und das erweiterte boolesche Modell

Invertierte Indizes stellen den Industriestandard bei Suchmaschinen dar (vgl. Ziegeler C, 2006, S. 121). Eine invertierte Datei (invertierter Index) ist ein Wort-orientierter Mechanismus um Texte zu indexieren und das Suchen innerhalb einer Textsammlung zu beschleunigen (vgl. Baeza-Yates und Ribeiro-Neto, 1999, S. 192).
„Invertiert“ bezieht sich dabei auf die Tatsache, dass nicht die Dokumente auf Worte zeigen, sondern eine Liste von Worten auf Dokumente zeigt, die sie beinhalten (vgl. Weiss, 2005, S. 98).
Zwei Elemente bilden die Basisstruktur eines invertierten Indizes: Der Wortschatz und die Häufigkeit des Auftretens einzelner Begriffe. Der Wortschatz ist eine Liste aller vorkommenden Begriffe, die ggf. durch Normalisierungstechniken (z.B. Stemming) auf das Wesentliche reduziert werden. Für jedes dieser Wörter wird die Position festgehalten, an der das Wort im Dokument vorkommt (Baeza-Yates und Ribeiro-Neto, 1999, S. 192). Das Wissen über die Position eines Begriffs ermöglicht es Suchanfragen mit mehreren Begriffen zu gewichten. Beispielsweise können Dokumente, in denen die Suchbegriffe näher beieinander liegen werden höher gewichtet (vgl. Ziegler, 2006, S. 121; Baeza-Yates und Ribeiro-Neto, 1999, S. 193). In einem Invertierten Index werden häufig auch zusätzliche Informationen zur Position eines Terms gespeichert. Dies könnten Angaben zum Schriftgrad, zum Format (z.B. fett, kursiv, unterstrichen), oder aufs Web bezogen Angaben zum verwendeten HTML-Tag (z.B. Titel, Überschrift, Ankertext) sein (vgl. Arasu et. al, 2000, S. 19).

Suchmaschinen setzten also Verfahren ein, die Eigenarten bzw. Vorteile verschiedener Retrieval Modelle kombinieren. Die Grundlage der Resultate von Suchmaschinen bildet das Ergebnis einer Booleschen Anfrage, welche mittels Rankingverfahren in eine nach Relevanz sortierte Listenform gebracht wird (vgl. Lewandowski, 2005, S. 83). Der Schwerpunkt liegt auf dem „Exact Matching“ (deut. „exakter Treffer“) des Booleschen Modells (vgl. Lewandowski, 2005, S. 87). Suchmaschinen berechnen jedoch zusätzlich einen globalen Presigewert einer Ressource, der durch dessen Verlinkung berechnet wird. Lesen Sie hier weiter über Suchmaschinen-Technologie.

Wie wird im Information Retrieval die der Erfolg einer Suche bzw. eines Retrievals gemessen?