Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum

Information Retrieval
Einleitung
Retrieval Modelle
Invertierter Index
Gütemaße im IR
IR vs. Web IR
Dokumenttypen im Web
Strukturelemente
Links | Kommentare

Information Retrieval Modelle

Zur Speicherung der Dokumente gibt es im IR verschiedene Modelle. In der Praxis und vor allem zur Indexierung von Webdokumenten sind diese selten in ihrer reinen Form anzutreffen und versuchen meist die positiven Eigenschaften der Modelle zu verbinden (vgl. Ziegler 2006, S. 121). Neben dem Booleschen Modell und dem Vektorraummodell wird auch das probabilistische Modell vorgestellt. Der Invertierte Index ist schließlich ein Hybrid-Modell, das in Internetsuchmaschinen Anwendung findet.
Primäres Ziel ist die Indexierung von Texten und die Suche nach relevanten Dokumenten in einer Dokumentsammlung durch eine Suchabfrage. Dabei sollen für eine Abfrage alle relevanten Dokumente aufgelistet und gleichzeitig die Zahl nicht-relevanter Treffer minimiert werden. Darüber hinaus befasst sich IR auch mit Modellierung, Dokument-Klassifizierung und -Kategorisierung, Benutzerschnittstellen, Daten-Visualisierung und Filterung (vgl. Kosala und Blockeel, 2000, S. 2).

Boolesches Modell

Das boolesche Modell basiert auf der booleschen Algebra. Abfragen werden mit booleschen Operatoren (und, oder, nicht etc.) geformt und haben eine präzise Syntax. Vorteile sind die klare Form und die Einfachheit des Modells. Nachteile sind, dass im klassischen booleschen Modell kein „partial match“ (deut. etwa „teilweise Treffer“) möglich ist. Die Suchbegriffe können auch nicht unterschiedlich gewichtet werden. Ein Dokument ist entweder relevant oder nicht relevant. Es findet kein Ranking statt: Relevante Dokumente, die eine Anfrage nur teilweise erfüllen, werden nicht gefunden. Dadurch kann es zu wenige oder zu viele Treffer geben (vgl. Baeza-Yates und Ribeiro-Neto, 1999, S. 25-27; Lewandowski, 2005, S.80-83).

Vektorraummodell

Im Vektorraummodell (engl. Vector Space Model) sind Gewichtung (Ranking) und Ähnlichkeitssuche feste Bestandteile. Es ist ein weit verbreitetes und in zahlreichen Suchmaschinen implementiertes Retrieval Modell (vgl. Subramanian, 2005, S. 2).
Das Vektorraummodell ermöglicht ein Ranking zwischen den Dokumenten, wobei auch eine Suchanfrage mit wenigen Termen als Dokument betrachtet wird. Die Dokumente werden in Vektoren transformiert. Durch die Berechnung der Vektorähnlichkeit (z.B. Kosinus des Winkels zwischen den zwei Vektoren) kann die Ähnlichkeit eines Dokuments zur Suchanfrage bestimmt werden. Das Suchergebnis kann somit die besten Treffer zuerst anzeigen. Dennoch gibt es Nachteile im Vergleich zum booleschen Modell. Die booleschen Operatoren können nicht angewendet werden und somit können z.B. Begriffe nicht explizit ausgeschlossen werden (vgl. Lewandowski, 2005, S. 83-85).

Das Vektorraummodell stellt Dokumente als multidimensionale Vektoren in einem euklidischen Raum dar. Jede Achse in diesem Raum entspricht einem Term. Die Koordinate eines Dokumentes in Richtung eines Terms gibt die „Nähe“ eines Dokuments zum Term an und hängt in der Regel von zwei Maßeinheiten ab: „Term frequency“ (TF) und „Inverse document frequency“ (IDF) (vgl. Chakrabarti 2003, S. 56ff). TF zählt die Anzahl der Vorkommnisse eines Terms innerhalb eines Dokuments, wobei der Wert normalisiert wird, um zu verhindern dass längere Texte (mit entsprechend vielen Wörtern) höher gewichtet werden.
IDF ist ein Dämpfungsfaktor, der häufig vorkommende Terme in der Dokumentsammlung niedriger gewichtet.. Terme bzw. Begriffe die sehr häufig in der Dokumentsammlung vorkommen, werden dadurch abgewertet. TF und IDF werden miteinander kombiniert (TF*IDF bzw. TFIDF) und ergeben die Koordinate des Dokuments auf einer der (Term-) Achsen im Vektorraum (vgl. Chakrabarti 2003, S. 56-57).

Probabilistisches Modell

Das Probabilistische Retrieval Modell ermittelt einen Wahrscheinlichkeitswert, ob ein Dokument für eine Suchanfrage relevant ist. Der Ähnlichkeitswert einer Suchanfrage zu einem Dokument ist dabei von der Häufigkeit der Suchbegriffe im Dokument abhängig. Ergebnis ist eine nach Relevanz geordnete Trefferliste. In der Praxis wird jedoch keine Verbesserung der Retrievaleffektivität gegenüber anderen Modellen gemessen und die Anwendung erfolgt nur in experimentellen Systemen (vgl. Lewandowski, 2005, S. 86).

Der invertierte Index ist ein effizientes Hybrid-Modell des Web-IR, das es Internet-Suchmaschinen erlaubt tausende konkurrierender Suchabfragen innerhalb von Sekunden zu beantworten...