Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum

Information Retrieval
Einleitung
Retrieval Modelle
Invertierter Index
Gütemaße im IR
IR vs. Web IR
Dokumenttypen im Web
Strukturelemente
Links | Kommentare

Gütemaße zur Evaluierung von Retrieval-Ergebnissen

Für die Güte eines Retrievalergebnisses gibt es verschiedene Maße. Die Bewertung erfolgt meist durch die Präzision (engl. Precision) und Vollständigkeit (engl. Recall) eines Retrieval-Ergebnisses (vgl. Lewandowski 2005, S. 139ff).

Die Präzision eines Abfrageergebnisses wird in der Regel durch das Verhältnis der gefundenen relevanten Dokumente zu den insgesamt ausgegebenen Dokumenten berechnet und beträgt im Optimalfall 1. Das heißt, dass alle gefundenen Dokumente tatsächlich relevant sind.
Die Vollständigkeit des Abfrageergebnisses wird durch das Verhältnis zwischen den gefundenen relevanten Dokumenten und den tatsächlich im Datenbestand relevanten Dokumente ausgedrückt und beträgt im Optimalfall 1. Das heißt, dass alle relevanten Dokumente gefunden wurden.

Die Optimierung beider Parameter ist schwierig, da bei hoher Präzision des Systems die Anzahl der gefundenen Dokumente abnimmt und somit die Wahrscheinlichkeit steigt, dass tatsächlich relevante Dokumente nicht in die Trefferliste aufgenommen werden (low recall). Optimal sind die Werte für Präzision und Vollständigkeit, wenn alle relevanten Dokumente als Antwortmenge zurückgeliefert werden (vgl. Ferber, 2003, S. 87).

Zentrales Problem bei der Evaluierung von IR Systemen ist, dass die richtige Antwort bzw. das optimale Ergebnis bekannt sein muss, um die Ergebnisse eines Systems zu bewerten. Tatsächlich werden in der Praxis Personen (meist Expertinnen und Experten) gebeten, die Relevanz der Ergebnisse abzuschätzen. Wenngleich viele Evaluierungen von IR-Systemen suggerieren, die verwendeten Methoden seien unabhängig von menschlichen Einflüssen, ist dies in der Praxis nicht der Fall (vgl. Ferber, 2003, S. 86-87).

Testkollektionen für das Web Information Retrieval

Als Lösung sind im Laufe der letzten 30 Jahre Testkollektionen zusammengestellt worden, die aus einer Sammlung von Dokumenten, einer Sammlung von Anfragen und den Angaben der für die Anfragen relevanten Dokumente in der Sammlung bestehen (vgl. Ferber, 2003, S. 91-94).
Beispiele dafür sind MED, eine Testkollektion von 1000 Dokumenten aus dem Gebiet der Biomedizin und LISA (Library and Information Abstracts) aus dem Bibliothekswesen mit 6000 Dokumenten (vgl. Ferber, 2003, S. 93). Im Web Kontext ist der "WebKB" Korpus, eine Testkollektion von Universitätswebseiten, mit ungefähr 8300 Dokumenten, eingeteilt in 7 Kategorien und die „Industry“ Kollektion mit über 10.000 Homepages von Unternehmen, unterteilt in 105 Sparten, erwähnenswert (vgl. Chakrabarti, 2003, S. 130). Im Rahmen der TREC (Text REtrieval Conference) entstanden auch Testkollektionen, die Teile des Webs indexiert haben (vgl. http://ir.dcs.gla.ac.uk/test_collections/). Ein Beispiel ist die GOV2 Kollektion, die mit einer Gesamtgröße von 426 Gigabyte über 25 Millionen Webseiten aus der „.gov“ Domäne enthält (vgl. http://ir.dcs.gla.ac.uk/test_collections/gov2-summary.htm).


Vor allem im Web können die Maße Präzision und Vollständigkeit nur bedingt eingesetzt werden, allein durch die Tatsache, dass die gesamte Dokumentmenge nicht bekannt ist und sich Dokumente ständig verändern bzw. neue hinzukommen (vgl. Lewandowski, 2006, S. 141). Der Folgende Abschnitt veranschaulicht die Unterschiede klassischer IR Systemen zu IR Systemen im Web und verdeutlicht die Schwierigkeiten der Bewertung von Retrieval-Ergebnissen der Suchmaschinen im Web.