Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum

Information Retrieval
Einleitung
Retrieval Modelle
Invertierter Index
Gütemaße im IR
IR vs. Web IR
Dokumenttypen im Web
Strukturelemente
Links | Kommentare

Information Retrieval im Web

„Information Retrieval (IR)“ umfasst die Repräsentation, Speicherung, Organisation von und den Zugriff auf Informationen. Ziel des IR ist es, all die Informationen wieder zu finden, die für die Suchfrage des Nutzers relevant sind (vgl. Baeza-Yates und Ribeiro-Neto, 1999, S. 1) Umgangssprachlich bedeutet IR „Wieder finden von Informationen“ und ist die Wissenschaft vom Suchen und Finden von Informationen (vgl. Ziegler 2006, S. 120).
Primäres Ziel ist die Indexierung von Texten und die Suche nach relevanten Dokumenten in einer Dokumentsammlung durch eine Suchabfrage. Dabei sollen für eine Abfrage alle relevanten Dokumente aufgelistet und gleichzeitig die Zahl nicht-relevanter Treffer minimiert werden. Darüber hinaus befasst sich IR auch mit Modellierung, Dokument-Klassifizierung und -Kategorisierung, Benutzerschnittstellen, Daten-Visualisierung und Filterung (vgl. Kosala und Blockeel, 2000, S. 2).

Web IR ist ein dynamisches Forschungsfeld und eine Renaissance der IR-Forschung; ein Problem ist jedoch, dass ein Großteil der Forschung innerhalb von Unternehmen erfolgt und erzielte Forschungsergebnisse nicht veröffentlicht werden (Lewandowski 2005b, S. 11). Technische Hintergrundinformationen liegen – sofern überhaupt – nur über frühe Versionen der Crawler Architektur und Ranking-Algorithmen vor (vgl. Page et. al 1998, Chakrabarti 2003, S. 20). Eine engere Kooperation zwischen (kommerziellen) Suchmaschinenbetreibern und akademischer Forschung wäre zwar wünschenswert, jedoch sehen die Unternehmen die Veröffentlichung von technischen Details, insbesondere der Ranking-Algorithmen als äußerst kritisch und befürchten Wettbewerbsvorteile zu verlieren und einen Missbrauch durch „Suchmaschinenoptimierung“, einer Art „Reverse Engineering“ (deutsch etwa „Rückwärts-Zerlegung“) der Rankingalgorithmen (vgl. Couvering, 2004, S. 20).


Lesen Sie weiter über die verschiedenen Retrieval Modelle zur Speicherung und Repräsentation von Text...