Evaluation von fokussierten Web Crawlern. Praxis Tools für Nischensuchmaschinen

Evaluation der fokussierten Web Crawler

Erkenntnis der Analyse: Fokussierte Web Crawler kombinieren link-topologische und inhaltsbasierten Analysealgorithmen, um Inhalte des Webs zu klassifizieren und zielorientiert zu sammeln und können deshalb als ein effektives und effizientes Werkzeug des Web Content Mining angesehen werden.

Theoretische Hintergründe zu Web Information Retrieval und Fokussierten (focused) Web Crawlern

Die analysierte Software ist eine kleine Auswahl der im Laufe dieser Arbeit betrachteten Web Crawler (u.a. ht://dig, WebSphinx, WIRE, Heritrix, Teleport Pro, Yacy). Ausschlusskriterium war, wenn es keinerlei Möglichkeiten zur Fokussierung der Suche gegeben hat und/oder keine Klassifizierung angeboten wurde. Umständliche Implementierungen von externen Softwarekomponenten wurde auch nicht berücksichtig z.B. Einsatz der WEKA (http://www.cs.waikato.ac.nz/~ml/weka/) Umgebung für maschinelles Lernen in Verbindung mit einem Crawler.
Nutch verwendet eine Implementierung des OPIC Algorithmus, um die optimale URL Reihenfolge zu bestimmen, bietet jedoch keine Möglichkeit an, Web Dokumente vordefinierten Kategorien zuzuordnen. Außer (Stopp)Wortlisten verwendet Nutch keine Hintergrundinformationen. Ist der Einsatzzweck jedoch eine Volltextsuche in (Web) Dokumenten ist durch die Anbindung an die Lucene Engine eine leistungsfähige Suchmaschine zu erwarten.
Combine biete keine linktopologischen Analysen und kann die URL Reihenfolge nur durch aufwändig definierte Regeln indirekt bestimmen, indem bestimmte Webseiten ausgeschlossen werden. Der „automatic topic classifier“ erlaubt jedoch die Kategorisierung der einzelnen Web Dokumente. Die Anbindung an eine SQL-fähige Datenbank erlaubt die einfache Weiterverarbeitung der Ergebnisse.
Bingo! bietet PageRank und HITS als linktopologische Analysen und erlaubt das automatische Kategorisieren von Web Dokumenten. Die Link-Topologischen Analysen können allerdings erst nach einem Web Crawl berechnet werden. Die Erstellung der Taxonomie erfolgt manuell oder durch einlesen von Browser-Lesezeichen, die die Taxonomie repräsentieren. Prototypisch ist auch die Anbindung an die Google API implementiert. Ein SVM Klassifizierer wird anhand der Beispiele bzw. URLs der Taxonomie trainiert, der anschließend jede neue Seite einer Kategorie zuordnet. Die Bestimmung der optimalen URL Reihenfolge erfolgt ebenfalls durch den Klassifizierer (vgl. Sizov et. al, 2003, S. 9-10). Durch den SVM Algorithmus kann???? ? auf eine genaue Klassifizierung der Texte und URLs geschlossen werden. Oracle und MySQL als mögliche Datenbanksysteme bieten Flexibilität für Weiterverarbeitung der Ergebnisse. Der Bingo! Crawler eignet sich somit zum automatischen Erstellen eines Informationsportals.
Der NiFC verwendet eine Kombination der HITS und PageRank Algorithmen zur link-topologischen Analyse. Durch positiv/negativ Beispiele erstellt das System einen Klassifizierer zur Evaluierung der thematischen Relevanz eines Web Dokuments. Die URL-Reihenfolge bestimmt der „Apprentice“ Klassifizierer, der neben der URL auch Ankertext und umliegenden Text analysiert und entscheidet, ob ein Link für ein Thema relevant ist bzw. verfolgt werden soll. Die Berkely Datenbank (http://www.oracle.com/database/berkeley-db/index.html) ist an das System angebunden.
Das in Metis implementierte link-topologische Verfahren, kann im Gegensatz zu PageRank oder HITS zur Laufzeit angewendet werden. Zur Klassifizierung der Web-Ressourcen wird eine Domänen-Ontologie verwendet, aus der Entitäten ausgewählt und durch den Benutzer gewichtet werden. Die Domänen-Ontologie bestimmt dabei auch die Relevanz eines Hyperlinks und damit die Reihenfolge in der URLs abgearbeitet werden.

Der Metis Crawler ist durch den Einsatz von Ontologien zukunftsorientiert und einfach an neue Aufgaben anzupassen. Einziges Manko für die Weiterverwendung der Ergebnisse ist das Fehlen einer Datenbank; die Ergebnisse werden in der Ontologie gespeichert. Metis hebt sich durch das link-topologische Verfahren, das zur Laufzeit angewendet werden kann und den Einsatz einer Ontologie zur Bestimmung der Relevanz von den anderen Lösungen ab. Über die Lizenz von Metis konnten keinerlei Informationen gefunden werden und der Quelltext ist nur für eine frühere Version verfügbar. Bei der Klassifizierung der Webseiten ist bei Bingo! durch die Verwendung eines SVM Klassifizierers von einer hohen Präzision auszugehen und die (zeitaufwändige) Erstellung einer Ontologie wird durch das Verwenden einer Taxonomie, die lediglich Kategorien und die zugehörigen URLs enthaltet automatisiert.

Zusammenfassend ist Metis als Lösung zu bevorzugen, wenn hohe Flexibilität im Vordergrund steht und der Einsatz von Ontologien sinnvoll bzw. erwünscht ist.
Bingo! eignet sich zur Erstellung eines Informationsportals, da Webseiten vordefinierten Kategorien zugeordnet werden und somit automatisch eine Art Web-Verzeichnis aufgebaut werden kann.
Groß-Angelegte Projekte profitieren beim NiFC durch seine hohe Abarbeitungsgeschwindigkeit.
Nutch hat eine große Fangemeinde im Internet (indirekter Support) und durch die Verbindung mit der Jakarta Lucene Suchengine erhält man eine leistungsfähige Suchmaschine. Für die Indexierung eines Intranets ist diese Lösung zu bevorzugen. Die Verwendung des OPIC Algorithmus zur Bestimmung der URL Reihenfolge ist viel versprechend.
Combine kann als Teil eines sog. „SearchEngine-in-a-box“ (http://combine.it.lth.se/SearchEngineBox/) Systems heruntergeladen werden und lässt sich einfach und schnell installieren. Die inhaltsbasierte Bestimmung der URL-Reihenfolge ist aber schwer realisierbar und das Klassifizieren ist umständlich implementiert.

Was sind fokussierte Web Crawler und wie funktionieren sie?