Evaluationskriterien für fokussierte Web Crawler

Evaluationskriterien: Focused Crawler

In diesem Kapitel werden fokussierte Web Crawler vorgestellt, die für die Erstellung einer themenspezifischen Dokumentkollektion aus dem Web geeignet sind. Kriterien für die Auswahl waren: Implementierung von link-topologischen Analysen, inhalts-basierten Analysen (Klassifikation), Intelligente Bestimmung der URL-Reihenfolge und die Verwendung von Hintergrundwissen.

Evaluationstabelle:

Klicken Sie auf die Spalte Features, um zu sortieren.

Features	Bingo	Combine	Metis	NiFC	Nutch
Link-Topologische Analyse	PageRank, HITS	keine	Analyse eingehender Links und andere Relationen eines Dokuments zur Laufzeit	Kombination HITS und PageRank: "Interlinkage Graph" (cite / co-cite)	OPIC Implementierung
URL-Prediction	Verfolgt Links auf positiv klassifizierten Seiten	URL Filter mit RegExp	Ankertext und Worte in näherer Umgebung werden klassifiziert	“Apprentice” Link Klassifikation, URL Filter mit RegExp	OPIC Implementierung, URL Filter mit RegExp.
Hintergrundwissen	Taxonomie als Trainingsbasis mit Positiv-Negativ Beispielen	Thesaurus, Regeln: Wörter / Phrasen durch Boolesches “and”	Ontologie	Taxonomie als Trainingsbasis mit Positiv-Negativ Beispielen	k.A.
Klassifikation	SVM	Automatic Topic Classifier	Ontologie-basiert	Vorhanden	Indirekt über Lucene Engine Klassen
Datenbank	Oracle oder MySQL	SQL (z.B. MySQL)	keine (Daten in der Ontologie)	BerkelyDB	WebDB (proprietäre DB)
Protokolle	http	http(s), ftp	http	k.A.	http, ftp
XML-Export	Aus DB	Aus DB	nein	aus DB	k.A.
Multilingual	Deutsch, Englisch, Französisch	k.A. (Spracherkennung vorhanden)	k.A.	k.A.	LanguageIdentifierPlugin: Deutsch, Englisch, Spanisch, ...
Lizenz	Bingo License (open source, free usage)	GPL	k.A.	GPL	Apache Software License
Dependencies	snowball, ... (included in download)	?	Apache Ant, Apache Log4J, KAON	iVia Core Lib	Jakarta Lucene
Plattform	Java VM	Linux	Java VM	Linux	Java VM und diverse Portierungen
Quellcode	Offen	Offen	verfügbar für ältere Version	Offen	Offen
Dokumentation	Gut	Gut, unvollständig	Mittel, unvollständig	Gut, unvollständig	Gut
Dokumenttypen	HTML, TXT, PDF, DOC	HTML, TXT, PDF, DOC, PS, TeX	HTML, PDF	k.A.	HTML, TXT, PDF, DOC, RTF, JS, PPT, RSS, XSL

Fokussierte Web Crawler kombinieren link-topologische und inhaltsbasierten Analysealgorithmen, um Inhalte des Webs zu klassifizieren und zielorientiert zu sammeln und können deshalb als ein effektives und effizientes Werkzeug des Web Content Mining angesehen werden.

Hier das Ergebnis der Evaluation und Empfehlungen für die Software...