Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum
Software
Links | Kommentare

Evaluationskriterien: Focused Crawler

In diesem Kapitel werden fokussierte Web Crawler vorgestellt, die für die Erstellung einer themenspezifischen Dokumentkollektion aus dem Web geeignet sind. Kriterien für die Auswahl waren: Implementierung von link-topologischen Analysen, inhalts-basierten Analysen (Klassifikation), Intelligente Bestimmung der URL-Reihenfolge und die Verwendung von Hintergrundwissen.

Evaluationstabelle:

Klicken Sie auf die Spalte Features, um zu sortieren.

Features Bingo Combine Metis NiFC Nutch
Link-Topologische AnalysePageRank, HITSkeineAnalyse eingehender Links und andere Relationen eines Dokuments zur LaufzeitKombination HITS und PageRank: "Interlinkage Graph" (cite / co-cite)OPIC Implementierung
URL-PredictionVerfolgt Links auf positiv klassifizierten SeitenURL Filter mit RegExpAnkertext und Worte in näherer Umgebung werden klassifiziert“Apprentice” Link Klassifikation, URL Filter mit RegExpOPIC Implementierung, URL Filter mit RegExp.
HintergrundwissenTaxonomie als Trainingsbasis mit Positiv-Negativ BeispielenThesaurus, Regeln: Wörter / Phrasen durch Boolesches “and”OntologieTaxonomie als Trainingsbasis mit Positiv-Negativ Beispielenk.A.
KlassifikationSVMAutomatic Topic ClassifierOntologie-basiertVorhandenIndirekt über Lucene Engine Klassen
DatenbankOracle oder MySQLSQL (z.B. MySQL)keine (Daten in der Ontologie)BerkelyDBWebDB (proprietäre DB)
Protokollehttphttp(s), ftphttpk.A.http, ftp
XML-ExportAus DBAus DBneinaus DBk.A.
MultilingualDeutsch, Englisch, Französischk.A. (Spracherkennung vorhanden)k.A.k.A.LanguageIdentifierPlugin: Deutsch, Englisch, Spanisch, ...
LizenzBingo License (open source, free usage)GPLk.A.GPLApache Software License
Dependenciessnowball, ... (included in download)?Apache Ant, Apache Log4J, KAONiVia Core LibJakarta Lucene
PlattformJava VMLinuxJava VMLinuxJava VM und diverse Portierungen
QuellcodeOffenOffenverfügbar für ältere VersionOffenOffen
DokumentationGutGut, unvollständigMittel, unvollständigGut, unvollständigGut
DokumenttypenHTML, TXT, PDF, DOCHTML, TXT, PDF, DOC, PS, TeXHTML, PDFk.A.HTML, TXT, PDF, DOC, RTF, JS, PPT, RSS, XSL

Fokussierte Web Crawler kombinieren link-topologische und inhaltsbasierten Analysealgorithmen, um Inhalte des Webs zu klassifizieren und zielorientiert zu sammeln und können deshalb als ein effektives und effizientes Werkzeug des Web Content Mining angesehen werden.

Hier das Ergebnis der Evaluation und Empfehlungen für die Software...