In diesem Kapitel werden fokussierte Web Crawler vorgestellt, die für die Erstellung einer themenspezifischen Dokumentkollektion aus dem Web geeignet sind. Kriterien für die Auswahl waren: Implementierung von link-topologischen Analysen, inhalts-basierten Analysen (Klassifikation), Intelligente Bestimmung der URL-Reihenfolge und die Verwendung von Hintergrundwissen.
Klicken Sie auf die Spalte Features, um zu sortieren.
Features | Bingo | Combine | Metis | NiFC | Nutch |
---|---|---|---|---|---|
Link-Topologische Analyse | PageRank, HITS | keine | Analyse eingehender Links und andere Relationen eines Dokuments zur Laufzeit | Kombination HITS und PageRank: "Interlinkage Graph" (cite / co-cite) | OPIC Implementierung |
URL-Prediction | Verfolgt Links auf positiv klassifizierten Seiten | URL Filter mit RegExp | Ankertext und Worte in näherer Umgebung werden klassifiziert | “Apprentice” Link Klassifikation, URL Filter mit RegExp | OPIC Implementierung, URL Filter mit RegExp. |
Hintergrundwissen | Taxonomie als Trainingsbasis mit Positiv-Negativ Beispielen | Thesaurus, Regeln: Wörter / Phrasen durch Boolesches “and” | Ontologie | Taxonomie als Trainingsbasis mit Positiv-Negativ Beispielen | k.A. |
Klassifikation | SVM | Automatic Topic Classifier | Ontologie-basiert | Vorhanden | Indirekt über Lucene Engine Klassen |
Datenbank | Oracle oder MySQL | SQL (z.B. MySQL) | keine (Daten in der Ontologie) | BerkelyDB | WebDB (proprietäre DB) |
Protokolle | http | http(s), ftp | http | k.A. | http, ftp |
XML-Export | Aus DB | Aus DB | nein | aus DB | k.A. |
Multilingual | Deutsch, Englisch, Französisch | k.A. (Spracherkennung vorhanden) | k.A. | k.A. | LanguageIdentifierPlugin: Deutsch, Englisch, Spanisch, ... |
Lizenz | Bingo License (open source, free usage) | GPL | k.A. | GPL | Apache Software License |
Dependencies | snowball, ... (included in download) | ? | Apache Ant, Apache Log4J, KAON | iVia Core Lib | Jakarta Lucene |
Plattform | Java VM | Linux | Java VM | Linux | Java VM und diverse Portierungen |
Quellcode | Offen | Offen | verfügbar für ältere Version | Offen | Offen |
Dokumentation | Gut | Gut, unvollständig | Mittel, unvollständig | Gut, unvollständig | Gut |
Dokumenttypen | HTML, TXT, PDF, DOC | HTML, TXT, PDF, DOC, PS, TeX | HTML, PDF | k.A. | HTML, TXT, PDF, DOC, RTF, JS, PPT, RSS, XSL |
Fokussierte Web Crawler kombinieren link-topologische und inhaltsbasierten Analysealgorithmen, um Inhalte des Webs zu klassifizieren und zielorientiert zu sammeln und können deshalb als ein effektives und effizientes Werkzeug des Web Content Mining angesehen werden.
Hier das Ergebnis der Evaluation und Empfehlungen für die Software...