Warning: Cannot modify header information - headers already sent by (output started at /var/www/vhosts/wissensexploration.de/htdocs/focused-crawler-combine.php:2) in /var/www/vhosts/wissensexploration.de/htdocs/inc/functions.inc.php on line 2
Der Combine Focused Crawler, ein konfigurierbares System für das fokussierte crawlen von Internet Ressourcen
Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum
Software
Links | Kommentare

Der Combine Focused Crawler

Der “Combine harvester” ist ein offenes, stark konfigurierbares System für das fokussierte crawlen von Internet Ressourcen. Er wurde im Rahmen des DESIRE Projekts (Development of a European Service for Information on Research and Education) entwickelt und wird derzeit von der EU durch das ALVIS Projekt (http://www.alvis.info) finanziert.

Der integrierte „automated topic classifier“ ermöglicht das fokussierte Web Crawlen und somit die Erstellung einer themenspezifischen Dokumentkollektion.

Es werden die gängigen Dokumenttypen im Web unterstützt: TXT, HTML, PDF, PostScript, MsWord, TeX. Neben dem fokussierten Web Crawlen ermöglicht Combine das Erstellen von Regeln (mit regulären Ausdrücken), die anhand des URL-Text entscheiden, ob eine Webseite indexiert wird. Der Crawler ist für den dauerhaften Einsatz vorgesehen, um die themenspezifische Datenbank aktuell zu halten.

URL: Combine Focused Crawler Homepage