Der “Combine harvester” ist ein offenes, stark konfigurierbares System für das fokussierte crawlen von Internet Ressourcen. Er wurde im Rahmen des DESIRE Projekts (Development of a European Service for Information on Research and Education) entwickelt und wird derzeit von der EU durch das ALVIS Projekt (http://www.alvis.info) finanziert.
Der integrierte „automated topic classifier“ ermöglicht das fokussierte Web Crawlen und somit die Erstellung einer themenspezifischen Dokumentkollektion.
Es werden die gängigen Dokumenttypen im Web unterstützt: TXT, HTML, PDF, PostScript, MsWord, TeX. Neben dem fokussierten Web Crawlen ermöglicht Combine das Erstellen von Regeln (mit regulären Ausdrücken), die anhand des URL-Text entscheiden, ob eine Webseite indexiert wird. Der Crawler ist für den dauerhaften Einsatz vorgesehen, um die themenspezifische Datenbank aktuell zu halten.