Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum
Software
Links | Kommentare

Nutch: Web Crawler mit Lucene Engine

Nutch ist eine Suchmaschine auf Open-Source Basis und zielt darauf ab, jedem die Möglichkeit zu geben, kosteneffizient und unkompliziert eine Suchmaschine einzurichten.

Für Nutch ist es das Ziel, sowohl für Intranets und Nischen leicht einsetzbar zu sein, als auch komplexe Installationen für das gesamte Web zu ermöglichen. (http://www.heise.de/tp/r4/artikel/17/17592/1.html) Zur Fokussierung der Suche wird eine (nicht vollständige) Implementierung des OPIC Algorithmus verwendet.

Durch Plug-Ins kann das System leicht erweitert werden. Erwähnenswert ist hier das „LanguageIdentifierPlugin“, das die Sprache eines Dokuments erkennt und das „clustering-carrot2“ Plug-In, das die Suchergebnisse in Cluster unterteilt.

In Version 0.7 unterstützt Nutch folgende Dateitypen: HTML, TXT, PDF, DOC, RTF, Javascript und RSS.

URL: Nutch