Nalanda iVia focused Crawler (NiFC), Chakrabarti

Nalanda iVia focused Crawler (NiFC)

NiFC ist ein fokussierter Crawler, der von Dr. Soumen Chakrabarti entwickelt wurde. Der Crawler analysiert Webseiten inhaltlich und verwendet Text Klassifikation um Webseiten zu indexieren die zu einem zuvor definierten Thema gehören.

Dazu verwendet der NiFC zwei verschiedene Classifier: Der „baseline“ Classifier, wird dazu verwendet, die Wahrscheinlichkeit zu errechnen, mit der eine bestimmte Seite dem vordefinierten Thema zugeordnet werden kann. Der „apprentice“ Classifier bestimmt wie wahrscheinlich ein Link auf eine (noch unbekannte) relevante Seite verweist. Dazu wird die visuelle Gestaltung eines Links, dessen Position auf der Web Seite, der Anker Text und der Text in der Umgebung des Links berücksichtigt.

Durch die „apprentice“ Komponente hebt sich der NiFC von anderen fokussierten Crawlern ab und erlaubt es innerhalb der URL-Warteschleife für noch nicht abgearbeitete Links viel versprechende Links zu priorisieren.

Neben den beiden Klassifizierern besteht auch die Möglichkeit URLs durch reguläre Ausdrücke zu filtern. Z.B. Crawlen nur auf „.de“ Domains.

Dokumentation unter
http://ivia.ucr.edu/manuals/stable/Nalanda_iVia_Crawler/2.1.4/

Download: http://ivia.ucr.edu/download