Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum
Software
Links | Kommentare

Metis: Ein ontologie-basierter focused Crawler

Metis ist ein ontologiebasierter Web Crawler, der für die fokussierte Suche nach Ressourcen im Internet Hintergrundwissen in Form von Ontologien verwendet (vgl. Ehrig, Hartmann und Schmitz, 2004). Dabei wird einerseits eine Crawler-Ontologie modelliert, die Struktur und Eigenschaften von Dokumenten im Internet, sowie deren Verknüpfungen durch Hyperlinks beschreibt. Andererseits wird in der Domänen-Ontologie die eigentliche Domäne beschrieben, also die Konzepte und Beziehungen, die in der betrachteten Anwendung eine Rolle spielen.

Die inhaltliche Analyse von Dokumenten verwendet klassische Verfahren aus dem Bereich Text Mining. „Dabei wird der Text nach einer Vorverarbeitung, welche aus der Entfernung von Stoppwörtern und einer Rückbildung auf den Wortstamm besteht, analog zur gegeben Domänen-Ontologie untersucht. Hierbei wird für die Existenz von Worten im Text eine graduell verteilte Bewertung zum gesuchten Konzept (Ziel der Suche) in der Domänen-Ontologie vorgenommen. Worte und Textphrasen die einen nahen semantischen Bezug zur Domänen-Ontologie aufweisen werden demzufolge höher gewertet. Die Summe aller Einzelergebnisse ergibt ein Bewertungsmaß welches die inhaltliche Relevanz eines Dokuments abschätzt“ (Ehrig, Hartmann und Schmitz, 2004).

Die Bewertung der Verlinkung basiert auf der Analyse eingehenden und ausgehenden Links, wobei auch der Ankertext und der Text in näherer Umgebung des Links berücksichtig wird. Im Gegensatz zu klassischen linktopologischen Verfahren, wie dem HITS oder PageRank Algorithmus kann dieses Verfahren zur Laufzeit angewendet und kann „explizit semantisches Wissen“ zur fokussierten Suche einsetzen. Der Relevanzwert einer Seite setzt sich aus der inhaltlichen Analyse des Dokumentinhalts und der Bewertung der Verlinkung einer Ressource zusammen (vgl. Ehrig, Hartmann und Schmitz, 2004).

URL: Webseite zum Metis Crawler