Unter dem Begriff „Web Mining“ wird die Anwendung von Data-Mining Methoden
zur Erkennung von Mustern und Regularitäten auf das World Wide Web verstanden
(vgl. Ehrig, Hartmann und Schmitz, 2004). Mehler und Wolff (2005, S. 7) sehen
Web Mining als eines der wichtigsten Anwendungsgebiete für das Text Mining.
Web Mining ist ein interdisziplinäres, sehr dynamisches Forschungsgebiet,
das Erkenntnisse aus den Bereichen Datenbanken, IR, und Künstliche Intelligenz
(insbesondere maschinelles Lernen und Computerlinguistik) subsumiert und auf
das Web anwendet (vgl. Kosala und Blockeel, 2000, S. 1-2).
versucht Regularitäten in der Benutzung von Webseiten bzw. Webressourcen zu erkennen. Dabei werden alle sekundären Daten, die durch Interaktion des Benutzers mit einer Webressource entstehen, verarbeitet und analysiert. Unter anderem sind das Zugriffsprotokolle von Web und Proxy Servern, Browser Protokolle, Benutzerprofile, Registrierungsdaten, Benutzer-Sitzungen, Transaktionen, Cookies, Suchabfragen, Maus-Klicks und -Scrolls (vgl. Kosala und Blockeel, 2000, S.3).
versucht, die einer Webseite bzw. Domäne zugrunde liegende Verweisstruktur zu erkennen. Basierend auf der Topologie der Verweise (hyperlinks) der Webseite ,mit optionaler Beschreibung derselben, wird ein Modell erstellt. Dieses kann für die Kategorisierung und das Ranking einer Webseite nützlich sein und lässt Rückschlüsse auf Ähnlichkeiten zwischen Webseiten und deren Beziehungen zueinander zu. Zum Beispiel könnten inhaltsreiche Webseiten (sog. Authorities) und überblicksartige Webseiten (sog. Hubs) für ein bestimmtes Thema ausfindig gemacht werden. (vgl. Kosala, 2000, S. 3; Kleinberg, 1998)
befasst sich mit der Erkennung von Regularitäten in den Inhalten einer Webressource (vgl. Ehrig, Hartmann und Schmitz, 2004). Die Inhalte der Daten im Web bestehen aus unstrukturierten Daten wie Text Dokumenten, semi-strukturierten Daten wie HTML Dokumenten und stärker strukturierten Daten wie Tabellen oder dynamisch generierten HTML Seiten. Grundsätzlich bestehen die Inhalte einer Webseite aus verschiedenen Datentypen, wie Texten, Bildern, Audio-, Video-, Metadaten
Vier Unteraufgaben von Web Mining unterscheiden Kosala und Blockeel (2000,
S. 2):