Einleitung Wissensexploration. Einführung in Technologien und Werkzeuge des Text (Data) Mining. Fokussierte (Intelligente) Web Crawler. Software & mehr!

Einleitung: Text Mining, Suchmaschinen und Fokussierte Web Crawler

Die Zusammenführung von unternehmensweit verfügbaren internen und externen Daten bringt für Entscheidungsträger Vorteile und mehr Transparenz. Der Einsatz von Data Mining Techniken erlaubt darüber hinaus in diesen riesigen Datenbeständen nach neuem Wissen zu schürfen. Dazu müssen die Daten strukturiert und in ein geeignetes Format transformiert werden.
Über 80 Prozent der Informationen in Unternehmen sind jedoch nur in Form von (unstrukturierten) Fließtexten oder schwach strukturierten Daten verfügbar und können nicht ohne Vorverarbeitung maschinell ausgewertet werden (vgl. Sullivan, 2001, S. 4). Hinzu kommen unüberschaubare Mengen an Texten durch die explosionsartige Entwicklung des World Wide Web (Web). Jede Woche entstehen 320 Millionen neue Webseiten; inhaltlich werden innerhalb eines Jahres 50 Prozent des Webs neu sein (vgl. Lewandowski, 2006, S. 141). Die Integration und Kombination von Daten bzw. Texten aus dem Web mit bestehenden Unternehmensdaten birgt ein enormes Potential für Entscheidungsträger bzw. Business Intelligence Systeme (vgl. Gao, Chang und Han, 2005, S. 114ff).

Freie Texte automatisiert zu lesen und zu verstehen ist eine der größten Herausforderungen im Bereich der künstlichen Intelligenz, der Computerlinguistik (auch bekannt als „Natural Language Processing (NLP)“), sowie im Rahmen des „Knowledge Discovery in Databases (KDD)“ und dem jungen Forschungsgebiet „Text Mining“. Komplexe statistische und computerlinguistische Methoden sind notwendig um den Ansprüchen von Text Mining – der Wissensgewinnung aus natürlich sprachlichen Texten – gerecht zu werden.

Internet-Suchmaschinen verwenden Information Retrieval Technologie und ermöglichen es in den Inhalten des Webs zu suchen. Die Verwendung des Index einer Suchmaschine ist jedoch begrenzt. Zudem ist die Aktualität der Inhalte als erfolgskritischer Faktor und gleichzeitiges Problem der Suchmaschinen zu werten (vgl. Lewandowski, 2006, S. 141ff). Ist das Ziel nicht die Indexierung des gesamten Webs, sondern die Erschließung eines Teilbereichs des Webs, das ein bestimmtes Thema behandelt bzw. eine bestimmte Domäne umfasst, gibt es effektivere Methoden, eine hochwertige Dokumentsammlung aus dem Web zu gewinnen: einen „intelligenten“ Web Crawler.

Die Tatsache, dass Data Mining Methoden auf der Basis strukturierter Daten arbeiten, wichtige und handlungsrelevante Informationen jedoch vielfach nur in (unstrukturierten) Texten vorliegen weckt den Bedarf an Texttechnologien die „intelligente“ Schnittstellen zur Textrezeption und inhaltsorientierte Textanalysen bereitstellen, um aufgabenrelevante Daten explorieren und kontextsensitiv aufbereiten zu können (vgl. Mehler und Wolff, 2005, S. 1-2). „Das Text Mining ist mit dem Versprechen verbunden, eine solche Texttechnologie darzustellen bzw. sich als solche zu entwickeln.“ (Mehler und Wolff, 2005, S. 2)

Eine Wissensexploration ist eine Textdatenanalyse die durch exploratives Verhalten von Mensch und Maschine charakterisiert ist. Exploration beschreibt auf den Mensch bezogen einen unbekannten aber bedeutsamen Realitätsbereich aufzusuchen und sich (durch Exploration) damit vertraut zu machen (Dörner 1983, S. 36). Die explorative Statistik bzw. die explorative Datenanalyse untersucht und analysiert Daten, von denen man nur ein geringes Wissen über deren Zusammenhänge hat (vgl. Filliben, 2004). Schließlich kann exploratives Lernen als ein eigenaktiver Prozess eines Programms zur Wissensaneignung in unbekannter Umgebung gesehen werden (vgl. Görz, Rollinger und Schneeberger, 2000, S. 80).

Für das (maschinelle) Verständnis der Bedeutung eines Textes ist eine (semantische) Verbindung von Wörtern bzw. Konzepten innerhalb eines Dokuments und zwischen mehreren Dokumenten unumgänglich. Dies erfordert kodiertes Hintergrundwissen. Ein „Schürfen“ nach Mustern, Regularitäten und Abweichungen kann aber auch zu neuen Erkenntnissen von zuvor unbekannten Zusammenhängen zwischen Konzepten führen und somit neues und betriebswirtschaftlich relevantes Wissen entdecken.

Wissensexploration.de zeigt Vorgehensmodelle, Technologien, Ansätze und Werkzeuge, die es ermöglichen relevante Texte zu finden, diese zu analysieren und in den gewonnenen Daten nach Mustern zu suchen und betrachtet dabei das Web als Datenbasis für (verborgenes) entscheidungsrelevantes Wissen.

Das Ergebnis sind konkrete Anwendungsmöglichkeiten für den eTourismus, Vorgehensmodelle und Softwarelösungen.

Übersicht der Themengebiete von Wissensexploration.de