Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum
Text Mining
Links | Kommentare

Szenario: Informationsextraktion

Im Folgenden wird ein Anwendungsszenario modelliert, das Angebote aus Pressemitteilungen extrahiert.
Preislisten von Hotels und anderen Tourismusdienstleistern liegen häufig in strukturierter Form vor und erlauben es, Analysen und Vergleiche über verschiedene Anbieter bzw. Angebote zu erstellen. Um Kunden zu locken, Restplätze zu füllen und Wettbewerbsvorteile zu gewinnen, bieten Dienstleister zusätzliche Spezial- bzw. Sonderangebote an. Diese werden häufig nicht (tabellarisch) strukturiert und beispielsweise durch Pressemitteilungen oder Veröffentlichungen auf Web-Seiten offeriert. Häufig bieten auch Dritte Sonderangebote auf ihren Webseiten an.
Pressemitteilungen liegen in der Regel nur in textueller Form vor und bieten sich an, Informationen zu extrahieren (vgl. Spiliopoulou und Winkler, 2002). Für die Sammlung der relevanten Dokumente kann ein spezieller Web Crawler (vgl. Kapitel Information Retrieval im Web) eingesetzt werden, der veröffentlichte Texte findet bzw. sammelt und kategorisiert. Die erstellte Dokumentsammlung enthält dadurch nur Pressemitteilungen, die sich mit dem Thema Spezialangebote befassen. Diese sollen in eine strukturierte Form überführt werden.
Wir wollen wissen, welches Unternehmen, was anbietet, für welche Zielgruppe, wo und in welchem Zeitraum das Angebot gültig ist, wie viel es kostet und wo man die Dienstleistung erwerben kann. Daraus ergibt sich folgende Templatestruktur:
[Company, Offering, TargetGroup, Location, OfferingPeriod, Price, PricePeriod, GetWhere]
Die einzelnen Attribute können selbst wieder eine propriätere Templatestruktur besitzen (z.B. Date: [DateBegin, DateEnd]). Obwohl dies für eine explorative Datenanalyse wichtig ist – man bedenke, dass Data Mining Methoden atomare Attributwerte voraussetzen – wird dies zur besseren Veranschaulichung an dieser Stelle vernachlässigt.

Folgender Text wird analysiert; veröffentlicht auf openPR am 11.08.2006 (Pressemitteilung von: ABC Holiday Plus):

Winterspecial von ABC Holiday Plus für Frankfurt und Düsseldorf 22 Tage Parkplatz am Airport für 20 Euro pauschal
Urlauber, die diesen Winter in den Urlaub fliegen, können auf den „Airparks“ von ABC Holiday Plus an den Airports Frankfurt und Düsseldorf zum Winterspecial-Preis parken. Der Vermittler für Flughafen-Hotels und -Parkplätze bietet das "Airparks-Winterspecial" mit insgesamt 5.000 Stellplätzen zum Festpreis von 20 Euro an. Zu diesem Pauschalpreis können bis zu 22 Tage Parken auf den ABC-eigenen "Airparks" gebucht werden – solange der Vorrat reicht. Im Preis inklusive: Der Transfer von den nah am Flughafen gelegenen „Airparks“ zum Terminal und zurück. Das Winterspecial gilt in Frankfurt für Aufenthalte von September bis März; in Düsseldorf von November bis März – buchbar unter www.urlaubsstarter.de oder im Reisebüro. (…)
ABC Holiday Plus bietet touristische Zusatzleistungen wie Flughafenhotels und Flughafenparkplätze in Deutschland, Österreich, der Schweiz, Holland und Großbritannien an. Buchungen können online, per Telefon oder im Reisebüro erfolgen.

Ein IE-System würde im Optimalfall (bei 100% Präzision und Vollständigkeit, vgl. Kapitel IE) folgende Templateinstanz erzeugen:

CompanyABC Holiday Plus
OfferingParkplatz
TargetGroupUrlauber
LocationFrankfurt
OfferingPeriodSeptember bis März
Price20 Euro
PricePeriodbis zu 22 Tage
GetWherewww.urlaubsstarter.de

Der Text enthält noch mindestens eine weiter Templateinstanz für den Ort (Location) Düsseldorf.
Dieses Szenario modelliert nur einen fiktiven IE Prozess. Dieser komplexe Prozess der IE verlangt die Lösung von linguistischen Teilaufgaben, was durch die folgenden Komponenten erreicht werden kann.

Weiter: Welche computerlinguistischen Komponenten sind für die Realisierung notwendig?