Wissensexploration.de Knowledge Mining & Discovery: Text, Web und Data Mining, Suchtechnologien, explorative Datenanalyse | Web Crawling Strategien und Information Retrieval im Web, fokussierte Web Crawler, semantisches Wissen und Informationsextraktion | > Empowering Business Intelligence.
Themen:   Home Artikel Text Mining Fokussierte Crawler Web IR KDD Software Literatur Impressum
Software
Links | Kommentare

Suchmaschinen APIs - Schnittstellen zum Wissen des Webs

Die drei Suchmaschinen Yahoo, Google und MSN bieten neben einer Weboberfläche mit Suchmaske auch einen Web Service an, eine Schnittstelle (API) die einen direkten Zugriff auf den Index erlaubt. Dafür ist zunächst ein Schlüssel erforderlich, der den Benutzer bzw. die Software eindeutig identifiziert. Anschließend können über eine Schnittstellensprache (z.B. SOAP) automatische Abfragen analysiert werden. Für Abfragen gibt es gewisse Limitierungen, der verwendete Datenbestand unterscheidet sich zudem auch vom Index der herkömmlichen Web-Oberfläche. Dazu und für eine Ausführliche Beschreibung der Google API vgl. Mayr und Tosques (2005).

Hier werden diese APIs deshalb vorgestellt, da sie für die Initialisierung eines (fokussierten) Web Crawlers geeignet sind(vgl. Kapitel Intelligente Web Crawler). Durch Schnittstellen auf den Index kann die Auswahl der seed pages automatisiert werden. Für die 3 populärsten Suchmaschinen werden APIs und deren Limitierungen im Folgenden aufgelistet.

Google Yahoo MSN
Max. Anfragen pro Tag 1000 5000 10000
Max. Ergebnisse 10 100 50
Kommerzielle Nutzung Nein Beschränkt Nein

Google: URL: http://code.google.com/apis/soapsearch/reference.html
Google biete einen Web Service an, der es erlaubt auf Daten im Google Index zuzugreifen. Die maximale Anzahl an Abfragen ist dabei auf 1000 pro Tag begrenzt und die Maximale Anzahl der Suchergebnisse pro Suchabfrage ist bei 10. Maximale Länge der Suchabfrage beträgt 2048 Bytes mit maximal 10 Wörtern pro Suchabfrage. Abfragen können auf maximal 1e Webseite (Parameter „site:“) beschränkt werden (z.B. Abfrage „Termin“ auf eine spezielle Seite: „site:mci4me.at Termin“). Neben Suchergebnissen kann man auch die von Google zwischengespeicherten Versionen der Webseiten abrufen (cached). Google hat seit Dezember 2006 die Ausgabe neuer googlekeys eingestellt (http://code.google.com/apis/soapsearch/). De Facto wird dieser Service jedoch von der AJAX Search API ersetzt (http://code.google.com/apis/ajaxsearch/).
Yahoo: URL: http://developer.yahoo.com/search/
Yahoo bietet auch eine Schnittstelle, um auf den Index zugreifen zu können. Die maximale Anzahl an Abfragen ist auf 5000 begrenzt mit maximal 100 Ergebnissen pro Anfrage. Die Abfragen können auf maximal 10 Webseiten beschränkt werden. Anwendungen, die den Yahoo Webservice benutzen, dürfen kommerzielle Ziele verfolgen, unterliegen aber bestimmten Nutzerbedingungen.
MSN: URL: http://msdn.microsoft.com/live/msnsearch/default.aspx Microsoft limitiert die maximale Anzahl an Abfragen auf 10000 pro Tag. Es werden bis zu 50 Ergebnisse für eine Abfrage zurückgegeben. Kommerzielle Nutzung der Schnittstelle ist ausdrücklich verboten.


Alle Drei Anbieter behalten Sich das Recht vor, jederzeit Änderungen an den Restriktionen vorzunehmen oder den kostenlosen Service nicht mehr anzubieten.