Suchmaschinen APIs - Schnittstellen zum Wissen des Webs
Die drei Suchmaschinen Yahoo, Google und MSN bieten neben einer Weboberfläche mit Suchmaske auch einen Web Service an, eine Schnittstelle (API) die einen direkten Zugriff auf den Index erlaubt.
Dafür ist zunächst ein Schlüssel erforderlich, der den Benutzer bzw. die Software eindeutig identifiziert. Anschließend können über eine Schnittstellensprache (z.B. SOAP) automatische Abfragen analysiert werden.
Für Abfragen gibt es gewisse Limitierungen, der verwendete Datenbestand unterscheidet sich zudem auch vom Index der herkömmlichen Web-Oberfläche. Dazu und für eine Ausführliche Beschreibung der Google API vgl. Mayr und Tosques (2005).
Hier werden diese APIs deshalb vorgestellt, da sie für die Initialisierung eines (fokussierten) Web Crawlers geeignet sind(vgl. Kapitel Intelligente Web Crawler). Durch Schnittstellen auf den Index kann die Auswahl der seed pages automatisiert werden. Für die 3 populärsten Suchmaschinen werden APIs und deren Limitierungen im Folgenden aufgelistet.
|
Google |
Yahoo |
MSN |
Max. Anfragen pro Tag |
1000 |
5000 |
10000 |
Max. Ergebnisse |
10 |
100 |
50 |
Kommerzielle Nutzung |
Nein |
Beschränkt |
Nein |
Google: URL:
http://code.google.com/apis/soapsearch/reference.html
Google biete einen Web Service an, der es erlaubt auf Daten im Google Index zuzugreifen. Die maximale Anzahl an Abfragen ist dabei auf 1000 pro Tag begrenzt und die Maximale Anzahl der Suchergebnisse pro Suchabfrage ist bei 10. Maximale Länge der Suchabfrage beträgt 2048 Bytes mit maximal 10 Wörtern pro Suchabfrage. Abfragen können auf maximal 1e Webseite (Parameter „site:“) beschränkt werden (z.B. Abfrage „Termin“ auf eine spezielle Seite: „site:mci4me.at Termin“).
Neben Suchergebnissen kann man auch die von Google zwischengespeicherten Versionen der Webseiten abrufen (cached). Google hat seit Dezember 2006 die Ausgabe neuer googlekeys eingestellt (http://code.google.com/apis/soapsearch/). De Facto wird dieser Service jedoch von der AJAX Search API ersetzt (http://code.google.com/apis/ajaxsearch/).
Yahoo: URL:
http://developer.yahoo.com/search/
Yahoo bietet auch eine Schnittstelle, um auf den Index zugreifen zu können. Die maximale Anzahl an Abfragen ist auf 5000 begrenzt mit maximal 100 Ergebnissen pro Anfrage. Die Abfragen können auf maximal 10 Webseiten beschränkt werden.
Anwendungen, die den Yahoo Webservice benutzen, dürfen kommerzielle Ziele verfolgen, unterliegen aber bestimmten Nutzerbedingungen.
MSN: URL:
http://msdn.microsoft.com/live/msnsearch/default.aspx
Microsoft limitiert die maximale Anzahl an Abfragen auf 10000 pro Tag. Es werden bis zu 50 Ergebnisse für eine Abfrage zurückgegeben. Kommerzielle Nutzung der Schnittstelle ist ausdrücklich verboten.
Alle Drei Anbieter behalten Sich das Recht vor, jederzeit Änderungen an den Restriktionen vorzunehmen oder den kostenlosen Service nicht mehr anzubieten.