- Google bot
-
Googlebot ist der Webcrawler der Suchmaschine Google. Dabei handelt es sich um ein Computerprogramm, das Texte und Bilder im World Wide Web herunterlädt und diese über die Web- und die Bildsuche von Google auffindbar macht.
Inhaltsverzeichnis
Arbeitsweise
Zwischen dem Herunterladen einer Dateiversion und der Aktualisierung von Googles Index mit dem Inhalt dieser neuen Version im Fall einer Veränderung liegen üblicherweise einige Tage. Wie oft Googlebot eine Seite besucht, hängt unter anderem davon ab, wie viele externe Links auf diese Seite verweisen und wie hoch ihr PageRank-Wert ist.
Um die Zugriffe auf die zu indizierende Seite möglichst gering zu halten wird zunächst jeder Crawlvorgang in einem von allen Googlebots genutzten Cache abgelegt. Wird eine Seite von mehreren Bots innerhalb eines bestimmten Zeitraumes besucht, kann die Anfrage somit aus dem Cache bedient werden.[1]
Googlebot beachtet die Datei robots.txt und die Robots-Anweisungen in HTML-Meta-Tags.
Identifikation
Googlebot identifiziert sich, je nach Aufgabe, unter anderem mit den folgenden User-Agent-Kennungen:
Googlebot/2.1 (+http://www.google.com/bot.html) Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Googlebot-Image/1.0
Ein weiterer Google-Crawler dient dazu, Seiten herunterzuladen, um passende Werbung im Rahmen des Google-AdSense-Programms zu ermitteln. Er identifiziert sich wie folgt:
Mediapartners-Google/2.1
Verifikation
Manche Web-Benutzer und Crawler geben sich über diese Kennungen fälschlicherweise als Googlebot aus, in der Hoffnung, dass ein Site-Betreiber für Googlebot besonders gute oder werbefreie Inhalte bereitstellt.
Um festzustellen, ob es sich bei einem Besucher tatsächlich um Googles Crawler handelt, empfiehlt Google die Verwendung des Domain Name System. Zunächst wird die IP-Adresse des Besuchers mittels einer inversen Anfrage in einen Domain-Namen übersetzt, der auf googlebot.com enden sollte. Anschließend überprüft man mit einer regulären DNS-Anfrage (forward lookup), ob man wieder die ursprüngliche IP-Adresse des Besuchers erhält.[2]
Quellen
- ↑ Matt Cutts: Crawl caching proxy, 23. April 2006
- ↑ Matt Cutts: How to verify Googlebot. 20. September 2006. Official Google Webmaster Central Blog, http://googlewebmastercentral.blogspot.com/2006/09/how-to-verify-googlebot.html (abgerufen am 13. November 2006).
Weblinks
Wikimedia Foundation.