Googlebot

Googlebot

Googlebot ist der Webcrawler der Suchmaschine Google. Dabei handelt es sich um ein Computerprogramm, das Texte und Bilder im World Wide Web herunterlädt und diese über die Web- und die Bildsuche von Google auffindbar macht.

Inhaltsverzeichnis

Arbeitsweise

Zwischen dem Herunterladen einer Dateiversion und der Aktualisierung von Googles Index mit dem Inhalt dieser neuen Version im Fall einer Veränderung liegen üblicherweise einige Tage. Wie oft Googlebot eine Seite besucht, hängt unter anderem davon ab, wie viele externe Links auf diese Seite verweisen und wie hoch ihr PageRank-Wert ist.

Um die Zugriffe auf die zu indizierende Seite möglichst gering zu halten wird zunächst jeder Crawlvorgang in einem von allen Googlebots genutzten Cache abgelegt. Wird eine Seite von mehreren Bots innerhalb eines bestimmten Zeitraumes besucht, kann die Anfrage somit aus dem Cache bedient werden.[1]

Googlebot beachtet die Datei robots.txt und die Robots-Anweisungen in HTML-Meta-Tags.

Dynamische Seiteninhalte

Seiteninhalte, die nur hinter PHP-Sessions oder hinter Variablen enthalten sind, kann der Googlebot bislang nur schwer oder gar nicht indexieren. Dies liegt daran, dass dem Bot meist weder die nötigen Variablen, noch die zugehörigen Parameter bekannt sind. Google arbeitet gegenwärtig daran, den Webcrawler soweit anzupassen, dass er auch solche Inhalte erfassen kann, die bisher hinter mehreren AJAX-Requests verborgen bleiben. So sollen künftig auch solche Inhalte erfasst werden können, die eine Website dynamisch nachlädt. Geplant sei auch, dass der Webcrawler POST-Requests an eine Webseite schickt. Das Problem dabei ist, dass POST-Requests ungewollt Nutzeraktionen ausführen können. [2]

Identifikation

Googlebot identifiziert sich, je nach Aufgabe, unter anderem mit den folgenden User-Agent-Kennungen:

Googlebot/2.1 (+http://www.google.com/bot.html)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot-Image/1.0

Ein weiterer Google-Crawler dient dazu, Seiten herunterzuladen, um passende Werbung im Rahmen des Google-AdSense-Programms zu ermitteln. Er identifiziert sich wie folgt:

Mediapartners-Google/2.1

Verifikation

Manche Web-Benutzer und Crawler geben sich über diese Kennungen fälschlicherweise als Googlebot aus, in der Hoffnung, dass ein Site-Betreiber für Googlebot besonders gute oder werbefreie Inhalte bereitstellt.

Um festzustellen, ob es sich bei einem Besucher tatsächlich um Googles Crawler handelt, empfiehlt Google die Verwendung des Domain Name System. Zunächst wird die IP-Adresse des Besuchers mittels einer inversen Anfrage in einen Domain-Namen übersetzt, der auf googlebot.com enden sollte. Anschließend überprüft man mit einer regulären DNS-Anfrage (forward lookup), ob man wieder die ursprüngliche IP-Adresse des Besuchers erhält.[3]

Quellen

  1. Matt Cutts: Crawl caching proxy, 23. April 2006
  2. http://googlewebmastercentral.blogspot.com/2011/11/get-post-and-safely-surfacing-more-of.html
  3. Matt Cutts: How to verify Googlebot. 20. September 2006. Official Google Webmaster Central Blog, http://googlewebmastercentral.blogspot.com/2006/09/how-to-verify-googlebot.html (abgerufen am 13. November 2006).

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Googlebot — Тип Поисковый робот Автор Google Сайт GoogleBot FAQ Googlebot поисковый робот компании Google, используемый для сканирования мировой сети и пополнения поискового индекса системы Google …   Википедия

  • Googlebot — es el robot de búsqueda usado por Google. Colecciona documentos desde la web para construir una base de datos para el motor de búsqueda Google. Si un webmaster no quiere que su página sea descargada por un Googlebot, puede insertar un texto… …   Wikipedia Español

  • Googlebot — A Googlebot is a search bot used by Google. It collects documents from the web to build a searchable index for the Google search engine.If a webmaster wishes to restrict the information on their site available to a Googlebot, or another well… …   Wikipedia

  • Googlebot — Les googlebots sont des robots d indexation utilisés par le moteur de recherche Google afin de recenser et indexer les pages web. La chaîne de caractères permettant de les identifier en tant que User Agent est, selon la tâche qu ils effectuent, l …   Wikipédia en Français

  • Googlebot — ● np. m. ►WEB►MOTREC Nom du robot du moteur de recherche Google …   Dictionnaire d'informatique francophone

  • Googlebot — Name (User Agent) des Spiders von Google. Bemerkenswert ist, dass Google die Zahl seiner Spider Anfang 2004 offenbar drastisch erhöht hat. Neu ist auch, dass ein Typ des Googlebots mit einer Mozilla Kennung unterwegs ist. Es steht zu vermuten,… …   SEO Wörterbuch

  • Google bot — Googlebot ist der Webcrawler der Suchmaschine Google. Dabei handelt es sich um ein Computerprogramm, das Texte und Bilder im World Wide Web herunterlädt und diese über die Web und die Bildsuche von Google auffindbar macht. Inhaltsverzeichnis 1… …   Deutsch Wikipedia

  • Robots.txt — Nach der Übereinkunft des Robots Exclusion Standard Protokolls liest ein Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis (Root) einer Domain. In dieser Datei kann festgelegt… …   Deutsch Wikipedia

  • Robots Exclusion Standard — Nach der Übereinkunft des Robots Exclusion Standard Protokolls liest ein Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis (Root) einer Domain. In dieser Datei kann festgelegt… …   Deutsch Wikipedia

  • User-Agent — Pour les articles homonymes, voir Agent. Un user agent est une application cliente utilisée avec un protocole réseau particulier ; l expression est plus généralement employée comme référence pour celles qui accèdent au World Wide Web. Les… …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”