Wie den Googlebot stoppen?

lordfritte

Lieutenant
Registriert
Juli 2006
Beiträge
1.002
Hallo ich habe ein Problem, ich habe für ein Projekt eine beta-Subdomain eingerichtet auf der schon der Googlebot wütet..
Dazu habe ich im root-www verzeichnis der domain eine robots.txt erstellt mit folgendem Inhalt:
Code:
User-agent: *
Disallow: /

Der Googlebot hat die Datei inzwischen eingelesen
Code:
[01/Jul/2014:12:43:17 +0200] "GET /robots.txt HTTP/1.1" 200 26 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Aber der Bot setzt seine Index-Arbeit auf der Seite einfach fort...
 
klar macht er das ... er schaut immer nach einer robots.txt, falls er die findet interpretiert er diese, und dort sieht er "ah, nicht erlaubt" und zieht weiter ... aber er wirds immer wieder probieren, kann ja sein dass du es ihm eines Tages erlaubst :)

edit: ach so, hmm, du meinst er liest auch andere Dateien ein? komisch, sollte allerdings nicht sein!
 
Köntne ne Interpretationsfrage des Googlebots sein.
Ist es nicht erlaubt zu crawlen, oder ist es nicht erlaubt die gecrawlten Daten im Suchindex aufzunehmen?
 
Normalerweise: "Crawle nicht!"
Das Problem ist, dass die robots.txt nicht 100% exakt interpretiert wird. Über Querverweise kann es trotzdem dazu kommen, dass der Bot Sachen indiziert. Dagegen hilft nur der noindex - Metatag.

Viel sinnvoller wäre aber, der Domain eine .htaccess nebst .htpasswd zu verpassen oder, falls das System sowas kann, die Webseite in einen Wartungsmodus zu versetzen.
 
was macht er ohne robots.txt?
einfach googlebot-ausgansadresse sperren?
 
Ja ich habe jetzt ein http basic auth gesetzt.
Aber die access.log wird ganz schön zugespammt...
 
https://support.google.com/webmasters/answer/156449?hl=de

Blockieren von User-Agents

In der Zeile "Disallow" werden die zu blockierenden Seiten aufgelistet. Sie können eine spezifische URL angeben oder ein Muster verwenden. Der Eintrag muss mit einem Schrägstrich (/) beginnen.

Blockieren der gesamten Website: Tragen Sie nur einen Schrägstrich ein.

Disallow: /

Mehr sollte es ja eigentlich nicht sein. Im Stammverzeichnis liegt sie ja sicher :)
 
per htaccess den Googlebot von der Seite ausschließen (egal wo er drauf zugreifen möchte, er bekommt dann nur eine Fehlermeldung)

Oder halt PW-Schützen - wenn eh nur bestimmte Leute zugreifen dürfen
 
Übrigens hat das n großen Nachteil: Google "merkt" sich irgendwann, dass es da nur n Forbidden bekommt und ignoriert die Domain irgendwann. Wenn man dann doch mal was wertvolles drauf schaltet muss man einen Haufen Negativ-Punkte ausgleichen.

Daher sag ich ja: Wartungsmodus mit Code 503. Google guckt drauf, Google sieht 503, Google geht wieder.
 
Aber es kann ja trotzdem nicht sein, dass der Googlebot schon "Disallow: /" bekommt aber trotzdem weiter macht.... Vor allem wie kommt der bot auf die domain "beta.domain.de" nagut, beta ist jetzt offensichtlich, dass es sowas geben könnte, vielleicht versuche ich mal eine andere subdomain.
 
Normalerweise macht der Bot so etwas auch nicht. Bisher hat er bei mir die robots.txt so gut beachtet wie sonst keiner, und Subdomains denkt sich das Ding auch nicht aus. Du musst die Adresse irgendwo mal erwähnt haben...
 
Zurück
Oben