Wie den Googlebot stoppen?

lordfritte · 1. Juli 2014

Hallo ich habe ein Problem, ich habe für ein Projekt eine beta-Subdomain eingerichtet auf der schon der Googlebot wütet..
Dazu habe ich im root-www verzeichnis der domain eine robots.txt erstellt mit folgendem Inhalt:

Code:

User-agent: *
Disallow: /

Der Googlebot hat die Datei inzwischen eingelesen

Code:

[01/Jul/2014:12:43:17 +0200] "GET /robots.txt HTTP/1.1" 200 26 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Aber der Bot setzt seine Index-Arbeit auf der Seite einfach fort...

LieberNetterFlo · 1. Juli 2014

klar macht er das ... er schaut immer nach einer robots.txt, falls er die findet interpretiert er diese, und dort sieht er "ah, nicht erlaubt" und zieht weiter ... aber er wirds immer wieder probieren, kann ja sein dass du es ihm eines Tages erlaubst

edit: ach so, hmm, du meinst er liest auch andere Dateien ein? komisch, sollte allerdings nicht sein!

DocWindows · 1. Juli 2014

Köntne ne Interpretationsfrage des Googlebots sein.
Ist es nicht erlaubt zu crawlen, oder ist es nicht erlaubt die gecrawlten Daten im Suchindex aufzunehmen?

Daaron · 1. Juli 2014

Normalerweise: "Crawle nicht!"
Das Problem ist, dass die robots.txt nicht 100% exakt interpretiert wird. Über Querverweise kann es trotzdem dazu kommen, dass der Bot Sachen indiziert. Dagegen hilft nur der noindex - Metatag.

Viel sinnvoller wäre aber, der Domain eine .htaccess nebst .htpasswd zu verpassen oder, falls das System sowas kann, die Webseite in einen Wartungsmodus zu versetzen.

Hito · 1. Juli 2014

was macht er ohne robots.txt?
einfach googlebot-ausgansadresse sperren?

lordfritte · 1. Juli 2014

Ja ich habe jetzt ein http basic auth gesetzt.
Aber die access.log wird ganz schön zugespammt...

derlorenz · 1. Juli 2014

https://support.google.com/webmasters/answer/156449?hl=de

Blockieren von User-Agents

In der Zeile "Disallow" werden die zu blockierenden Seiten aufgelistet. Sie können eine spezifische URL angeben oder ein Muster verwenden. Der Eintrag muss mit einem Schrägstrich (/) beginnen.

Blockieren der gesamten Website: Tragen Sie nur einen Schrägstrich ein.

Disallow: /

Mehr sollte es ja eigentlich nicht sein. Im Stammverzeichnis liegt sie ja sicher

WulfmanGER · 1. Juli 2014

per htaccess den Googlebot von der Seite ausschließen (egal wo er drauf zugreifen möchte, er bekommt dann nur eine Fehlermeldung)

Oder halt PW-Schützen - wenn eh nur bestimmte Leute zugreifen dürfen

Daaron · 1. Juli 2014

Übrigens hat das n großen Nachteil: Google "merkt" sich irgendwann, dass es da nur n Forbidden bekommt und ignoriert die Domain irgendwann. Wenn man dann doch mal was wertvolles drauf schaltet muss man einen Haufen Negativ-Punkte ausgleichen.

Daher sag ich ja: Wartungsmodus mit Code 503. Google guckt drauf, Google sieht 503, Google geht wieder.

lordfritte · 2. Juli 2014

Aber es kann ja trotzdem nicht sein, dass der Googlebot schon "Disallow: /" bekommt aber trotzdem weiter macht.... Vor allem wie kommt der bot auf die domain "beta.domain.de" nagut, beta ist jetzt offensichtlich, dass es sowas geben könnte, vielleicht versuche ich mal eine andere subdomain.

Daaron · 2. Juli 2014

Normalerweise macht der Bot so etwas auch nicht. Bisher hat er bei mir die robots.txt so gut beachtet wie sonst keiner, und Subdomains denkt sich das Ding auch nicht aus. Du musst die Adresse irgendwo mal erwähnt haben...

Suche

Wie den Googlebot stoppen?

lordfritte

Lieutenant

LieberNetterFlo

Rear Admiral

DocWindows

Vice Admiral

Daaron

Fleet Admiral

Hito

Banned

lordfritte

Lieutenant

derlorenz

Captain Pro

WulfmanGER

Commander

Daaron

Fleet Admiral

lordfritte

Lieutenant

Daaron

Fleet Admiral

Ähnliche Themen