Crawler per .htaccess aussperren bzw. zulassen

Martinus33

Lt. Commander
Registriert
Juni 2011
Beiträge
1.628
Hallo,
ich möchte gerne alle Spam-Crawler von einer ganz bestimmten Seite, nämlich der Kontakt/Impressumsseite, fernhalten.
Suchmaschinen-Crawler, zumindest die wichtigsten (Google, Bing, Yahoo), Youtube und Adwords-Crawler, sollen die Seite aber crawlen dürfen.

Bisher habe ich die Kontaktdaten auf einem Bild, was gut klappt, aber von Google und Co. nicht gelesen werden kann.

Ich habe im Web von langen Spamcrawler-Listen gelesen, die immer wieder mal aktualisiert werden, aber geht denn nicht der umgekehrte Weg, also in der .htaccess zunächst mal alle Crawler auszusperren und dann nur die erwünschten reinzulassen? Also so ähnlich wie in der robots.txt, wo man alle per disallow ausperrt und dann einige Allow-Ausnahmen angibt?

Falls ja, wie würde so ein .htaccess-Code aussehen?
 
Wenn möglich würde ich versuchen an regelmäßig aktualisierte Blocklisten zu kommen und darauf Regeln für die Firewall abzuhalten. Mit htaccess geht sowas aber prinzipiell auch:
https://htaccessbook.com/block-ip-address/

Wobei Blacklists nie perfekt sind, alles Andere wird aber kaum funktionieren. Wenn ich Webseiten abgrase, dann geben sich meine Crawler auch nie als solche aus sondern als IE, Edge, Chrome, FF und Safari..
 
Ja, aber das ist der übliche Weg, nämlich alle Unerwünschten durch explizite Nennung auszusperren. Mit den üblichen Schwächen (nicht perfekt, immer wieder aktualisieren ect.).

Ich frage nach dem umgekehrten Weg: Alles aussperren mit einer Pauschal-Anweisung und dann nur die wenigen erwünschten Crawler-Ausnahmen zulassen. Ob das geht, für eine bestimmte Seite.
 
Die unerwünschten Crawler werden dir nicht den Gefallen tun und sich als "bad crawler" outen.

Ansonsten, ja es gibt die Möglichkeit htaccess Regeln auch auf "HTTP_USER_AGENT" anzuwenden. Es ist aber wirklich das kleine 1x1 beim Crawler schreiben, dass man die Dinger sich als normaler Webbrowser ausgeben lässt.
 
Zurück
Oben