Bestimmte Seiten in der robots.txt ausschließen

Martinus33 · 30. Januar 2019

Hallo,
man kann doch in der robots.txt bestimmte Sachen vom Crawling ausschließen bzw. erlauben.

Ich möchte für meine Wordpress-Website gerne alle Seiten (pages), die im Dateinamen ein "test" beinhalten bzw. damit beginnen, vom Crawling ausschließen. Wenn der erstere Fall, also alle Dateien, die irgendwo ein "test" beinhalten auch den zweiten Fall (Beginn mit "test") sauber beinhaltet, wäre mir das lieber. Sicher ist sicher.

Die Seiten liegen alle im Hauptverzeichnis.

Wie ist das nun richtig, wenn es sich bei den Seiten zwar logischerweise um HTML-Dateien handelt, diese aber das .html nicht im Dateinamen hinten dran haben und vom Browser nur mit "....seite-eins" (nicht ...seite-eins.html) aufgerufen werden.

Wenn man die Datei-Art am Ende einer solchen Disallow-Zeile angibt, steht das dann für die Art der Datei oder den tatsächlichen Dateinamen?

Disallow: /*test*.html$
Disallow: /*test*

oder

Disallow: /test*.html$
Disallow: /test*

oder ?

Cordesh · 30. Januar 2019

Martinus33 schrieb:
Hallo,
man kann doch in der robots.txt bestimmte Sachen vom Crawling ausschließen bzw. erlauben.

nein, kann man nicht. bzw., man kann es versuchen, google hält sich daran, andere nicht

https://wiki.selfhtml.org/wiki/Grundlagen/Robots.txt

Mihawk90 · 30. Januar 2019

Martinus33 schrieb:
steht das dann für die Art der Datei oder den tatsächlichen Dateinamen?

Weder noch. Es steht für den URL Pfad.

Was sich dahinter für eine Datei verbirgt ist erstmal völlig irrelevant. Du kannst auch eine exe als .html Datei ausliefern. Macht keinen Sinn, aber es geht. Für die Festlegung des Dateitypen sind die HTTP Header verantwortlich, und die haben mit der Robots.txt nix zu tun.

Und wie @Cordesh schon sagte, ist das ohnehin kein Schutz gegen Crawler (archive.org ignoriert diese zum Beispiel und sagt das auch offen (was ironisch ist wenn man bedenkt, dass sie selbst eine nutzen)). Ich möchte wetten es gibt auch Crawler die sich darauf spezialisiert haben nur "Disallow" Seiten zu crawlen.

Wenn du nicht willst dass bestimmte seiten gecrawlt oder öffentlich sind, dann stell deine Wordpress Installation richtig ein, denn man kann Seiten auch verstecken.

FranzvonAssisi · 30. Januar 2019

Testseiten sollten einfach nicht öffentlich erreichbar oder verlinkt sein.

Einfache & sichere Lösung.

Lg

Martinus33 · 30. Januar 2019

Es geht tatsächlich nur um Google, die den Anweisungen der robots.txt folgen, nicht um Spam-Crawler. Die würde ich zwar gerne von einer ganz bestimmten Seite fernhalten (Kontaktseite/Impressum), während die Suma-Crawler sie auslesen sollen, aber das ist eine andere Geschichte.

Hier geht es mir tatsächlich um Google und um Testseiten, die ich immer wieder mal erstelle und die gar nicht erst gecrawlt werden sollen. Verlinkt sind sie eh nicht, aber noindex+nofollow verhindert das Crawlen nicht.

FranzvonAssisi · 30. Januar 2019

Ja, wie gesagt: In Wordpress die Seiten entweder mit einem Kennwort schützen oder nicht veröffentlichen, sondern nur Speichern / Vorschau anschauen.

Lg

Mihawk90 · 30. Januar 2019

Martinus33 schrieb:
Hier geht es mir tatsächlich um Google und um Testseiten, die ich immer wieder mal erstelle und die gar nicht erst gecrawlt werden sollen. Verlinkt sind sie eh nicht, aber noindex+nofollow verhindert das Crawlen nicht.

Für sowas kann man die Seiten unsichtbar stellen, dann sind sie nur sichtbar solange man eingeloggt ist und existieren für "normale" Nutzer gar nicht. Kann man meines wissen auch mit Berechtigungsstufen verschiedenen Nutzerlevels konfigurieren (hab aber WP ne Ewigkeit zum Glück nicht nutzen müssen).

Warum noindex nicht funktionieren sollte erschließt sich mir allerdings nicht.

Martinus33 · 30. Januar 2019

FranzvonAssisi schrieb:
Ja, wie gesagt: In Wordpress die Seiten entweder mit einem Kennwort schützen oder nicht veröffentlichen, sondern nur Speichern / Vorschau anschauen.

Lg

Preview, ja, aber das hilft nur im Moment.
"Richtig" speichern, so dass ich solche Testseiten am nächsten Tag nochmal anschauen und weitermachen kann, muss ich sie dann nämlich schon. Und wenn Google zufällig gerade da ist/war, crawlt der alles, was nicht bei Drei aufm Baum ist.

Ein Kennwortschutz für jede Testseite... ich hab das noch nie gemacht, aber einfacher und sicherer bezüglich vergessen (ich arbeite nur gelegentlich als Laien-Webmaster an der Site) wäre ein Befehl in der robots. Dann kann ich schalten und walten mit meinen "test...-Seiten" ohne mir Gedanken machen zu müssen.

Ergänzung (30. Januar 2019)

Mihawk90 schrieb:
Warum noindex nicht funktionieren sollte erschließt sich mir allerdings nicht.

Ich will bereits das crawlen verhindern, nicht nur das Indexieren.

FranzvonAssisi · 30. Januar 2019

Nein, du kannst die Preview-Seiten immer über den generierten Link öffnen - solange du angemeldet bist bzw. Zugriffsberechtigung hast.

Ich hab genau die Funktion auch schon benutzt als ich ein Themen mit Wordpress's REST-API programmiert / erstellt habe. Es funktioniert!

Lg

Martinus33 · 30. Januar 2019

Das probiere ich aus, das wäre natürlich am einfachsten.
Ich darf nur nicht versehentlich auf "Publish" klicken und müsste immer schön bei Preview bleiben.

Martinus33 · 31. Januar 2019

@FranzvonAssisi:
Also die Seite bleibt auch nach Verlassen der Seite und Schließen von WP erhalten und zwar extra gekennzeichnet als "draft" (Entwurf).

Ob das aber den Google-Crawler daran hindert, die Testseiten zu registrieren? "Öffentlich" ist die Seite eh nicht, ob als Entwurf oder richtig gespeichert, d.h., niemand im www weiß davon und es gibt keinerlei Links zur Testseite.
Aber wenn der Crawler mal auf dem Webserver ist und alles durchgeht... macht der da vor der Testseite Halt?

FranzvonAssisi · 1. Februar 2019

Jup, du kommst auf die Seite nur, wenn du im Backend angemeldet bist. Kannst du ja Mal ausprobieren.

Link kopieren und im Inkognito-Fenster öffnen -> Du solltest einen 404-Fehler sehen.

Google Crawler können da auch nichts sehen.

Lg

Suche

Bestimmte Seiten in der robots.txt ausschließen

Martinus33

Lt. Commander

Cordesh

Lt. Commander

Mihawk90

Commander

FranzvonAssisi

Admiral

Martinus33

Lt. Commander

FranzvonAssisi

Admiral

Mihawk90

Commander

Martinus33

Lt. Commander

FranzvonAssisi

Admiral

Martinus33

Lt. Commander

Martinus33

Lt. Commander

FranzvonAssisi

Admiral

Ähnliche Themen