Wayback Machine ignoriert metatag "noarchive"

Mirlo

Lt. Junior Grade
Registriert
Feb. 2025
Beiträge
338
Hallo,

ich hatte jetzt den Fall, dass die Wayback Machine von Archive.org bei einer meiner Websites den metatag "noarchive" ignoriert hatte. Die Webpage wurde samt dem metatag archiviert.

HTML:
<meta name="robots" content="noarchive">

Es ist also kein Verlass darauf.
 
Ich hatte früher zusätzlich zu meta tags mit noarchive und "<meta name="robots" content="noindex,nofollow" />" noch
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
in die robots.txt gepackt.

Bei irgendeiner Webseite von mir tauchte auch mal was in der Waybackmachine auf, was damals in den meta tags und in der robots.txt stand, weiß ich nicht mehr. Seinerzeit hatte ich denen eine Mail geschrieben, dann wurde das gelöscht.
 
Naja man könnte auch sagen. Die WayBack Machine archiviert den Wunsch nicht archiviert zu werden ;)
 
  • Gefällt mir
Reaktionen: SR388, acidarchangel, Golden_ und 3 andere
Zemblanity schrieb:
in die robots.txt gepackt.
Ja, das hatte ich auch zusätzlich mit "User-agent: *" und wurde auch ignoriert.

Ja, man kann denen schreiben und dann löschen sie es. Habe ich auch machen lassen.

Vermutlich hat deren Filter manchmal einen Schluckauf.
Ergänzung ()

Archive.org hat ja eine API. Da habe ich aber noch keine Zeit für gehabt. Ob die auch für die Wayback Machine funktioniert? Dann könnte automatisiert nach sowas gesucht werden, weil habe mehr als eine handvoll Domains/Websites und das nur zufällig bemerkt, weil ich neugierig war.
 
Ja richtig so, das Internet ist ja auch kein rechtsfreier Raum in dem man ungestraft und unbemerkt schreiben kann was man will. Wo kommen wir denn da hin wenn hier jeder die Bots aussperren kann wie er möchte! :hammer_alt:
 
Mirlo schrieb:
dass die Wayback Machine von Archive.org bei einer meiner Websites den metatag "noarchive" ignoriert hatte.
Wo ist den dokumentiert, dass dieser metatag verhindern soll, dass die Webseite bei Wayback Machine aufgenommen werden soll?

"noarchive" soll ja nur verhindern, dass die Webseiten Suchmaschinen-Cache gespeichert werden.
Die Wayback Machine ist ja keine klassische Suchmaschine wie z. Google, DuckDuckGo oder Bing.

Außerdem verhindert der tag nicht, dass Webseiten überhaupt indexiert werden.
 
Das ist doch ein Witz, die Leute denken sie können einfach mit einem Metatag entscheiden was passiert und was nicht, dabei ist das Internet ein offenes Buch und wenn man was nicht haben will dann sollte man es auch nicht ins Netz stellen. Die Wayback Machine macht ihren Job und archiviert Seiten, ob man das nun will oder nicht, und wenn man seine Daten wirklich schützen will dann sollte man sich vielleicht für eine andere Lösung entscheiden. Es ist ja nicht so, dass man ungestraft im Netz rumposaunen kann, was man will, und dann noch entscheiden kann, wer es sehen darf und wer nicht.
 
kurgon181 schrieb:
Es ist ja nicht so, dass man ungestraft im Netz rumposaunen kann, was man will, und dann noch entscheiden kann, wer es sehen darf und wer nicht.
ach kurgon181 ... Es handelt sich um die Webpage mit den Daten des Diensteanbieters im Impressum. Klar will ich nicht, dass das herumposaunt wird, aber ich bin zu der Veröffentlichung gesetzlich verpflichtet, und nutze deswegen den metatag und die robots.txt. Was anderes steht mir nicht zur Verfügung. Schließlich müssen diese Daten mit maximal 2 Klicks erreichbar sein. "noarchive" ist exakt dafür gedacht nicht archiviert zu werden. Das hat nichts mit "noindex" zu tun, was bei mir zusätzlich aktiv ist.
 
Zurück
Oben