Wayback Machine ignoriert metatag "noarchive"

Mirlo · 26. März 2026

Hallo,

ich hatte jetzt den Fall, dass die Wayback Machine von Archive.org bei einer meiner Websites den metatag "noarchive" ignoriert hatte. Die Webpage wurde samt dem metatag archiviert.

HTML:

<meta name="robots" content="noarchive">

Es ist also kein Verlass darauf.

Zemblanity · 26. März 2026

Ich hatte früher zusätzlich zu meta tags mit noarchive und "<meta name="robots" content="noindex,nofollow" />" noch

User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /

in die robots.txt gepackt.

Bei irgendeiner Webseite von mir tauchte auch mal was in der Waybackmachine auf, was damals in den meta tags und in der robots.txt stand, weiß ich nicht mehr. Seinerzeit hatte ich denen eine Mail geschrieben, dann wurde das gelöscht.

kim88 · 26. März 2026

Naja man könnte auch sagen. Die WayBack Machine archiviert den Wunsch nicht archiviert zu werden

Mirlo · 26. März 2026

Zemblanity schrieb:
in die robots.txt gepackt.

Ja, das hatte ich auch zusätzlich mit "User-agent: *" und wurde auch ignoriert.

Ja, man kann denen schreiben und dann löschen sie es. Habe ich auch machen lassen.

Vermutlich hat deren Filter manchmal einen Schluckauf.

Ergänzung (26. März 2026)

Archive.org hat ja eine API. Da habe ich aber noch keine Zeit für gehabt. Ob die auch für die Wayback Machine funktioniert? Dann könnte automatisiert nach sowas gesucht werden, weil habe mehr als eine handvoll Domains/Websites und das nur zufällig bemerkt, weil ich neugierig war.

Quantität · 26. März 2026

Ja richtig so, das Internet ist ja auch kein rechtsfreier Raum in dem man ungestraft und unbemerkt schreiben kann was man will. Wo kommen wir denn da hin wenn hier jeder die Bots aussperren kann wie er möchte!

PC295 · 27. März 2026

Mirlo schrieb:
dass die Wayback Machine von Archive.org bei einer meiner Websites den metatag "noarchive" ignoriert hatte.

Wo ist den dokumentiert, dass dieser metatag verhindern soll, dass die Webseite bei Wayback Machine aufgenommen werden soll?

"noarchive" soll ja nur verhindern, dass die Webseiten Suchmaschinen-Cache gespeichert werden.
Die Wayback Machine ist ja keine klassische Suchmaschine wie z. Google, DuckDuckGo oder Bing.

Außerdem verhindert der tag nicht, dass Webseiten überhaupt indexiert werden.

kurgon181 · 27. März 2026

Das ist doch ein Witz, die Leute denken sie können einfach mit einem Metatag entscheiden was passiert und was nicht, dabei ist das Internet ein offenes Buch und wenn man was nicht haben will dann sollte man es auch nicht ins Netz stellen. Die Wayback Machine macht ihren Job und archiviert Seiten, ob man das nun will oder nicht, und wenn man seine Daten wirklich schützen will dann sollte man sich vielleicht für eine andere Lösung entscheiden. Es ist ja nicht so, dass man ungestraft im Netz rumposaunen kann, was man will, und dann noch entscheiden kann, wer es sehen darf und wer nicht.

Mirlo · 27. März 2026

kurgon181 schrieb:
Es ist ja nicht so, dass man ungestraft im Netz rumposaunen kann, was man will, und dann noch entscheiden kann, wer es sehen darf und wer nicht.

ach kurgon181 ... Es handelt sich um die Webpage mit den Daten des Diensteanbieters im Impressum. Klar will ich nicht, dass das herumposaunt wird, aber ich bin zu der Veröffentlichung gesetzlich verpflichtet, und nutze deswegen den metatag und die robots.txt. Was anderes steht mir nicht zur Verfügung. Schließlich müssen diese Daten mit maximal 2 Klicks erreichbar sein. "noarchive" ist exakt dafür gedacht nicht archiviert zu werden. Das hat nichts mit "noindex" zu tun, was bei mir zusätzlich aktiv ist.

Zemblanity · 27. März 2026

kurgon181 schrieb:
Das ist doch ein Witz, die Leute denken sie können einfach mit einem Metatag entscheiden was passiert und was nicht (...)

Genau dafür wurden Meta Tags und die robots.txt erschaffen. Vernünftige/Seriöse Bots halten sich auch daran, sofern man alles richtig konfiguriert hat.
Zur Not, sofern ein Bot nur mit bestimmten IPs/IP-Ranges und/oder User-Agents auftritt, kann man diese auch per htaccess sperren, dann wird der Bot allerdings auch nie Meta Tags und/oder robots.txt zu sehen bekommen.
Klar ist auch, dass es Bots gibt, die sich nicht um das, was der Webseitenbetreiber mit Meta Tags und robots.txt an Einschränkungen festgelegt hat, halten. Wenn man absolut nicht will, dass jemand etwas im Internet lesen soll, darf man dies natürlich nicht veröffentlichen. Aber es gibt eben auch Sachen, von denen man soweit wie möglich ausschließen möchte, dass sie irgendwo archiviert oder per Internetsuche zu finden sind. Mit seriösen Bots, die Regeln einhalten, kann das funktionieren. Man sollte sich halt immer bewusst sein, dass es eben auch Spielverderber-Bots gibt. Natürlich gibt's auch Menschen, die bei Bedarf einfach einen Screenshot machen und diesen online stellen.

Mirlo · 27. März 2026

Zemblanity schrieb:
Man sollte sich halt immer bewusst sein, dass es eben auch Spielverderber-Bots gibt.

Das versuche ich seit vielen Jahren den Leuten vom nun Digitale Dienste Gesetz beizubringen, dass die Impressumspflicht personenbezogene Daten sind und somit das DDG die DSGVO aushebelt. Obwohl ich die Sache auf meinen Websites bestmöglich geregelt habe, habe ich schon Hinweise erhalten, dass meine Daten mit denen vieler anderer im Darknet kursieren. Zuletzt gaben diese Leute wenigstens zu, dass es ein Problem sein könnte, aber die DSGVO die durch die Impressumspflicht veröffentlichten personenbezogenen Daten der Diensteanbieter schützen würde. Naja, wieso dann nicht gleich das Melderegister online stellen? Die Daten sind ja geschützt durch die DSGVO. Im Weiteren geht es dann um die Zuständigkeit und alle schieben die Zuständigkeit von sich ab.
Beispiel:

Ich bitte um Verständnis, dass ich vor diesem Hintergrund von einem Tätigwerden mangels Zuständigkeit absehe.

Mit freundlichen Grüßen
im Auftrag

Die metatags und die robots.txt sind Überbleibsel eines Internet-Codex aus den Anfängen des common Internets. Das war noch Fair Play. Das ist lange vorbei.

Bei Archive.org denke ich aber mal, dass es keine Absicht war.

Suche

Wayback Machine ignoriert metatag "noarchive"

Mirlo

Lt. Junior Grade

Zemblanity

Cadet 3rd Year

kim88

Commander Pro

Mirlo

Lt. Junior Grade

Quantität

Lt. Commander

PC295

Commodore

kurgon181

Banned

Mirlo

Lt. Junior Grade

Zemblanity

Cadet 3rd Year

Mirlo

Lt. Junior Grade

Ähnliche Themen