Wayback Machine ignoriert metatag "noarchive"

Mirlo

Lt. Junior Grade
Registriert
Feb. 2025
Beiträge
436
Hallo,

ich hatte jetzt den Fall, dass die Wayback Machine von Archive.org bei einer meiner Websites den metatag "noarchive" ignoriert hatte. Die Webpage wurde samt dem metatag archiviert.

HTML:
<meta name="robots" content="noarchive">

Es ist also kein Verlass darauf.
 
Ich hatte früher zusätzlich zu meta tags mit noarchive und "<meta name="robots" content="noindex,nofollow" />" noch
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
in die robots.txt gepackt.

Bei irgendeiner Webseite von mir tauchte auch mal was in der Waybackmachine auf, was damals in den meta tags und in der robots.txt stand, weiß ich nicht mehr. Seinerzeit hatte ich denen eine Mail geschrieben, dann wurde das gelöscht.
 
Naja man könnte auch sagen. Die WayBack Machine archiviert den Wunsch nicht archiviert zu werden ;)
 
  • Gefällt mir
Reaktionen: SR388, acidarchangel, Golden_ und 3 andere
Zemblanity schrieb:
in die robots.txt gepackt.
Ja, das hatte ich auch zusätzlich mit "User-agent: *" und wurde auch ignoriert.

Ja, man kann denen schreiben und dann löschen sie es. Habe ich auch machen lassen.

Vermutlich hat deren Filter manchmal einen Schluckauf.
Ergänzung ()

Archive.org hat ja eine API. Da habe ich aber noch keine Zeit für gehabt. Ob die auch für die Wayback Machine funktioniert? Dann könnte automatisiert nach sowas gesucht werden, weil habe mehr als eine handvoll Domains/Websites und das nur zufällig bemerkt, weil ich neugierig war.
 
Ja richtig so, das Internet ist ja auch kein rechtsfreier Raum in dem man ungestraft und unbemerkt schreiben kann was man will. Wo kommen wir denn da hin wenn hier jeder die Bots aussperren kann wie er möchte! :hammer_alt:
 
Mirlo schrieb:
dass die Wayback Machine von Archive.org bei einer meiner Websites den metatag "noarchive" ignoriert hatte.
Wo ist den dokumentiert, dass dieser metatag verhindern soll, dass die Webseite bei Wayback Machine aufgenommen werden soll?

"noarchive" soll ja nur verhindern, dass die Webseiten Suchmaschinen-Cache gespeichert werden.
Die Wayback Machine ist ja keine klassische Suchmaschine wie z. Google, DuckDuckGo oder Bing.

Außerdem verhindert der tag nicht, dass Webseiten überhaupt indexiert werden.
 
Das ist doch ein Witz, die Leute denken sie können einfach mit einem Metatag entscheiden was passiert und was nicht, dabei ist das Internet ein offenes Buch und wenn man was nicht haben will dann sollte man es auch nicht ins Netz stellen. Die Wayback Machine macht ihren Job und archiviert Seiten, ob man das nun will oder nicht, und wenn man seine Daten wirklich schützen will dann sollte man sich vielleicht für eine andere Lösung entscheiden. Es ist ja nicht so, dass man ungestraft im Netz rumposaunen kann, was man will, und dann noch entscheiden kann, wer es sehen darf und wer nicht.
 
kurgon181 schrieb:
Es ist ja nicht so, dass man ungestraft im Netz rumposaunen kann, was man will, und dann noch entscheiden kann, wer es sehen darf und wer nicht.
ach kurgon181 ... Es handelt sich um die Webpage mit den Daten des Diensteanbieters im Impressum. Klar will ich nicht, dass das herumposaunt wird, aber ich bin zu der Veröffentlichung gesetzlich verpflichtet, und nutze deswegen den metatag und die robots.txt. Was anderes steht mir nicht zur Verfügung. Schließlich müssen diese Daten mit maximal 2 Klicks erreichbar sein. "noarchive" ist exakt dafür gedacht nicht archiviert zu werden. Das hat nichts mit "noindex" zu tun, was bei mir zusätzlich aktiv ist.
 
kurgon181 schrieb:
Das ist doch ein Witz, die Leute denken sie können einfach mit einem Metatag entscheiden was passiert und was nicht (...)
Genau dafür wurden Meta Tags und die robots.txt erschaffen. Vernünftige/Seriöse Bots halten sich auch daran, sofern man alles richtig konfiguriert hat.
Zur Not, sofern ein Bot nur mit bestimmten IPs/IP-Ranges und/oder User-Agents auftritt, kann man diese auch per htaccess sperren, dann wird der Bot allerdings auch nie Meta Tags und/oder robots.txt zu sehen bekommen.
Klar ist auch, dass es Bots gibt, die sich nicht um das, was der Webseitenbetreiber mit Meta Tags und robots.txt an Einschränkungen festgelegt hat, halten. Wenn man absolut nicht will, dass jemand etwas im Internet lesen soll, darf man dies natürlich nicht veröffentlichen. Aber es gibt eben auch Sachen, von denen man soweit wie möglich ausschließen möchte, dass sie irgendwo archiviert oder per Internetsuche zu finden sind. Mit seriösen Bots, die Regeln einhalten, kann das funktionieren. Man sollte sich halt immer bewusst sein, dass es eben auch Spielverderber-Bots gibt. Natürlich gibt's auch Menschen, die bei Bedarf einfach einen Screenshot machen und diesen online stellen.
 
  • Gefällt mir
Reaktionen: Mirlo
Zemblanity schrieb:
Man sollte sich halt immer bewusst sein, dass es eben auch Spielverderber-Bots gibt.
Das versuche ich seit vielen Jahren den Leuten vom nun Digitale Dienste Gesetz beizubringen, dass die Impressumspflicht personenbezogene Daten sind und somit das DDG die DSGVO aushebelt. Obwohl ich die Sache auf meinen Websites bestmöglich geregelt habe, habe ich schon Hinweise erhalten, dass meine Daten mit denen vieler anderer im Darknet kursieren. Zuletzt gaben diese Leute wenigstens zu, dass es ein Problem sein könnte, aber die DSGVO die durch die Impressumspflicht veröffentlichten personenbezogenen Daten der Diensteanbieter schützen würde. Naja, wieso dann nicht gleich das Melderegister online stellen? Die Daten sind ja geschützt durch die DSGVO. Im Weiteren geht es dann um die Zuständigkeit und alle schieben die Zuständigkeit von sich ab.
Beispiel:
Ich bitte um Verständnis, dass ich vor diesem Hintergrund von einem Tätigwerden mangels Zuständigkeit absehe.

Mit freundlichen Grüßen
im Auftrag

Die metatags und die robots.txt sind Überbleibsel eines Internet-Codex aus den Anfängen des common Internets. Das war noch Fair Play. Das ist lange vorbei.

Bei Archive.org denke ich aber mal, dass es keine Absicht war.
 
Zurück
Oben