Teil der Daten soll Forschungszwecken dienen

Internet Archive: Marke von 10 Petabyte überschritten

Das von Brewster Kahle 1996 in San Francisco gegründete gemeinnützige Projekt „Internet Archive“ hat es sich mit seiner bekannten „Wayback Machine“ zur Aufgabe gemacht, späteren Generationen die Möglichkeit zu geben, internetbezogene Entwicklungen unserer Zeit nachvollziehen zu können.

Um die dabei anfallenden großen Datenmengen jedoch speichern zu können, hatte das Internet Archive zu diesem Zweck sein erstes System mit einer Speicherkapazität von einem Petabyte angeschafft. Derweil ist einiges an Zeit vergangen und nun gibt das Projekt einen wichtigen Meilenstein bekannt: Laut den Verantwortlichen hat das Vorhaben mit seinen gesammelten Webseiten am 25. Oktober die Marke von 10 Petabyte an benötigtem Speicherplatz überschritten, was mehr als zehn Millionen Gigabyte entspricht.

Meilenstein: 10 Petabyte an Daten
Meilenstein: 10 Petabyte an Daten (Bild: Internet Archive)

Zudem ließ man verlauten, dass Internet Archive den kompletten Datensatz des zwischen dem 9. März 2011 und 23. Dezember 2011 stattgefundenen Crawler-Laufs zu Forschungszwecken bereitstellen möchte. Als Ausgangspunkt diente jene Million Webseiten, die laut Alexa am häufigsten besucht worden waren. Dabei handelt es sich um rund 2,7 Milliarden URIs, die in sogenannten WARC-Dateien mit einer Gesamtgröße von circa 80 Terabyte zusammengefasst worden sind.