Korrupte/defekte Dateien finden

oelchenpoelchen

Lt. Commander
Registriert
Aug. 2008
Beiträge
1.516
Hi,

ich sammel gerade alle meine (und von mehreren Freunden) Dateien (Bilder, Videos, Dokumente etc.) auf externen Festplatten als Backup und suche nach einer "schnellen" Möglichkeit die Backups auf Data Degradation etc. zu überprüfen.

Mein jetziger Plan ist Hashwerte erstellen und dann etwa ein Mal im Jahr zu überprüfen. Hashs mit Hilfe von Excel Tabelle nach Veränderungen überprüfen und veränderte Dateien reparieren oder updaten. Lasse gerade QuickHash mit xxHash64 laufen und das dauert ewig. Der schafft etwa 400GB in der Stunde und wir haben wahrscheinlich über 20TB.

Kennt jemand bessere bzw. schnellere Möglichkeiten? Es geht mir größtenteils um das Finden der Dateien. Reparieren oder Ähnliches ist erstmal unwichtig.
 
Nutze ein Dateisystem, das das schon von Haus aus kann. Und ja, das dauert. Ei Scrub dauert bei mir auch mittlerweile an die vierzehn Stunden, bei ~12TB realen Daten auf einem Datensatz. Ist aber ziemlich egal, da a) das ganze sowieso in niedriger Prio läuft und b) der Rechner eh 24/7 läuft. Außerdem hat er mehr als nur den einen Datensatz. Dann kommen natürlich noch die Backups hinzu, währenddessen kein scrub auf dem entsprechenden Datensatz laufen darf.

Das ist einer der Punkte, an denen ECC-RAM iinteressant wird.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: oelchenpoelchen und rg88
400GB pro Stunde sind ca. 100 MB pro Sekunde . Da begrenzt vemutlich die Lesegeschwindigkeit deiner Festplatten. Alles auf SSD dürfte dir zu teuer sein.
 
  • Gefällt mir
Reaktionen: oelchenpoelchen und rg88
Ich überlege schon auf ReFS umzusteigen oder eben Linux. Problem ist nur, wenn ich Linux nehme, bräuchte ich einen NAS-PC und einen Mediaplayer PC.

ECC-Ram wäre auch interessant ja. Müsste ich mal ausprobieren ob mein X370 Board vom Wohnzimmerrechner das packt.

Kann man einfach Dateien von ReFS zu NTFS Festplatten kopieren?
 
oelchenpoelchen schrieb:
Kann man einfach Dateien von ReFS zu NTFS Festplatten kopieren?

Wenn man die Daten lesen kann, kann man sie auch kopieren.
 
  • Gefällt mir
Reaktionen: oelchenpoelchen
@oelchenpoelchen
Du meinst wohl die Datenintegrität. Also einen Dateivergleich von Quelle und Backup auf Bitebene.
Das mache ich mit dem kostenlosen FreeFileSync - Auf Vergleichen drücken und da zuerst "Dateiinhaltsvergleich" wählen.
Dann werden alle Bits von allen Dateien also Quelle und Ziel (Backup) gelesen und überprüft. Jede kleinste Manipulation von Dateien auf dem Backup die man normalerweise garnicht bemerkt sowie korrupte Daten, Bitrot usw.... werden damit erkannt sowie Fehler die beim Schreiben der Daten auf das Backupmedium entstanden sind (Um das abzufangen gibt es ja auch bei Synchronisations-Programmen die Verifikationsfunktion).
Ich habe über 4TB Daten damit mal überprüft. Erstaunlicherweise war alles identisch bis auf einige Excel Tabellen...
Die waren nach dem Anschauen/Öffnen aber identisch auf Quelle und Ziel (Backup) dennoch zeigte das Programm minimale Unterschiede in der Bitstruktur an.... KA wieso.
FreeFileSync wird aber bestimmt auch nicht schneller gehen als Dein Programm. Ein Vergleich auf Bitebene dauert eben sehr lange....

Die gleiche Überlegung hatte ich schon wie Du. Sind meine Daten sicher? Können sie verändert werden? Sowohl auf der Quelle als auch auf dem Backup?
Antwort: Ja. Aber das passiert extrem selten. (Google auch mal das Phänomen: Bitrot, Silent Data Corruption)
Daher hatte ich auch einst ReFS getestet und alle Daten auf eine ReFS HDD kopiert.
Funktionierte gut. Doch dieses ReFS war mit sehr mystisch bzw. suspekt da Fehler zwischen Daten und deren Checksumme auffallen sollten bzw. nach dem so beschriebenen "Datenintegritätsscan" protokolliert werden sollten. Dh im Klartext. ReFS scannt regelmäßig alle Dten auf einem Medium und vergleicht sie mit ihrer Checksumme. Einen solchen Scan konnte ich aber nie beobachten (Platte hat nie länger gerödelt) und wo Fehler protokolliert werden konnte nicht herausfinden. MS gab mir da keinen Support zu meine Fragen egal wo und wie ich das versuchte. Daher habe ich ReFS abgeharkt. Ich weis nicht wieso MS das entwickelt hat wenn es sie einen Scheiß interessiert wenn das jemand testet und Fragen dazu hat..... bzw sogar Bugs bemerkt. KA......

Checksummen in Exceltabellen ist viel zu kompliziert.
Ich verwende Hashcheck für alle wichtigen Daten, die nicht korrupt gehen dürfen auf meiner HDD... (System-Images z.B., wichtige Fotos oder Videos)
Das schreibt einen Hashfile auf die Platte direkt neben die Datei. Den kann man jederzeit anklicken und dann wird die Datei mit ihrer Hashsumme/Hashsummendatei überprüft. Automatisch.
Kannst alle Dateien jederzeit schnell mit so einer Summendatei versehen und diese jederzeit prüfen.
Leuchtet dann grün wenn alles OK ist.

Also: Entweder Du vergleichst alle Dateien oder nur gewisse Ordner mit ihrem Backup mit FreeFileSync.
Oder Du erstellst für wichtige Dateien, mehrere Dateien bis zu ganzen Ordnerinhalten (!) jeweis eine Hashdatei mit Hashcheck. Beim Anklicken der Datei wird alles überprüft und aufgelistet. Ungereimtheiten fallen sofort als rot markiert auf.
Wenn Du das aber mit allen 20 TB machen willst - dauert das wiederrum viel zu lange...
Daher mache ich das nur bei sehr wichtigen Dateien.
20 TB zu verifizieren ist schon wirklich Wahnsinn.... Überleg Dir was .....
 
Zuletzt bearbeitet:
HolyP schrieb:
Dann werden alle Bits von allen Dateien also Quelle und Ziel (Backup) gelesen und überprüft.

Na, eigentlich werden die Dateien nur mit verschiedenen Algorithmen gehasht und die Prüfsummen verglichen.

HolyP schrieb:
Das schreibt einen Hashfile auf die Platte direkt neben die Datei. Den kann man jederzeit anklicken und dann wird die Datei mit ihrer Hashsumme/Hashsummendatei überprüft.

Um die Jahrtausendwende herum machte sich ein Team aus gewieften Forschern daran, pdf-Dateien zu fälschen mit dem Ziel, zu beweisen, daß unterschiedliche Dateien die gleiche (md5-) Prüfsumme haben können. Und sie schafften es auch: Zwei (wenn auch nur geringfügig, iirc) unterschiedliche Dateien konnten tatsächlich die gleiche Prüfsumme hervorbringen.

Wandte man jedoch ein zweites, anderes Verfahren auf die selben Dateien an, ließ sich der Unterschied dann doch wieder feststellen.

Und die Moral von der Geschicht'? Vertrau einer einzigen Prüfsumme vollumfänglich nicht. Willst Dich Schützen vor Gefahren, nimmst Du derer zwei Verfahren (urgh, was für ein grausiger Reim. Wer kann's besser?)
 
Zurück
Oben