Kokujou schrieb:
stimmt schon... ich hab gerade die hashs eingelesen und bei nur 800 Tracks hat es gut ne Minute gedauert...
Der initiale Aufwand dürfte meist zu vernachlässigen sein. Aufwändig ist die Suche, insb. wenn Du schreibst:
Kokujou schrieb:
dateiname würde ich nicht indizieren... bedenke wenn man das file mal umbenennt,
Und schon ist man bei der höchst individuellen Einstufung. Meine Archive (egal ob Bilder, Videos oder auch Musik) bleiben unangetastet.
Prüfe ich über die DB den Datenbestand auf Vorhandensein, dann läuft das so:
- Dateiname/Dateigröße/Änderungsdatum/Verzeichnis sind identisch: Datei müsste die sein, welche indiziert wurde
- Dateiname/Dateigröße/Änderungsdatum passen zu exakt einer bekannten Datei in der DB: DB aktualisieren, Datei ist vorhanden
- sonst wird die Prüfsumme bechnet, danach in der DB gesucht und falls die dort gefundene Datei nicht auf der HDD liegt, die DB aktualisiert. Falls es die Datei oder die Prüfsumme in der DB mehrmals gibt muss ich endgültig von SHA256 auf andere Prüfsummen umsteigen.
Das ganze könnte man noch mit Dateigröße/Ändeurngsdatum/Verzeichnis (also ohne Dateiname) erweitern um sich die Berechnung der Prüfsumme dabei zu sparen. Aber eine irgendwo auf der HDD gefundene Datei, die nur beim Änderungsdatum und der Dateigröße mit der gesuchten überein stimmt, sagt bei meinen Datenbeständen nichts über den Inhalt aus (auch nicht bei gleicher Dateierweiterung).
Meine Kameras speichern oft nur sekundengenaue Zeitstempel, was bei 8 Bilder/Sekunde zwar 8 Dateinamen aber einen identischen Zeitstempel ergibt (und mit Pech auch identische Dateigrößen).
Zusätzlich gibt es bei mir Prüfläufe, bei denen ich alle Prüfsummen auf der HDD berechne und mit den Prüfsummen in der DB vergleiche. Das dauert bei 2-4 TB (u.U. auch noch auf der USB2-HDD) dann halt ein paar Stunden.
Kokujou schrieb:
Aber genau dieses bitRot macht mir ein wenig Sorgen.
Dann macht es erst recht Sinn, die Daten nicht nur an einer Stelle prüfen zu können, sonden, z.B. in der selben Ablagestruktur auf unterschiedlichen Medien (interne SSD und ext. HDD).
Bei mir stimmen die Verzeichnisstrukturen lokal, auf dem NAS und im Backup überein, nur das Basisverzeihcnis unterscheidet sich.
Kokujou schrieb:
Ich hab eingie Serien die beschädigt sind. vielleicht bei der Übertragung verreckt, vielleicht auf älteren platten "Angerottet" deswegen würde ich beim Vergleich der File-Size tatsächlich eine Spanne hinzufügen.
Die Dateigröße ist dafür kein Kriterium, damit prüfst Du nur, ob die FAT/MFT noch ok ist. Wenn sich beim Kopieren die Dateigröße (und nicht der Inhalt) ändert, dann sollte das jede Kopiersoftware melden, weil sie Blöcke/Sektoren nicht lesen kann.
Bitrot kann irgendeine Stelle der Datei betreffen. Beliebt und vielen "älteren Semestern" sicher noch bekannt sind selbstgebrannte CDs/DVDs. Dort ist die FAT oft noch ok, Dateien im Inneren des Mediums meist auch. Kommt man in den Außenbereich, ist die Datei oder einzelne Sektoren davon nicht mehr zu lesen (obwohl das Dateisystem etwas anderes behauptet).
Zur Prüfung von BitRot/Kopierfehlern/Verschlüsselung durch Trojaner hilft nur die vollständige Prüfung der Datei gegen die früher erzeugte Prüfsumme. Oder ein Dateisystem, das diese Prüfung auf Sektor/Blockebene selber erledigt.
Die einzige Stelle, an der ich eine Toleranz einführen musste, war beim Änderungsdatum. Samba/CIFS auf Linux-Basis (egal ob mit ETX4 oder BTRFS) ist dort zu ungenau und liefert damit schlechtere Zeitstempel wie NTFS. Da es aber nur ein paar ms/ns betrifft, ist dies für die Archivierung meist irrelevant.