Hashwerte von 2 Dateien

cocoowatch

Cadet 2nd Year
Registriert
März 2012
Beiträge
28
Hallo Leute,

Ich wollte mittels Hashwerten verschiedene Sicherungskopien (unveränderte Datei(en)) "vergleichen". Da Hash für mich ziemlich neu ist, habe ich zu testzwecken mal eine Datei Neu.doc auf dem Desktop mit dem Hashwert einer ebenfalls erstellten Neu.doc auf einer anderen Partition verglichen. Inhalt war identisch, Hashwerte aber nicht. Daher meine Frage:

Was fließt in die Berechnung eines Hashwertes mit ein:
  • Name der Datei?
  • Größe
  • Pfad?
  • ERstelldatum?
  • oder nur der reine Inhalt?

Ich habe danach gegoogelt und schon zwei sehr lange Texte gelesen, konnte aber keine Antwort für dieses konkrete Problem finden..
 
Es wird nur der Dateiinhalt gehasht - alles andere wäre sinnfrei.
 
Hallo,

sicher das die Datein gleich sind, hast Du die kopiert oder zweimal mit word geschrieben?
 
Ich würde spontan sagen die Metadateien der Worddatei - sprich das Datum der Erzeugung ist ein anderes - darum andere Hashwerte. Würdest du eine Datei erzeugen und diese kopieren, wäre der Hashwert identisch.
 
Eine DOC-Datei enthält ja auch Meta-Informationen zur Datei in der Datei selbst. Der Inhalt mag für dich gleich sein, die Datei ist es dennoch nicht. Du kannst ja auch einen Byte-weisen Vergleich mit einfachen Kommandozeilentools wie "fc" (File Compare) machen, das zeigt dir dann auch die Unterschiede an...

Du kannst zwei mal das selbe Lied haben in MP3. Das eine hat ID3-Tags mit Interpet- und Titel-Angabe, das andere nicht. Der "Inhalt", also das Lied selbst, ist exakt das selbe. Aber die Dateien sind dennoch unterschiedlich.
 
cocoowatch schrieb:
Inhalt war identisch, Hashwerte aber nicht.

"Inhalt" ist hier relativ.
Wenn die Dateien auf's Byte identisch sind (siehe z.B. Hex Editor), dann ist es auch der Hashwert.

Wenn du unter Inhalt das verstehst, was du in einer Textverarbeitung angezeigt bekommst, dann sind die Dateien dabei nicht zwangsläufig identisch.
Das hast du allenfalls in einem reinen Text Editor, und dann auch nur wenn das Format übereinstimmt (UTF/Ansi), Art der Zeilenumbrüche, etc.
 
cocoowatch schrieb:
... zu testzwecken mal eine Datei Neu.doc auf dem Desktop mit dem Hashwert einer ebenfalls erstellten Neu.doc ....

Da ist dein Problem, auf diese Art bekommst du nie zwei identische Dateien hin.

e: also Word-Dateien, mit einem ganz simplen Dateiformat mag das schon gehen.
 
Ah die Metadateien. Das könnte ja sein. Ich habe die Dateien in der tat einmals selbst "geschrieben" (einfach eine 1 getippt). Aber die Metadaten halt....

Ich check das nochmals... und meld mich dann hier

P.S. Ja als Programm habe ich HashTab genommen ist ziemlich komfortabel zu nutzen..
 
Im Übrigen ist genau das der Sinn der Hash-Werte. Die Unterschiede mögen für dich klein aussehen, so klein, dass du sie nicht siehst. Die Hash-Werte sind aber deutlich verschieden...
 
Bei einem Hashwert werden die Binärdaten einer Datei genutzt. Erstellst du zwei Dateien die neu.doc heißen, dann mögen sie für dich gleich aussehen, allerdings haben sie eine ganze Reihe unterschiedlicher Informationen gespeichert.

Mfg Kae
 
Zurück
Oben