Tool für Duplikatfinder (alle schlecht?)

Dino93

Ensign
Registriert
Apr. 2019
Beiträge
152
Hallo zusammen,

ich habe inzwischen 6 verschiedene Tools zum Auffinden von Duplikaten ausprobiert, aber sie alle erweisen sich als äußerst unzuverlässig. AllDup, FreeFileSync, Mediapurge, Similarity, TreeSize... sie alle liefern inkorrekte Ergebnisse.

Das Problem ist folgendes: Ich habe einen Ordner mit über 1.300 Dateien. Im Laufe der Zeit könnte es vorkommen, dass Dateien denselben Inhalt haben, jedoch leicht unterschiedliche Bezeichnungen aufweisen.

Ein Beispiel:
The.Game.Video.2009 .mp4 650 MB
Game.Video.2009 .mkv 439 MB

Keines der genannten Duplikatfinder konnte diese Dateien identifizieren, obwohl der Name "Game.Video" eigentlich doppelt vorkommen sollte. Entweder habe ich die Programme falsch konfiguriert oder sie sind tatsächlich nicht in der Lage, solche Duplikate zu erkennen.

Ich brauche ein Programm der mir lediglich die Dateinamen abscannt und einfach alle auflistet, die gleiche Wörter enthalten.

Hat da jemand ein Tipp für mich, wie ich das anstellen kann?

Das wäre echt super...

vielen Dank!
 
Weil sie keine Duplikate sind. Software kann ja nicht Hellsehern. Keine Software wird zwei Dateien mit unterschiedlicher Größe als Duplikat einstufen.
 
  • Gefällt mir
Reaktionen: Dino93, cumulonimbus8, Terrier und 8 andere
Bei Bildern gibt es da schon Wege, aber die sind verdammt rechenintensiv..

Wie waere esmit eine tool, dass die alle dateinamen in einer Ordnerstruktur auflistet, die du dann alphabetisch sortierst und durchgesht
 
Dino93 schrieb:
Das Problem ist folgendes: Ich habe einen Ordner mit über 1.300 Dateien. Im Laufe der Zeit könnte es vorkommen, dass Dateien denselben Inhalt haben, jedoch leicht unterschiedliche Bezeichnungen aufweisen.

Ein Beispiel:
The.Game.Video.2009 .mp4 650 MB
Game.Video.2009 .mkv 439 MB

Wie soll da der gleiche Inhalt drin sein? Allein schon die Größe ist unterschiedlich.

Oder willst du Dateien finden wo ähnliche Inhalte drin? So einmal ein Video in HD und dann der gleiche Film in 4k aber mit Werbung und einer Tonspur mehr? Das gibt es nicht.

@Yuuri danke für den Gegenbeweis!

 
  • Gefällt mir
Reaktionen: Goltz
Duplikatfinder bringt hier nix weil dein Beispiel nicht mal ein Duplikat ist. Weder Größe noch Name noch Hash passen zusammen. Was du brauchst ist ne Liste alle Dateinamen alphabetisch sortiert, dann kannst du selber rausschmeißen was du los werden willst.
 
  • Gefällt mir
Reaktionen: hax69, DiedMatrix, nutrix und eine weitere Person
Wie oben schon geschrieben, brauchst Du eine Programm, das die decodierten Videos miteinander vergleicht und nicht die Bytes.

Video-Comparer ist das einzige, das ich gefunden habe und brauchbar zu sein scheint. Kann aber recht teuer werden.
 
Ja, ihr habt recht, das ergibt überhaupt keinen Sinn... dafür müsste man wirklich eine hochintelligente KI verwenden. Es gibt tatsächlich Unterschiede in den Dateiformaten und Größen, aber die Namen sind fast identisch. Ich werde mir eure Links in aller Ruhe ansehen. Vielen Dank für die Aufklärung und die Informationen :)
 
  • Gefällt mir
Reaktionen: klapproth
Die Namen sind "fast identisch"...

Sind sie bei "Stirb Langsam" und "Stirb Langsam 2" auch...
 
Dino93 schrieb:
aber die Namen sind fast identisch
Auch schlechtes Kriterium.

Wie viel % Abweichung würdest du zulassen?
 
  • Gefällt mir
Reaktionen: Goltz
7,5 % Abweichung sollten reichen.

Quatsch beiseite.

Ich würde erst mal die Dateinamen vereinheitlichen. Aus "Toller.Film.2020-german.FHD.mkv" würde dann "Toller Film 2020.mkv" werden. Am besten noch den alten Dateinamen am Ende hinzufügen. Also "Toller Film 2020-Toller.Film.2020-german.FHD.mkv". Damit sind alle Filme vereinheitlich und liegen auf Dateiebene dicht bei einander. Im nächsten Schritt können Dubletten erkannt und händisch entfernt werden. Danach überflüssiges aus dem Dateinamen entfernen (Dafür gibt es spezielle Tools-mal in den entsprechenden Foren nachfragen). Emby, Jellyfin und Co. erkennen die Filme selbst.
 
Name: The.Game.Video.2009 / Game.Video.2009 - unidentisch, kein Problem
Format: .mp4/.mkv - unidentisch
Größe: 650 MB/439 MB - unidentisch
Ein Programm das beide Dateien parallel abspielt und jedes Bild vergleicht.
Das gibt es nicht.
 
Also mal rein zur Technik, so etwas geht schon, kann kann aber nur über fingerprinting verfahren funktionieren und ist extrem rechenintensiv.Mal einfach ausgedrückt schauen/hören sich die Programme die Dateien an, erzeugen daraus schlüssel (keine byte hash) und vergleichen diese mit einer gewissen unschärfe miteinander. Weniger wie ein Computerprogramm es tun würde, sondern eher wie wir es tun würden.
Da die Rohdaten vergleichen werden (also das Bild, bzw. das PCM Audio) ist hierbei egal in welcher Qualität oder welchem Format die Datei vorliegt.

Genanntes Programm Mediapurge kann das für Einzelbilder und für Audiodateien bzw. Tonspuren von Videos (wenn der externe decoder ffmpeg konfiguriert ist!), jedoch nicht für die Videoinhalte.
Aber dennoch widerspreche ich der Aussage "das gibt es nicht" die vorher gefallen ist, weil es technisch möglich ist.

@Dino93 kannst du mit Mediapurge probieren wenn du den decoder konfigurierst. ich weiß ja nicht genau was du da für videos vergleichst. Für Musikvideo klappt das tatsächlich sehr gut.
 
  • Gefällt mir
Reaktionen: Dino93
Duplikat ist es im Grunde nur, wenn wirklich alles gleich ist. Hatte aber mal ein ähnliches Problem. Da muss man die Software halt nach definierten Regeln arbeiten lassen. Ich hab z.B bei Videos eingestellt, das er die maximale Auflösung behalten soll UND jeweils die ersten und letzten 1 min vom Video vergleichen soll, um sicher zu gehen, dass es das selbe Video ist. Grund des ganzen Blodsinns war halt eine Datenrettung wo die Namen nur noch kryptisch waren.
 
  • Gefällt mir
Reaktionen: Dino93
Zurück
Oben