Duplikate anhand Inhalt nicht Hash finden

Cool Master

Fleet Admiral
Registriert
Dez. 2005
Beiträge
39.943
Moin, folgendes Problem:

Zwei Video-Clips welche Inhaltlich "1:1 gleich" sind. Beide Clips haben 6 Sekunden, den gleichen Inhalt aber mit dem Unterschied, dass eine Version wohl wenige Frames mehr hat. Datei A ist 4.910 KB groß, Datei B hat 4.927 KB. Typische Programme wie z.B. CloneSpy erstellen ein Hash und da sind die Dateien natürlich nicht gleich, da sie einen anderen Hashwert ergeben.

Meine Frage ist daher gibt es Programme welche anhand KI/AI bzw. ML so etwas erkennen können bzw. benötigt man das überhaupt?
 
hm, nicht, daß mir jetzt was spontan einfällt...
...aber ich befürchte, sowas wäre absolut grottenlangsam, oder aber hat eine komplette indexierung irgendwo.
wurscht, irgendwann müßte das ja den index erstellen.

langsam, weil ja jedes frame verglichen werden muß.
 
hm joa. nicht direkt fuer Filme, wohl aber fuer Bilder.

Du kannst bspw. mit ffmpeg einen NxM frames extrahieren

bspw hiermit:
https://github.com/chenmingxiang110/AugNet
schauen wie viele Frames von Film N matches in Film M haben

So wirst du die Zeit und aufloesung los.
 
  • Gefällt mir
Reaktionen: Cool Master
  • Gefällt mir
Reaktionen: Cool Master
@Alexander2

Hört sich gut an aber scheint wohl noch nicht so gut zu klappen:

Perceptual hashes take neither image details nor the semantic meaning of an image into account. This can lead to similar looking images with completely different content being evaluated as duplicates.

Dazu kommt, dass es wohl nur für Bilder geht aber nicht für Videos. Ich teste aber mal dein Link aus #6.

@Tornhoof

Das hört sich sehr interessant an. Muss ich mir morgen mal genauer durchlesen - sehr interessant :)

@madmax2010

Auch sehr interessant, schaue ich mir auch mal genauer an :)

Edit:

@Alexander2

phash habe ich probiert - ohne Erfolg. Scheint nur für Bilder zu gehen.

Das zweite läuft auf das hinaus was @madmax2010 vorgeschlagen hat.
 
Zuletzt bearbeitet:
Zurück
Oben