Duplikate anhand Inhalt nicht Hash finden

Cool Master · 4. September 2021

Moin, folgendes Problem:

Zwei Video-Clips welche Inhaltlich "1:1 gleich" sind. Beide Clips haben 6 Sekunden, den gleichen Inhalt aber mit dem Unterschied, dass eine Version wohl wenige Frames mehr hat. Datei A ist 4.910 KB groß, Datei B hat 4.927 KB. Typische Programme wie z.B. CloneSpy erstellen ein Hash und da sind die Dateien natürlich nicht gleich, da sie einen anderen Hashwert ergeben.

Meine Frage ist daher gibt es Programme welche anhand KI/AI bzw. ML so etwas erkennen können bzw. benötigt man das überhaupt?

Alexander2 · 4. September 2021

Ohne mich damit jetzt selbesr auszukennen:
https://becominghuman.ai/what-is-th...duplicate-images-3333f31f3c58?gi=4a7d9d487d5c

Edit: Nach dem Artikel könnte ja Punkt 3 eventuell auch dein Anwendungszenario sein:
3. Perceptual Hash

Edit2:
Ein klein wenig nach dem Stichwort geschaut:
https://www.openhub.net/p/pHash

whats4 · 4. September 2021

hm, nicht, daß mir jetzt was spontan einfällt...
...aber ich befürchte, sowas wäre absolut grottenlangsam, oder aber hat eine komplette indexierung irgendwo.
wurscht, irgendwann müßte das ja den index erstellen.

langsam, weil ja jedes frame verglichen werden muß.

Tornhoof · 4. September 2021

Dafür brauchst du kein KI/AI oder ähnliches. Ein Ansatz wäre zb die Motionvektoren zu hashen, dann ist das ganze zb auflösungsunabhängig machbar.

Siehe u.A. http://publica.fraunhofer.de/dokumente/N-593461.html

madmax2010 · 4. September 2021

hm joa. nicht direkt fuer Filme, wohl aber fuer Bilder.

Du kannst bspw. mit ffmpeg einen NxM frames extrahieren

bspw hiermit:
https://github.com/chenmingxiang110/AugNet
schauen wie viele Frames von Film N matches in Film M haben

So wirst du die Zeit und aufloesung los.

Alexander2 · 4. September 2021

Das beste bisher gefundene mit gui
https://github.com/ZeeWanderer/phash

Nach dem was ich bisher finden konnte, muss man da wohl selbst etwas basteln. Auf die schnelle war da jedenfalls nichts fertiges für Filmvergleiche zu finden :-)

Edit:
Hier noch etwas, das mehr auf Videos abzielt, scheint auf den ersten Blick aber auch nicht nutzbar fetig?
https://github.com/Chinmay26/Near-Duplicate-Video-Detection

Cool Master · 4. September 2021

@Alexander2

Hört sich gut an aber scheint wohl noch nicht so gut zu klappen:

Perceptual hashes take neither image details nor the semantic meaning of an image into account. This can lead to similar looking images with completely different content being evaluated as duplicates.

Dazu kommt, dass es wohl nur für Bilder geht aber nicht für Videos. Ich teste aber mal dein Link aus #6.

@Tornhoof

Das hört sich sehr interessant an. Muss ich mir morgen mal genauer durchlesen - sehr interessant

@madmax2010

Auch sehr interessant, schaue ich mir auch mal genauer an

Edit:

@Alexander2

phash habe ich probiert - ohne Erfolg. Scheint nur für Bilder zu gehen.

Das zweite läuft auf das hinaus was @madmax2010 vorgeschlagen hat.

Suche

Duplikate anhand Inhalt nicht Hash finden

Cool Master

Fleet Admiral

Alexander2

Fleet Admiral

whats4

Fleet Admiral

Tornhoof

Commander

madmax2010

Fleet Admiral

Alexander2

Fleet Admiral

Cool Master

Fleet Admiral

Ähnliche Themen

Passend zum Thema

April-Patchday für Windows 11 1.000 Hz Monitore, Secure-Boot-Status und 165 Sicherheitslücken

März-Patchday für Windows 11 Update mit Browser-Speedtest patcht auch Sicherheitslücken

Patchday für Windows 11 Microsoft verteilt neue Secure-Boot-Zertifikate