Doppelte Videodateien mit gleichem Inhalt finden ...

B

butterbloemchen

Gast
Servus,

ich habe eine sehr große Sammlung an Clips und Videos.

Gibt es ein Tool, mit dessen Hilfe man den Inhalt mehrerer Videodateien - unterschiedlicher Formate und Kompressionen - vergleichen kann ?

Ich wette ich habe dutzende doppelte Videos - aber normale Duplikatfinder finden nur gleich große oder gleich benannte Dateien.

Zum Teil habe ich auch kleinere Ausschnitte aus größeren Clips.
Das nimmt ja nur unnütz Platz weg.

Die Suchfunktion spuckt da leider nichts passendes aus.

Bis dann
Euer Butterbloemchen
 
Hi,

ja klar, das "Tool" sitzt vor der Tastatur ... :D
 
Ja, nee - is klar ... ich durchsuche auch manuell 5000+ Videos ...

Es gibt ja Programme, die Bilddateien vergleichen und dann ausspucken, welche Bilder ähnlich sind.

So etwas muss es doch für Videos auch geben.
 
butterbloemchen schrieb:
So etwas muss es doch für Videos auch geben.

ach ja? Warum? Weil du es so willst?

Der Unterschied einer Bilddatei und einer Videodatei scheint dir nicht so geläufig zu sein.
Ja ja, ich weiß, beides sind Bilder ...
Du kannst dich hier ja wieder melden, wenn du ein Programm gefunden hast.
 
Programmiertechnisch ist sowas sicherlich machbar, von der Idee her auch garnicht so kompliziert, allerdings dürfte der nötige Rechenaufwand ziemlich enorm sein.
Der reine Vergleichsaufwand dürfte äquivalent mit etwa 10-100 Mrd. Bildvergleichen sein, je nach Videolänge. Und dabei ist noch nichtmal der Rechenaufwand zur Zerlegung der Videos in vergleichbares Material mit einberechnet -> Meld dich, wenn du nen Prog findest, welches das unter ner Woche schafft :D
 
Da mein anderer Thread ja zu gemacht wurde push ich hier mal in der Hoffnung das es doch noch so ein Programm gibt.
 
Solch ein Programm ist/wäre schon ziemlich speziell. Ein BIT für BIT vergleich greift hier schonmal gar nicht und eigentlich bleibt nur der Abgleich von Bildern. Dazu kommt noch die benötigte Toleranz für unterschiedliche Kompressionen und Auflösungen... Und die Hardwareanforderungen um sowas zeitnah erledigen zu können sind alles andere als gering... Sorry, aber wenn überhaupt, dann findest Du derartige Software beim nächsten Geheimdienst Deines Vertrauens. :D
 
Ich glaube nicht, habe es mal hier getestet (unter 200GB Videos) wo ich mir ziemlich sicher bin das gleiche / ähnliche (also kurze Versionen etc.) dabei sind aber gefunden hat er nix. Kann aber auch sein das 25% noch zu hoch gesetzt sind? Werde es mal mit 5% an meinem HTPC versuchen wo die meisten Files liegen aber das dürfte aufgrund des Prozessors und der Datenmenge was länger dauern. ;)

Edit: Ups seh grad sogar ne falsche Einstellung benutzt, so kanns auch nicht funktionieren. Naja ich teste trotzdem mal am HTPC und schau was bei rum kommt. Denke aber 10% sollten dann reichen ... :)

Edit: Kurz als Rückmeldung!
Bei meinem HTPC (über 3k Videofiles mit über 750GB) sind wir nun bei 2%! :D

Bei meinem Test auf meinem Desktop - der natürlich auch mit seiner Hardware was schneller ist - konnte ich sogar doppelte Files finden. Ob das nun alle waren kann ich schwer sagen aber anscheinend funktioniert es zum Teil sogar auch wenn es recht aufwändig ist. 3,6GB mit ca. 27 "ähnlichen" Files hat er bisher gefunden (wenn die restlichen 98% ähnlich gut gehen und das Ergebnis stimmt hätte ich sogar wieder was Platz :D).

In Anbetracht der bisher vergangenen Zeit wäre das hochgerechnet allerdings ... nun ja ... recht lang. ;)
 
Zuletzt bearbeitet:
Also ich habe dasselbe Problem.
Da gibt es erst einmal Visual Search Pony. Das aussortieren der doppelten Videos geht recht bequem, aber man hat keine Einstellmöglichkeiten und das Programm findet auch kaum was.

Dann hab ich noch VisualDupe gefunden. Das Programm sieht nach "Proof of Concept" aus, das es nie zur Alphaversion geschafft hat. Bedienung und aussortieren der doppelten Videos ist sehr umständlich, man hat aber Konfigurationsmöglichkeiten. Dementsprechend wird je nach Einstellung mehr gefunden.
 
sorry, aber "antitwin" wird kein vernünftiges Ergebniss ausspucken
aber trotzdem eine Lösung.
Es handelt es sich um Clips und Videos, ich glaube kaum das die größer als 2 GB sind.
Alles was drüber liegt, ist halt pech.


Gruß Dimpel
 
Push.
Hab auch gerade ein Ähnliches Problem.
hoffe einige kennen ein bessern Tool.
 
/PUSH selbes Problem habe Ich auch
 
hi,

ich habe das Problem des "Video-Vergleichens" durch Reduktion auf einen "Bild-Vergleichen" angegangen:

1. Extrahieren von Bildern aus den Videos an einer festen Zeitposition
2. Vergleichen/Suchen in diesen Bildern

zu 1)
das Extrahieren mache ich mit dem Programm ffmpeg, das Batchfile dazu ist unten angehängt,
der Pfad zur ffmpeg.exe muss natürlich angepasst werden.
Der Aufruf über cmdline könnte z.B. sein:

Code:
$  thumbs 02:00 d:\videos d:\thumbnails_2_min
Dies extrahiert aus allen (Video-)Dateien im Ordner d:\videos je ein Bild an der Zeitposition 00:02:00, also bei "ziemlich genau" 2 Minuten und legt das Bild im jpg-Format im Ordner d:\thumbnails_2_min ab.
Die Bilddatei hat den Namen der Videodatei, ergänzt um die Dateierweiterung ".jpg"

zu 2)
das mache ich vorzugsweise mit VisiPics .
Dort kann man mit der Bewertungsschwelle beim Vergleichen sehr gut die Ergebnismenge einschränken.


Für das Beispiel müssen alle Videos natürlich mindestens 2 Minuten Laufzeit haben. Das "ziemlich genau" 2 Minuten soll heissen: je nach framerate gibt es gar kein Bild GENAU an der Stelle 2 Minuten, dann wird ein Bild "neben" 2 Minuten extrahiert.
Wenn bei 2 Minuten nicht so viele Duplikate wie erwartet gefunden werden, dann einfach 'mal den Zeitpunkt des extrahierten Bildes variieren.

have fun
 

Anhänge

  • thumbs.zip
    382 Bytes · Aufrufe: 593
Okay dann geb ich auch mal meinen Senf dazu. Zu allererst mal hab ich jetzt wieder nen neuen Account auf ner Seite, die ich vermutlich nie wieder brauchen werde. Und das nur, weil im Jahre 2017 Facebook-Logins immer noch sehr rar sind. Überall muss man sich separat registrieren, auch wenn man nur mal schnell zu nem Beitrag Hilfestellung leisten will, über den man zufällig per Google gestolpert ist. Aber egal jetzt.

Ich habe zwar keine fertige Lösung des Problems, jedoch nen ziemlich brauchbaren Denkansatz für die umsetzung eines entsprechenden Tools. Wäre ich nen fähiger Programmierer, würde ich das sofort umsetzen. Denn auch ich suche nach einer Software, die das kann. Auch ich habe auf meiner 40TB NAS tausende Videos mit verschiedener Kompression und verschiedenen Längen. Es gibt beispielsweise Szenen in einem 2 Stunden Video, die irgendwo aber auch noch doppelt vorhanden sind innerhalb ganz anderer Videos. Es geht darum, den "visuellen" Inhalt selbst zu vergleichen. Viele der hier aufgeführten Lösungsvorschläge würden nicht greifen, weil sie entweder davon abhängen, dass zumindest der Zeitindex genau übereinstimmt oder die Dateien gar binär vergleichbar sind. Das fällt natürlich alles ins Wasser!

Meine Idee: Aus der beschäftigung mit Videokompression weiss ich, dass innerhalb der Kompression sogenannte "Bewegungsvektoren" erstellt werden. Jeder Kameraschwenk, jede Bewegung im Bild wird wärend der Analyse des Quellmaterials in Form von Bewegungsvektoren (Zahlenwerte) aufgezeichnet.

Beispiel-Link, der wahrscheinlich trotz Wichtigkeit der Veranschaulichung wie in jedem Forum wieder gesperrt wird ;-) :

https://www.youtube.com/watch?v=CV_8rR9LxGU

Falls der Link gesperrt wird, bei Youtube einfach nach "Bewegungsvektoren" suchen. Erster Eintrag. Anhand solcher Bewegungsvektoren (reine Zahlenwerte) könnte man vergleichen, ob z.B. die gleiche Abfolge bestimmter Bewegungen in mehreren Videos irgendwo auftaucht. Und das ist wesentlich leichtere Kost für den Rechner, als Einzelbild für Einzelbild fertig gerenderter Videos zu vergleichen. Diese Technik könnte man z.B. verwenden, um ein solches Tool zu entwickeln. Youtubes Contentfilter, mit denen innerhalb von Sekunden Urheberrechtsverletzende Uploads ausfindig gemacht werden, arbeiten mit nichts anderem. Mir kam sogar schon mal ein Avisynth Script unter, dass nur die Bewegungsvektoren eines Videos ausgibt. Da müsste sich jetzt nur noch nen Avisynth Genius ans Werk machen, nen Script zu schreiben, dass mehrere Videos anhand der Vektoren vergleicht

Man könnte natürlich auch "erzwungene I-Frames" vergleichen lassen, den jeweils ersten Frame nach einer drastischen Änderung im Bild (z.B. bei einem Szenenwechsel)
 
Zuletzt bearbeitet:
mhhh. eine frage aus dem jahr 2008 von einem user, der nicht mehr aktiv ist im jahre 2010, 2011, 2014, 2015 zu kommentieren, naja.. kann man machen. aber das ganze noch 2017 nochmals zu kommentieren, das eigentlich nicht möglich ist.... also ich weiss nicht...
 
chrigu schrieb:
mhhh. eine frage aus dem jahr 2008 von einem user, der nicht mehr aktiv ist im jahre 2010, 2011, 2014, 2015 zu kommentieren, naja.. kann man machen. aber das ganze noch 2017 nochmals zu kommentieren, das eigentlich nicht möglich ist.... also ich weiss nicht...

Wenn es auch vielleicht nicht mehr um den Threadsteller geht - wobei man ja nie wissen kann, ober nicht doch mal wieder reinschaut - steht das Thema dennoch nach wie vor im Raum, da eine richtige Lösung ja nie erfolgt ist. Menschen mit ähnlichem Anliegen werden genau wie ich danach googlen, auf diese Frage in diesem Forum stoßen und sich die Kommentare durchlesen. Hätte ich jetzt wirklich die Lösung gehabt, wäre das für andere doch ne gute Sache gewesen? Oder nicht? Oder wie?
 
eben, es ist keine lösung, sondern eine "rekapitulation der frage aus dem jahr 2008". bringt auch dank google keine mehrnutzen.
grund: die bewegungsvektoren werden nach erfolgtem analysieren eines bildes wieder gelöscht. stell dir nur vor, wieviel ram nötig wäre für ein 10 min. film mit 25bilder pro sekunden. und die komprimierung ist als hauptzweck eine minimierung der dateigrösse, wenn da noch bewegunsvektoren mitgepackt würden, wäre die datei gleich gross dafür mit schlechterer qualität.. kontraproduktiv.

und... wenn es solche software gäbe, die eine video bildinhaltlich mit anderen videodaten vergleichen würde, wäre diese software schon länger in sämtlichen betriebssystem eingebaut worden...
 
chrigu schrieb:
eben, es ist keine lösung, sondern eine "rekapitulation der frage aus dem jahr 2008". bringt auch dank google keine mehrnutzen.
grund: die bewegungsvektoren werden nach erfolgtem analysieren eines bildes wieder gelöscht. stell dir nur vor, wieviel ram nötig wäre für ein 10 min. film mit 25bilder pro sekunden. und die komprimierung ist als hauptzweck eine minimierung der dateigrösse, wenn da noch bewegunsvektoren mitgepackt würden, wäre die datei gleich gross dafür mit schlechterer qualität.. kontraproduktiv.

und... wenn es solche software gäbe, die eine video bildinhaltlich mit anderen videodaten vergleichen würde, wäre diese software schon länger in sämtlichen betriebssystem eingebaut worden...

Alsoooo......

Meinetwegen sei dies die Rekapitulation einer Frage aus 2008. Und? Kostet es etwas? Schadet es irgendjemandem? Nein, im schlechtesten Fall tangiert es die Leute nicht weiter. Im besten Falle wird die Theorie von den richtigen Leuten aufgegriffen und denen bringt es dann was. Dieses Forum hier kostet es gar nichts...

Aber zum Thema. Wir sind uns doch bestimmt über folgendes einig: Die reinen Bewegungsvektoren, die in Zahlen festgehalten werden, fressen ein vielfaches weniger an Speicher als das Video an sich. Zumal sich Zahlenabfolgen im Speicher seeehr gut komprimieren lassen. Eine Zahlenangabe über Intensität und Richtung eines bspw. Kameraschwenks, kostet vielleicht nen hunderdstel des Speichers der kompletten Videosequenz als Video. Sind wir uns darüber einig??? Wenn nicht, können wir gerne wieder auf Anfang zurück gehen.............

Zweitens bist du der Annahme, ich hätte eine Neuencodierung aller Videos im Sinne und zusätzlich zum Video würden noch die neu erzeugten Vektoren gespeichert. WTF...NEIN! Das Tool geht hin, analysiert eine Vielzahl von Videos und speichert die jeweiligen Bewegungsvektoren so lange in einer Datenbank auf der HDD ab. Nur die Vektoren, nicht noch mal das Video. Im RAM muss das ganz und gar nicht gelagert werden. UND NOCH MAL.....die reinen Daten über die Bewegungsvektoren fressen einen Kleinstbruchteil des Videos im Vergleich. Nachdem so um die 100 Videos analysiert wurden und es meinetwegen um die 6GB Vektordaten auf der HDD gegeben hat, geht das Tool hin und prüft die Vektordaten aller Videofiles auf Übereinstimmungen von Bewegungsabfolgen. DAS.....und nur das müsste dann im RAM erfolgen. Also werden dafür quasi 6GB Ram verbraucht. Wieviel ist heute noch mal standard? Also ich hab 32GB drin. UND SELBST DANN, WENN DER RAM KNAPP WÜRDE.......... würde das Tool den Zwischenstand aller bisherigen Vergleiche vorübergehend auf der HDD auslagern. Sowas wäre kein wirkliches Problem für nen fähigen Programmierer, der sich mit der Speicherverwaltung seiner Sprache auskennt.
 
Zuletzt bearbeitet:
Zurück
Oben