KI Tool Untertitel?

Registriert
Aug. 2011
Beiträge
246
Hallo,

Gibt es irgendein KI Tool, das in der Lage wäre, die Untertitel für ein Video bzw. Audiospur KORREKT zu erstellen? Ich habe schon mal mit Whisper von Open AI versucht. Aber die Ergebnisse waren eher mager. d.h. bei dem was erzeugt wurde, würde ich wahrscheinlich mehr Zeit für die Korrektur investieren als wenn ich das Ganze am Anfang an per Hand mache.

Zur Info:
  • Video (bzw. Audiospur): Sprache Koreanisch (unter anderem auch gemixt mit Englisch). Es sollte aber auch Japanisch möglich sein.
  • Es ist nicht nötig, dass das Tool eine Übersetzung durchführt. Die Originalsprache reicht da vollkommen aus.
  • Das Einzige, was SEHR wichtig wäre, sind die richtige Timings + mehr oder weniger passende Text. Der Text wird später ersetzt und dient nur dazu, die passende Stelle zu finden.

mfg.
 
Monkey D. Ruffy schrieb:
Das Einzige, was SEHR wichtig wäre, sind die richtige Timings + mehr oder weniger passende Text.
das Tool soll quasi eine Untertiteldatei mit Timestamps erzeugen, also .ass oder .srt

Also bei einer ersten Suche im Netz kommen mehrere Onlinedienste zutage die das scheinbar können.
Oder suchst du spezifisch ein lokal laufendes Modell?
 
@ghecko
Ja. Mich interessiert hauptsächlich nur die Timestamps. Ob es jetzt als Text oder .srt ausgegeben wird, ist es nebensächlich. Am besten natürlich kostenlos. Ob es jetzt lokal oder online spielt es erstmal keine Rolle

 
War lange als Subtitle Timer aktiv und kann dir sagen dass selbst wenn du 1:1 die Untertitel erstellt bekommst wenn sie Sprechen werden die Subs dennoch vom Timing her schlecht sein,
Subs werden unter anderen an Szenenwechsel angepasst und LeadIn und Out ist auch noch ein Thema.

Man wird sicherlich ne Brauchbare Basis bekommen aber ohne selbst Handanlegen wird der Zuschauer nicht glücklich
 
  • Gefällt mir
Reaktionen: Physikbuddha, Tsu und Ja_Ge
Gebe @KenshiHH da Recht. Habe vor einiger Zeit für die Tolkin Hexalogie "jugendgerechte" Untertitel für alle elbisch und zwergisch gesprochenen Parts erstellt, gerade auf Grund der Timings bzw. wie lange die Untertitel Zeit auf dem Bildschirm haben muss man wegen der Lesbarkeit manchmal sinnbildlich umformulieren. Da funktioniert eine direkte Übersetzung nicht.
 
Du willst zwar ein „KI Tool“, es gibt aber eine Menge Speech Recognition / Dictation Software ohne, insbesondere für Ärzte und Konferenzen.

Wenn dein Vorhaben ein one-off ist, schaue dich bei den Cloud Providern mal um. Google hat das hier, und kennt Parameter wie "languageCode": "ko", "alternativeLanguageCodes": …, "enableWordTimeOffsets": "true":
https://cloud.google.com/speech-to-...xt#speech_transcribe_model_selection-protocol

Mit word time offsets sammelst du z. B. 13 Wörter ein oder machst bis zum Punkt, und lässt die von-bis erstem zum letzten Wort der Sequenz anzeigen.
https://cloud.google.com/speech-to-text/docs/samples/speech-transcribe-word-time-offsets-v2?hl=en
 
Zuletzt bearbeitet: (Beispiel)
  • Gefällt mir
Reaktionen: Monkey D. Ruffy und HisN
@BrollyLSSJ
Ok, Das Tool sieht schon mal interessant aus. Unter anderem hat er wohl auch diverse Module für die Generierung und man kann, so wie es aussieht, auch jeweiliger Bereich auswählen und bearbeiten.
 
Das Tool habe ich schon paar mal benutzt um Untertitel (Timings oder fehlenden Satz) anzupassen. Allerdings bisher ohne die KI Funktionen. Die waren damals nicht vorhanden. Daher kann ich da nichts zu berichten.
 
Ok, die KI Funktionen sind schon mal Mist, zu mindestens, mit der Einstellungen, die ich bis jetzt ausprobiert hatte. Aber dass man beim Audiohistogram die passende Stellen markieren und verschieben kann, ist schon mal gut.
 
Zurück
Oben