Brauche Speech-to-Text für Liveeingaben

Odium · 26. Oktober 2022

Hallo zusammen,

ich wollte mal das Schwarmhirn anwerfen ob jemand weiß, ob es schon sowas gibt oder man es sich selbst irgendwie zusammenbauen könnte. Ich brauche ein Tool, mit dem ...

1. Ausgelöst per Tasteneingabe (z.B. AutoHotkey oder Stream Deck)
2. Meine Stimme über Mikrofon aufgenommen wird
3. Speech-to-Text darauf angewendet und
4. das Ergebnis in einer Textdatei abgelegt wird, wo noch Tag-Stunde-Minute Zugaben dazu stehen.

Also zum Beispiel bin ich mit Buddies am daddeln, erlebe eine tolle Szene, hab sie aufgenommen, drücke die Taste und sage etwas und das wird dann abgelegt in der Datei mit 2022-10-26-20:52:14 - "Tolles Teamplay, Rocky hat verloren"

Ich versuch seit Jahren Tonnen an aufgenommenem Material richtig zu katalogisieren, ohne das es zuviel Aufwand ist. Ich denke, dieser Ansatz wär mal ein Versuch wert. Kennt jemand eine Möglichkeit, wie ich das ganze angehen könnte?

Ergänzung (26. Oktober 2022)

Ok, also hab normal eine Recherche aus einem anderen Blickwinkel gemacht und es scheint, dass die professionellen Lösungen nur auf fertige Video/Audiodateien abzielen oder die Sache auf Unternehmen zuschneiden, die Kundenaussagen analysieren wollen, was weit über das Ziel bei mir hinausgehen würde.
Falls sich wer für ein ähnliches Problem interessiert, scheint mir der Ansatz hier im Video noch am geeignesten zu sein.

DorMoordor · 26. Oktober 2022

Suchst du eine fertige Lösung? Oder wäre es dir auch möglich ein kleines Pythonscript zu schreiben? Dann könntest du das hier mal ausprobieren

Der_Dicke82 · 26. Oktober 2022

Moin moin,

Amazon bietet ihre "Speech to Text" Engine an und wenn man unter 60min im Jahr bleibt ist das auch kostenlos https://aws.amazon.com/de/transcribe/pricing/

Ansonsten würde dir doch theoretisch auch der Timestamp reichen, oder? da sollte ein einfaches Script auf eine Taste komplett ausreichen und eventuell startest du den Timer dort mit deiner Aufnahmesession, weil die Aufnahmezeit und die Uhrzeit ja auch nicht unbedingt gleich sind.

Solltest du wirklich speech 2 text verwenden wollen, solltest du den Timestamp vorher setzten lassen und dann den Text nachreichen, sonst gäbe es da sicher eine kleine Verzögerung.

Gruß, Stefan

Edit: Der Workflow vom script wäre dann wie folgt: Timestamp in Textdatei, Mikrofonaufnahme x Sek. als wave, wave an S2T Engine liefern, Resultat in die Textdatei schreiben.

Mit den Scripten kann ich dir nicht so gut weiterhelfen, ich nutze für soetwas unter Linux ein normales Bashscript

madmax2010 · 26. Oktober 2022

Kaufbar und fertig: Dragon Natural Speaking

Wenn du dir selbst was hacken wilslt: https://github.com/mozilla/DeepSpeech

Hiermit habe ich noch nicht gearbeitet, aber gutes gehoert: https://github.com/speechbrain/speechbrain

Da du filme sagst:
https://github.com/abhirooptalasila/AutoSub
Basiert auf DeepSpeech und autogeneriert subtitles in Filme. Habe den code nicht gelesen, aber dass sollte sich in 5 Minuten umbauen lassen. Ob die Worte nun in einen Mediacontainer, eine subtitle Datei oder in einer Textdatei landen, ist ja am ende nur ein detail.

Das program auf eine taste zu legen sollte trivial sein.

Timestamps werden da schon drin sein. Nur in relation zu Medien Dateien, nicht live

SI Sun · 26. Oktober 2022

Dragon Natural Speaking ist die beste Lösung, die man sich beschaffen kann.
Alles andere ist im Vergleich bestenfalls zweitklassig. Es geht nicht nur um die Erkennung der Wörter, sondern auch um die Interpunktion und Grammatik und da trennt sich die Spreu vom Weizen.
Diese Software wird auch oft Behinderten eingesetzt.

madmax2010 · 26. Oktober 2022

SI Sun schrieb:
Diese Software wird auch oft Behinderten eingesetzt.

Und, mindestens initial, für Alexa, cortana und siri.
Und in modernen Autos aller hersteller.

Bei Alexa hat Amazon AFAIK inzwischen eigene erkenner.

Will eigentlich nur nochmal betonen: Das ist der Standard. So ziemlich allen anderen sehr weit voraus.

In weiten Teilen kommen hier auch keine neuronalen Netze zum Einsatz

Odium · 26. Oktober 2022

Dragon Natural Speaking hat keine Demo, hab ich jedenfalls nicht gefunden. Die letzte Version, die ich davon mal getestet hab, war irgendwann 2002 glaub ich, und da funktionierte es auch nur innerhalb bestehender Textdateien. Ich brauche aber explizit etwas, was im Hintergrund läuft und den (kleinen) Textoutput auf .txt Dateien verteilt, ohne das da irgendwas im Vordergrund erscheint.
Vermutlich sind die Eigenbaulösungen über Python & Co die einzige Möglichkeit. Danke soweit für euer Feedback!

Suche

Brauche Speech-to-Text für Liveeingaben

Odium

Captain

DorMoordor

Lt. Junior Grade

Der_Dicke82

Lt. Commander

madmax2010

Fleet Admiral

SI Sun

Gast

madmax2010

Fleet Admiral

Odium

Captain

Ähnliche Themen