Speech to text mit Speaker Diarization (deutsch) Windows + Android App

ChckNrrs

Cadet 2nd Year
Registriert
Dez. 2021
Beiträge
30
Hallo,

ich habe nach Google Sucherei und nicht funktionierenden Chat GPT Vorschlägen
(inkl. totalem Müll aus Sri Lanka, der als bestes Tool von Chat GPT empfohlen wird)
kapituliert und brauche eure Hilfe. Ich suche

eine Windows Anwendung:

- speech to text, deutsch
  • bestehende Audio Aufnahmen oder live Transkription
  • primär: Upload von Audiodateien (Dateiformat: .mp3)
  • Audiodateien bis 4 h Länge
  • sekundär: live Transkription
  • Speaker Diarization
  • qualitativ sehr gute Ergebnisse !
  • Installation und Bedienung mit einer GUI wünschenswert
  • Datenschutz irrelevant
  • darf Geld kosten

Ich bin an der Einrichtung von Whisper verzweifelt, mit Whisper X gibt's da ja wohl auch Speaker Diarization.
Whisper.cpp von Const-me (ohne Diarization) hat extrem schlecht funktioniert. Mehr als die Hälfte des Uploads nicht erkannt, Sätze mehrfach in der Textdatei (bis zu 20x hintereinander), ...

Aber wenn ihr eine aktuelle Schritt für Schritt Anleitung habt, würde ich es nochmal ausprobieren. Soll ja der Gold Standard sein.

Android

  • wie oben
  • aber primär für live Transkription

Vielen Dank an euch vorab!!!
 
Wahnsinn, bei

AWS Amazon Cloud Services

Google Cloud Services

Microsoft Azure AI

wird wohl überall vorausgesetzt, dass man selber Skripte erstellt, sich ggf. mit Python auskennt.

Gibt es da keine nutzerfreundliche Lösung mit grafischer Oberfläche?

Audio Datei Upload -> Text Datei Output (mit Speaker Diarization)
Ergänzung ()

Ich probiere jetzt erstmal speechpulse.com, danach aTrain. Scheint beides Whisper basiert.

Aber schreibt gerne mal eure Erfahrungen und Tipps.

Ggf. freue ich mich auch über ein für Laien verständliches Tutorial zu Whisper und Whisper X. Danke euch vorab!
 
Zuletzt bearbeitet:
Moin,

ich nutze auf dem Smartphone whisper aus den f-droid Quellen.
Das funktioniert echt relativ gut! Verschiedene Sprecher werden aber nicht erkannt.

Wie gut sind denn deine Linux und docker Kenntnisse? Solche Service werden ja selten direkt unter Windows genutzt, sondern eher auf separaten Servern.

Du solltest dir auch im klaren darüber sein, das die transkripte immer noch eine Überarbeitungen benötigen. Vielleicht schaust du dir mal n8n an um entsprechende Workflows zu erstellen.

Wenn deine Aufnahmen nur sehr schlecht transkribiert werden, kann das an der Aufnahmequalität liegen. Auch sollte jeder Sprecher am besten ein eigenes Mikro bekommen. Einfach das Telefon oder einen Audiorecorder in die Mitte auf den Tisch legen wird nie zufriedenstellende Ergebnisse liefern.

Vielleicht wendest du dich auch an einen professionellen Anbieter, da wäre es mal interessant wie es mit deinem Budget aussieht.
 
  • Gefällt mir
Reaktionen: ChckNrrs
Ich weiß nicht, ob die folgende SW alle Wünsche erfüllt, aber Dragon Naturally Speaking war schon vor 20 Jahren einer der Vorreiter bei Spracherkennung:
https://www.nuance.com/de-de/dragon.html
 
  • Gefällt mir
Reaktionen: ChckNrrs
@Der_Dicke82 Moin. Linux und docker: von ersten Gehversuchen vor Jahren mit Ubuntu nicht vorhanden.

Professionelle Anbieter: die suche ich, aber anwenderfreundlich.

Danke für den Tipp f-droid / Whisper.

n8n schaue ich mir an. Hast du evt. Zeit für ein paar Worte, wir so ein Workflow mit n8n hier bei meinem Anwendungsbeispiel (Überarbeitung Transkription) aussehen könnte? Ich checke gerade nicht, wo und wie n8n ansetzen könnte.

Die ersten Ergebnisse mit speechpulse gehen so einigermaßen. Mal ein anderes Modell ausprobieren. Leider AI Support nur für Englisch.

@00Julius Danke auch dir. Dragon ist nur auf einen Speaker ausgerichtet und hat keine Speaker Diarization laut Beschreibung.

Da würde ein Userstatement helfen, um das einzuschätzen (mehrere Speaker; wie Dragon darauf reagiert).
 
ChckNrrs schrieb:
Dragon ist nur auf einen Speaker ausgerichtet
Da habe ich andere Erfahrungen.

Man kann bei Dragon (nur lokal?) definitiv mehrere Nutzer anlegen.
Wir benutzen Dragon schon seit Jahren für die Spracherkennung bei olfaktorischer Analytik.
Hier werden Proben von unterschiedlichen Probanden "abgerochen" und der Geruchseindruck per Spracheingabe festgehalten.
Allerdings muss der Nutzer vor der Erkennung gewechselt werden.

Wir nutzen aber ausschließlich die Workstation-Version, da die PCs häufig keinen Internetzugang haben.

Beim User-Training gibt es zumindest in Englisch die Möglichkeit unterschiedliche Dialekte auszuwählen (USA/GB/AUS/Indien!).
 
00Julius schrieb:
Man kann bei Dragon (nur lokal?) definitiv mehrere Nutzer anlegen.
Ja, das stimmt, allerdings ist es meiner Meinung nach auch so, das du dragon die Sprecher vorher bekannt machen und einüben musst. Außerdem weiss ich nicht ob Dragon tatsächlich 2 oder mehr Sprecher in einer Transkription trennen kann.


ChckNrrs schrieb:
Ich checke gerade nicht, wo und wie n8n ansetzen könnte.
N8n ist ein service für workflows! Eventuell findest du zu Transkription und n8n ein paar tutorials.

Im Grunde würde man dann etwas wie folgendes erstellen: input (Audio Datei) - Transkription durch whisper (openAI API) - Überarbeitung durch Chatgpt (Rechtschreibung, Dialogtrennung) - Output (PDF oder was du möchtest)

Wichtig bei n8n sind gute promts! Du musst chatGPT also möglichst viele Infos über das Gespräch mitgeben und falls du auch Zusammenfassungen möchtest, welche infos wichtig sind.

On the fly könntest du deinen n8n workflow dann auch mit Telegramm nutzen.

Da solche Lösungen in der regel sehr individuell sind, musst du dich schon ordentlich einarbeiten, oder jemanden dafür bezahlen dir eine Lösung zu erstellen.
 
  • Gefällt mir
Reaktionen: ChckNrrs
Der_Dicke82 schrieb:
Ja, das stimmt, allerdings ist es meiner Meinung nach auch so, das du dragon die Sprecher vorher bekannt machen und einüben musst. Außerdem weiss ich nicht ob Dragon tatsächlich 2 oder mehr Sprecher in einer Transkription trennen kann.
Du hast ja so Recht!
Ich hätte den Startpost und damit die eigentliche Intention besser lesen sollen.

Bei Teams-Meetings habe ich letztens ein Plugin für Transkription gesehen, weiß aber leider nicht den Namen, da ich nur Teilnehmer war und mich das Ganze nicht soo interessiert hat.
 
00Julius schrieb:
Bei Teams-Meetings habe ich letztens ein Plugin für Transkription gesehen
Jo die integrierten Lösungen sind mit Abstand die besten, weil sie ja auch die getrennten Audiospuren zu Verfügung haben.
Deswegen wäre es auch am besten für jeden Sprecher ein mikro zu nutzen und das Gespräch per timestamps und chatgpt am Ende zu einer kompletten Transkription zusammen zu setzen wahrscheinlich der einfachste weg
 
Zurück
Oben