Entwicklung eines Text zu Sprache Programm für Windows und Linux

xFreal

Cadet 4th Year
Registriert
Feb. 2024
Beiträge
67
Seid gegrüßt, ich arbeite gerade an etwas und würde gerne mal eure Meinug dazu hören.

Aktuell arbeite ich an einem Programm was Text zu Sprache via KI generiert und komplett Offline nutzbar ist.

Das Programm läuft über die eigene Hardware und man kann ohne Copyrights oder Lizenzen, ganz nach belieben Text in Voice umwandeln.

Ziel ist es ein Programm zu gestalten was es ermöglicht ohne Abos, laufende Kosten oder Cloud und ohne Datenschutz relevante Sachen seine Texte via KI in Sprache umzuwandeln.

Das ganze soll auch erschwinglich sein und für jeden zugänglich ohne komplizierte Vorbereitung.

Programm Installieren, mitgeliefertes KI Model auswählen und fertig, dann kann man schon Text to Voice generieren.

Eine Funktionstüchtige Version habe ich bereits fertig gestellt, muss aber noch ein Paar Quality of Life Features hinzufügen und die Stimme noch Menschlicher machen. Die aktuelle Stimme ist schon sehr gut aber noch nicht Markt reif.

Was meint ihr, gibt es Bedarf für so ein Tool?

Ich kann bei bedarf das ganze auch noch ausführlicher erklären.
 
@TorenAltair Ich hab das Sprachmodel nicht Entwickelt, ich baue die Funktionen und die Benutzeroberfläche drum herum. Model basiert auf XTTS v2

Menschliche Stimmen werden von Menschen eingesprochen, die man dann verwenden kann.
 
War mir nicht bewusst. Danke für den Hinweis. Gibt es da Lizenzen? Falls nicht muss ich mich anderweitig umschauen.
 
Zuletzt bearbeitet:
Afaik gibt's die Firma nicht mal mehr, ich habe keine Ahnung wer der aktuelle Rechteinhaber ist.
 
@Tornhoof Ich hab gerade mal bissl geschaut, scheinbar weiß niemand so genau was mit der Kommerziellen Lizenz ist. Ein paar meinten ''Firma gibts nicht mehr also alles gut'' andere meinten das die Lizenz noch jemanden gehört und die Person sie nicht frei gibt. Keinen Ahnung, ist mir aber zu unsicher. Vielleicht mal Apache 2.0/CosyVoice ausprobieren.
 
Das Programm nicht, aber sehr ähnliche.
Windows selbst hat ja eine Sprache zu Text Diktierfunktion.

Unter windows würde ich von Rain Service Transcribe nutzen
 
xFreal schrieb:
Vielleicht mal Apache 2.0/CosyVoice ausprobieren.
Viel Erfolg.

Persönliche Meinung zu den ganzen AI Modellen, das ist alles ein Minenfeld bei der Lizensierung. Wenn da nicht explizit beim Modell (also bei huggingface) eine der bekannten Lizenzen dabei steht, würde ich da gleich meine Finger von lassen.
 
@Tornhoof Danke dir auf jedenfall. Ich werde mich da mal reinlesen und mal schauen wieviel ich verstehe.

Vielleicht ist ja was für mein vorhaben dabei, ich bleib auf jedenfall dran.
 
Kontaktier doch mal den Entwickler von Hyperwhisper. Der hat genau das für Mac gemacht und verkauft Lizenzen. Der antwortet auch immer sehr schnell auf Bugreports. Vielleicht hat er Interesse an einer Zusammenarbeit. Dann könntet ihr Hyperwhisper auf alle Plattformen bringen. Und er hat schon Erfahrungen über die Nachfrage nach solchen Programmen.

Ich stelle bei Hyperwhisper fest, dass die lokalen, schnell ausführbaren LLM für Deutsch noch nicht leistungsfähig genug sind, um auch nur halbwegs fehlerfrei zu erkennen. Aber das ist ja nur eine Zeitfrage und/oder Hardwarefrage.
 
xFreal schrieb:
Was meint ihr, gibt es Bedarf für so ein Tool?
Ja.
Falls du das nicht schon eingebaut hast, dann erlaube auch, dass man das unter Linux für mehr nutzen kann, z. B. um Aktionen zu triggern. Ich denke da an den Klassiker "Starte Programm X" bis hin zum Exoten wie ein Passwort ansagen statt einzutippen oder es vielleicht sogar in Skripten zu verwenden.
 
TeeKayEV schrieb:
Kontaktier doch mal den Entwickler von Hyperwhisper. Der hat genau das für Mac gemacht und verkauft Lizenzen. Der antwortet auch immer sehr schnell auf Bugreports. Vielleicht hat er Interesse an einer Zusammenarbeit. Dann könntet ihr Hyperwhisper auf alle Plattformen bringen. Und er hat schon Erfahrungen über die Nachfrage nach solchen Programmen.

Ich stelle bei Hyperwhisper fest, dass die lokalen, schnell ausführbaren LLM für Deutsch noch nicht leistungsfähig genug sind, um auch nur halbwegs fehlerfrei zu erkennen. Aber das ist ja nur eine Zeitfrage und/oder Hardwarefrage.
Hyperwisper sieht interessant aus. Ist aber ein Abo Modell und darauf wollte ich nicht setzten. Mein gedanke war, einmal das Programm kaufen und ein Lebenlang benutzen für einen vernünftigen Preis.
Ergänzung ()

Krik schrieb:
Ja.
Falls du das nicht schon eingebaut hast, dann erlaube auch, dass man das unter Linux für mehr nutzen kann, z. B. um Aktionen zu triggern. Ich denke da an den Klassiker "Starte Programm X" bis hin zum Exoten wie ein Passwort ansagen statt einzutippen oder es vielleicht sogar in Skripten zu verwenden.
Eine Steuerung ist im Moment noch nicht in meinem Programm, ist aber für eine spätere Version geplant. Ich bin gerade dabei Text to Voice zu Optimieren und ich muss noch einige Funktionen einbauen um das Programm benutzerfreundlicher zu machen.
 
  • Gefällt mir
Reaktionen: Krik
Hyperwhisper kostet $39 für lebenslange Nutzung. Nur wenn du online Transkription nutzen willst, musst du Credits kaufen. Was aber völlig logisch ist, weil der Anbieter ja für den API Zugang der großen LLM Firmen zahlen muss.
 
xFreal schrieb:
Aktuell arbeite ich an einem Programm was Text zu Sprache via KI generiert und komplett Offline nutzbar ist.
Sowas gibt es unter Linux und nennt sich Speech Note als GUI, und piper für die shell.
Das Rad kannst du aber wenn du magst neu erfinden. :-)

Grüße
Olav

PS; Ich hab ein nettes kleines Script welches piper ein wenig komfortabler in der Anwendng macht, z.B. Marddown Text rein, und .wav Datei raus. Wer sowas haben will einfach Bescheid geben.
 
@valovalo Ich werde dran bleiben. ^^ Vielleicht Funktonierts ja mit der App unter Windows, Ziel ist es das Programm extrem einfach in der Anwendung zu machen und Massentauglich. Natürlich kommen da auch ordentlich Funktionen rein.

Wenn ich so weit bin, kann ich ja mal was verteilen und ihr könnt mir dann FeedBack geben, falls ich das darf und ihr wollt.
 
Zurück
Oben