News Neues OpenAI-Modell: „Voice Engine“ kann mit 15-sekündiger Sprachaufnahme die Stimme klonen

Mantasia · 1. April 2024

Tja es wird wohl bald jeder seine Stimme verschlüsseln müssen um sicher zu sein.
Vor kurzem habe mir erst die Patente dafür sichern lassen… nicht
Schade das next Big thing verpasst.

KarlsruheArgus · 1. April 2024

Krik schrieb:
Das Ergebnis ist jedenfalls beeindruckend. Gura klingt wirklich wie Gura.

Findest du ? Also wenn man die Originalstimme mit dem Equalizer vergleicht ist das ein Unterschied wie Tag und Nacht.
Vor allem ohne jedwede Energie wie ein Text to Speech Programm im TwitchChat und da gab es in den letzten 2 Wochen wieder einen kleinen Hype um neue Stimmen deswegen verstehe ich auch nicht wie manche daran denken können Filme, Serien, Podcasts und Hörbücher damit ersetzten zu wollen.
Da rennt einem die Kundschaft weg und das wird auch erstmal so bleiben.
Um ein Wort richtig zu betonen Bedarf es eben einer Intelligenz die auch in den nächsten Jahren nicht verfügbar sein wird.

Edit: Original zu Originalstimme geändert

whats4 · 1. April 2024

es ist intrinsisch. kulturintrinsisch.
wie haben eine obsession für heuchelei & fake-potential. weil heuchelei ein sehr zentraler teil unserer kultur ist.
große resourcen fließen in die entwicklung, erfolgreiche imitationen, oder das, was oberflächlich eben durchgeht, machen karrieren.

auf multiplen ebenen.
ja, wir schaffen uns ab. stetig beschleunigend.

Mcr-King · 1. April 2024

Ich finde es ja immer wieder cool und beängstigend zu gleich was Ai alles kann und ich persönlich finde es wird die Menschen weiter bringen oder komplett verdrängen wo bei ich letzteres annehme da es logisch ist.

whats4 · 1. April 2024

aber es ist ein hype des potentials.
und nur das.
weil in der praxis scheitert KI am "hard problem".
die maschine weiss erstens ned was sie tut, und zweitens nedmal, daß sie was tut.
und es ist ned lösbar, ned mit unserem verständnisparadigma.
weil das sagt:
die natur/der kosmos/ alles ist unbelebt & dumm. regiert von random collisions & gravity.
also wo kommts her, das, was wir bewusstsein nennen?

und das, was wir uns einig sind, zu besitzen, ohne zu wissen, was es genau ist, kann genau deshalb nur simuliert werden, aber bis dato gibts keine möglichkeit, es der maschine beizubringen.

aber mit oberflächlicher simulation läßt sich derzeit beliebig viel geld machen. so ist das halt.
und es ist ned neu.
der bogen von den geschichtlichen automata bis zur KI heute ist ein durchgehender. im prinzip dieselbe sache, halt jeweils im rahmen der technischen machbarkeiten.

Kraeuterbutter · 1. April 2024

ChrisMK72 schrieb:
Was is mit Nachrichtensprechern?
Da braucht man doch bald nur noch einen Text eingeben, der dann mit den dazugehörigen Bildern und Videos halt die passende Sprachausgabe bereitstellt. Je nach Bedarf auch mit den Stimmen bekannter Nachrichtensprecher, denen man noch einmalig Betrag X (entsprechend wenig, gegenüber den Personalkosten, die man einspart) für das Copyright (auf die Stimme) zahlt.

das gibts tatsächlich schon seit Jahren...

Chris Lohner, Model, Jahre lang FErnseh-Ansagerin im österreichischen ORF hat Jahrzehnte lang die Bahnhofsansagen für die ÖBB gemacht..
für ganz Österreich..

vor paar Jahren dann hat sie ihre Stimme "einscannen" lassen, womit die ÖBB sicher stellen kann, dass ihre Stimme - auch nach ihrem Tod - weiterverwendet werden kann...
Viele der Ansagen heute sind bereits digital mit ihrer Stimme erstellt worden, auch für neue Bahnhofsnamen, die sie so nicht eingesprochen hat

https://www.derstandard.at/story/2000144840966/wie-chris-lohner-zur-stimme-der-oebb-wurde

allerdings war das damals nicht mit 3Sekunden oder 15 Sekunden getan..

laut Artikel hat sie 15.000 Sätze eingesprochen
also wohl eher "zusammenstückeln" von Silben und Wörtern...

whats4 · 1. April 2024

Kraeuterbutter schrieb:
Chris Lohner

ach!
war mir eine ikone in meiner jugend. tolle frau!

Sterntaste · 1. April 2024

Hmm, faszinierende News.
Ich gerate da aber direkt in eine Ambivalenz. Wo macht sowas Sinn? Filme mit den Originalstimmen synchronisieren lassen? Vorstellbar. Aber nicht jede Originalstimme muss funktionieren. Ich finde, dass nicht wenige Synchronisationen besser klingen als die Originale. Vielleicht aber besteht hier die Chance, sogar selbst aus einem Pool an Stimmen auszuwählen. das fänd ich spannend.
Oder wenn Songtexte umgesetzt werden sollen von Sängern, die vor den Aufnahmen verstorben sind.
Hier wird aber die emotionale Komponente zum Risiko. Das muss eine KI erahnen und umsetzen, dass es dann immer noch nach den Sängern klingt ohne fremd zu wirken.
Die Kehrseite allerdings finde ich ziemlich bedrohlich. Da gibt es ohne Ende Missbrauchspotential und die Menschheit in ihrer maßlosen Gier nach Macht und Reichtum wird nichts auslassen. Das ist sicherer als das Schlusswort nach dem Gebet. Was wird man künftig glauben können? Werden wir eine Paranoia-Gesellschaft?
Es ist ja schon mal gut, dass es ein erstes KI-Gesetz gibt, aber es wird nicht lange dauern, bis Grauzonen gefunden und ausgenutzt werden. Dazu ist eine permanente Überwachung nötig, regelmäßige Änderungen und Ergänzungen werden unabdingbar sein. Sprich, es wird einen Digital-Justizapparat geben müssen. Aber ich fürchte, bis sowas auch nur ansatzweise diskutiert oder gar initiiert wird, das wird eher Jahrzehnte dauern.

Debian User · 1. April 2024

whats4 schrieb:
und es ist ned lösbar, ned mit unserem verständnisparadigma.

Wer ist ned?

whats4 · 1. April 2024

ich nehme mir die freiheit, den duden zu ignorieren, wannimmer es mir gefällt.
seit neuer deutscher rechschreibung vor inzwischen jahrzehnten eh wurscht im prinzip.

detto kleinschreibung konsequent: ich nehme mir die freiheit. punkt.

sonst noch probleme, herr lehrer?

KarlsruheArgus · 1. April 2024

@Debian User sollte aus dem Kontext klar sein.
ned = nicht

Edit:
@whats4
Mundart lese ich immer gerne, ist deutlich nahbarer.

whats4 · 1. April 2024

nun, auch eine frage, wo und bei wem das patronat liegt.
und ob es ein ptronat auf jeder ebene braucht.

nun, jedenfalls liegt keinerlei patronat bei reglemetierungsgläubigen.

Krik · 1. April 2024

KarlsruheArgus schrieb:
Findest du ? Also wenn man die Originalstimme mit dem Equalizer vergleicht ist das ein Unterschied wie Tag und Nacht.

Mir ist kein Unterschied aufgefallen, aber ich schaue auch nicht auf einen Equalizer. Für mich hörte sich das nach Gura im Intro an. Ziemlich weit hinten im Video kommt die Stimme nochmal und auch dort klang es für mich überzeugend. Nur die letzten paar Sekunden waren murks. Da ging es irgendwie ins elektronische über. Ich denke aber, dass kann man in der Software mit den richtigen Einstellungen ausbügeln.

whats4 schrieb:
sonst noch probleme, herr lehrer?

Es ist respektlos, einem diese Buchstabensuppe andrehen zu wollen. Du willst, dass die Leute deine Texte lesen, dass sie dich verstehen und dass sie dich wahrnehmen? Dann gib ihnen was Vernünftiges zu lesen. Es muss nicht 100% nach Duden (egal ob neu oder alt) gehen, 95% schaffen wir alle und das reicht dann auch aus.
Alles andere ist Zeitverschwendung für den Leser.

whats4 · 1. April 2024

"respektlos" .....welch starkes wort, welch kühne sprachliche attitude...

ein bissl stark, für die verwendung von "ned" statt "nicht", findest ned?
jo, und das gleiche gilt für "ein bissl" und "jo".

Krik · 1. April 2024

Nein, es ist nicht übertrieben. Es sind nicht wir, die in der Pflicht stehen, deinen Text zu entziffern. Im Gegenteil, du bist in der Bringschuld, lesbares abzuliefern. Immerhin willst du gehört werden. Und wenn man dann so was halbherziges hinklatscht, dann ist es es respektlos gegenüber dem Leser. Man zeigt, dass man den Gegenüber so geringfügig einschätzt, dass man nicht mehr Aufwand als Buchstabensuppe betreiben will.

Und was kann man schon an Inhalt von jemanden erwarten, der nicht mal die Mühe aufbringen will, Hochdeutsch zu schreiben. Ich meine dabei noch nicht mal "ned", sondern deine Texte insgesamt. Du schaffst es jedenfalls sehr erfolgreich, einen schlechten Eindruck von dir zu verbreiten.

KarlsruheArgus · 1. April 2024

Krik schrieb:
Mir ist kein Unterschied aufgefallen

Mir schon und zwar sehr deutlich, das Video lief bei mir im Hintergrund und ich schaue nicht aktiv Gura, kenn sie hauptsächlich aus Clips.
Es klingt für mich, im Gegensatz zur Orginalstimme, künstlich rauschend/verzerrend.

VTuber benutzen das gerne als Gimmick vielleicht bin ich es deshalb auch einfach schon gewohnt solche Kopien zu hören.
Generell kriegt man in der VT Bubble am ehesten mit wenn etwas brauchbares aus dem AI Bereich als Plug In für den Stream rauskommt.

Krik · 1. April 2024

@KarlsruheArgus
Dann liegt es an meinen Ohren. Die sind echt nicht mehr die besten.

KarlsruheArgus · 1. April 2024

@Krik
Hörst du noch das Piepen von Maulwurf- und Marderanlagen ? ich schon und nicht gerade Leise.
War aber auch kein Vorwurf an dich.

Andere Leute verwechseln ja auch Arma3 mit dem aktuellen Gazakonflikt oder der Ukraine und fallen drauf rein da wird so eine Kopie von einer Stimme schon ausreichen.

Einen qualitativen Ersatz durch Ai sehe ich bisher aber nicht.

Alioth · 1. April 2024

@Marcel55 Da warst nicht du damit gemeint - du scheinst ja wenigstens teilweise auch positives zu sehen und hast eine differenzierte Sichtweise. Aber wenn ich mir Kommentare wie die von @aid0nex ansehe, dann ist das einfach nur "mi mi mi, alles ist ganz schlecht und furchtbar und jede Firma will nur ausbeuten" ... sehe keinen Sinn in solchen Postings, vor allem wenn sie 80% aller Kommentare ausmachen.

Und man muss wirklich sehr sehr kreativ sein, um keinen systemischen Fehler in Deutschland zu erkennen, wenn es um Schlechtreden und Pessimismus geht, der aber nur allzu oft nicht zielgerichtet ist und wenig brauchbare Vorhersagen macht. Beispielsweise wird seit Jahrzehnten gegen Google und Microsoft gehetzt, Terror-Regime und Diktaturen hingegen verharmlost. Finde das nicht sinnvoll - auch Angst sollte einer gewissen Logik und Rationalität unterliegen.

@Gefahren durch Smartphones etc ... deine Aussage ist korrekt, dass es nicht nur gut ist, das liegt aber in der Natur jeden Fortschritts, dass es immer Gebrauch und Missbrauch gibt. Das war schon bei der Erfindung des Feuers in der Steinzeit so, dass es dafür missbraucht werden konnte, um andere zu Verbrennen. Ich bin trotzdem froh darüber, dass es damals und heute Menschen gibt, die bereit sind, solche Entwicklungsschritte zu gehen.

Ergänzung (1. April 2024)

KarlsruheArgus schrieb:
Es klingt für mich, im Gegensatz zur Orginalstimme, künstlich rauschend/verzerrend.

Das sehe ich genauso, in etwa wie der Unterschied zwischen nativer Auflösung und Upscaling, um einen random Vergleich zu ziehen 😅, oder sogar gravierender.

Die Frage ist nur, wie relevant diese status quo Einordnung ist, denn in 1-2 Jahren wird das komplett anders aussehen. Denkst du, es wird dann noch nennenswerte qualitative Unterschiede geben?

KarlsruheArgus · 1. April 2024

Alioth schrieb:
Denkst du, es wird dann noch nennenswerte qualitative Unterschiede geben?

Solange es keine AI gibt die Emotionen versteht und richtig deuted Nein.

Bisher sehe ich keinen wirklichen Fortschritt, die letzte TexttoSpeech Generation und Equalizer der VT Bubble waren zwar ein Fortschritt aber keine bahnbrechende Erfindung.
Auch NeuroSama und die ganzen Kleingeister/Haustiere der Vtuber sind nicht viel intelligenter geworden.
Aktuell zeichnet sich eher das selbe wie beim autonomen Fahren ab die Lernkurve verläuft degressiv und schnelle Erfolge sehe Ich bisher nicht.

Edit:
Auch wenn die Medien einem gerne verzählen wollen das demnächst die echte KI entwickelt wird.
So erinnern mich die aktuellen LLMs
an CAM Programme.
Ohne vorherige Muster und klare Rahmenbedingungen verzapfen die Sachen wo man am liebsten den Tisch auf den Kopf haut.

News Neues OpenAI-Modell: „Voice Engine“ kann mit 15-sekündiger Sprachaufnahme die Stimme klonen

Cadet 2nd Year

Captain

Fleet Admiral

Vice Admiral

Fleet Admiral

Vice Admiral

Fleet Admiral

Commander

Cadet 4th Year

Fleet Admiral

Captain

Fleet Admiral

Fleet Admiral

Fleet Admiral

Fleet Admiral

Captain

Fleet Admiral

Captain

Cadet 4th Year

Captain

Ähnliche Themen