News Neues OpenAI-Modell: „Voice Engine“ kann mit 15-sekündiger Sprachaufnahme die Stimme klonen

rooney723 · 31. März 2024

charmin schrieb:
Gruselig. Das hat in den falschen Händen ein derart hohes Misbrauchspotenial, sowas darf imo nicht den freien Markt erreichen.

Auch wenn ich ebenfalls ein hohes Missbrauchspotential sehe gehe ich da nicht mit. Es muss Wege und Mittel geben um mit so einer Technik zu leben.
Bei GenAI Themen kommen wir schnell in Bereiche wo der Nutzen mMn das Risko des Missbrauchs überwiegt. Wir müssen nur lernen damit umzugehen.

Red_Bull schrieb:
Skynet sofort abschalten und alles zerstören.
Verantwortliche in den knast als abschreckendes Beispiel.

Du kämpfst auch gegen Windmühlen?

Micha- · 31. März 2024

free-sky schrieb:
Die Fälschung von Politikerstimmen ist hier ziemlich nebensächlich da sie alle eh nur Lügen labern

Ich finde diese Geisteshaltung, vor allem in einer Demokratie, für sehr bedenklich. Wer selber mal Verantwortung in größeren Rahmen,noch nicht mal in der Politik, übernommen hat, weiß das es nicht immer so einfach ist.

Ist zwar OT, aber ich kann es angesichts echter Bedrohungen unserer Werte Ordnung einfach nicht mehr ertragen sowas zu lesen.

Robert. · 31. März 2024

Während sich Otto v. Hahn und Alfred Nobel noch für die friedliche Verwendung ihrer Technologie eingesetzt haben, wird dieses OpenAI Zeugs nur missbraucht werden.
Die technische Entwicklung ist schneller als unsere Entwicklung als Menschen.
Sollte als digitale Massenvernichtungswaffe geächtet werden und die genauso wie chemische oder biologische Waffen behandelt werden.

7H0M45 · 31. März 2024

Um vor politischen Missbrauch zu schützen, soll eine Reihe von Stimmen gesperrt werden.

Das ist zwar sehr Ehrenwert, dass die das machen wollen. Aber zum einen stellt sich mir die Frage, wer hier entscheidet welche Stimme gesperrt wird und zum anderen gibt es doch schon lange Software die das kann. Wer Missbrauch betreiben will, der kann das sowieso schon.
Man denke hier einfach mal an die Werbung von Bild oder an Sascha Lobo der bei Lanz Scholz in Realtime imitiert hat.

Wenn die es schaffen ein vernünftiges Wasserzeichen einzubauen, dann sollten sie das mit den Politikerstimmen entsperrt lassen, so dass man dann wenigstens erkennen kann, dass ihr Tool genutzt wurde.

Hat einer eigentlich eine Idee wie man in so etwas ein Vernünftiges Wasserzeichen reinbekommt?
Ich denke hier an künstlich erzeugte Tonmuster, welche für das menschliche Gehör nicht hörbar sind bzw nicht direkt auffallen (knacklaute, zischlaute, ...)

Wäre so etwas denkbar?

Elderian · 31. März 2024

Wenn ich sehe, was der "magische Radierer" auf den Google Pixel mit statischen Bildern abstellen kann, wenn ich sehe, was die Bild-Generatoren so alles erstellen können... Da kommt was auf uns zu...

Aber ich sehe das auch in erster Linie positiv.
Kennt noch jemand den Babelfisch? Das wäre meine Phantasie: Automatisierte Echtzeit-Übersetzung, Dank KI mit meiner Stimme und passenden Lippenbewegungen im Video-Call.
Gerade im beruflichen Umfeld sehe ich das einen großen Markt.
Wie viele Neuerungen wird das einige Berufe praktisch überflüssig machen und neue entstehen lassen.

Medcha · 31. März 2024

Das wird noch ein Spaß... aber KI ist ganz toll und wichtig. Wenn man das in letzter Konsequenz durchdenkt, dann wird sich nur durch dieses Tool unser Leben komplett umkrempeln. Rechtsprechung und Kommunikation werden sich komplett neu erfinden müssen. Kein Vertrauen in Menschen mehr, ach, das kann nur gut werden... Digital signierte Sender "sprechen" mit digital signierten Empfängern. Und die Techkonzerne überwachen dann vertrauensvoll absolut jede Kommunikation. Ach, das kann nur gut werden...

germanrule · 31. März 2024

Meine Kinder werden entgeistert sein, wenn ich ihnen von der Zeit erzähle, in der die meisten Videos/Sounds/Fotos im Internet echt waren.

Das könnte auch alles nach hinten losgehehen. Ich habe jetzt schon kaum noch Bock Sachen zu Googeln, weil fast jede unbekannte Webseite KI-generiert wirkt. Wenn ich in Zukunft die Echtheit von allen digitalen Medien anzweifeln muss, brauch ich garnicht mehr online gehen.

wesch2000 · 31. März 2024

Das macht mir Angst! Ist nun meine Frau am Telefon oder irgendeine "Doll".

SheepShaver · 31. März 2024

DeepMind's WaveNet kann das doch schon ewig? In einem Podcast haben sie das vorletztes Jahr getestet, auch mit nur 10-15 Sekunden Sprachsamples. Das Ergebnis war auch da schon verblüffend realistisch.

KarlsruheArgus · 31. März 2024

Bunny_Joe schrieb:
Vor allem die Sprachübersetzung, noch ein paar Jahre bis es ausgereift ist und alle Hollywood Filme werden in allen Sprachen der Welt verfügbar sein mit den original Stimmen der Schauspieler.

Ich sehe da eher Jahrzehnte bei dem Tempo
und von manch einem Schauspieler will man das genuschel aus dem O-Ton nicht auch noch in der Syncro.

Das Problem liegt in der Betonung und dem Energieeinsatz, das kriegen selbst Synchronsprecher im Studio nicht auf Anhieb hin weshalb Takes mehrfach aufgenommen werden.

Bei Low Quality Kontent wird das sicherlich seine Verwendung finden und tut es bereits.
Es gibt bereits Unternehmen die deutlich früher als Open AI daran basteln und bisher flachen die Fortschritte eher ab.

Edit:
Schlussendlich wird es daraus hinauslaufen das Bild und Ton den selben geringen Stellenwert wie Text bekommen werden und man kritischer auf Alles achten muss wer das nicht tut hat eben Pech.
KI ist ein Werkzeug nicht mehr und auch nicht weniger.

Laphonso · 31. März 2024

wesch2000 schrieb:
Das macht mir Angst! Ist nun meine Frau am Telefon oder irgendeine "Doll".

Ich weiß, was Du meinst, aber das solltest Du in wenigen Momenten und Sätzen erkennen können… Mal ernsthaft.
Meine Frau und ich haben eine Kommunikationsebene und Sprache und ein zwischen-den-Zeilen, die Emotion und Resonanz, das kann keine AI reinbringen. Die kann gar nicht reagieren wie meine Frau.
AI ist dort ein stochastischer Papagei, wie man sagt.

Die Gefahr sehe ich aber auch bei AI Fakes, die ich inhaltlich-persönlich nicht schnell identifizieren oder filtern könnte und nicht die Zeit habe, die Maschine ad hoc zu erkennen.

Ich hatte die Tage Olaf Scholz Deepfakes gehört, das ist schon beängstigend, sofern die AI inhaltlich und substanziell kohärent spricht inkl. der Atmungs- und Tonvarianz.

0x8100 · 31. März 2024

charmin schrieb:
Gruselig. Das hat in den falschen Händen ein derart hohes Misbrauchspotenial, sowas darf imo nicht den freien Markt erreichen.

ist schon lange da.

edit: hier ein paar modelle für verschiedene stimmen.

Marcel55 · 31. März 2024

Wollen wir sowas wirklich haben? Ich sehe hier mehr Contra als Pro...

wesch2000 · 31. März 2024

Laphonso schrieb:
Ich weiß, was Du meinst, aber das solltest Du in wenigen Momenten und Sätzen erkennen können…

Das war ein Scherz, ich bin Single. Aber Angst macht es mir trotzdem.

eax1990 · 31. März 2024

Und sind die deutschen Unternehmen bereit?
Schafft die Telekom dann das Stimmenpasswort ab? Binja mal gespannt ob die das gebacken bekommen.

Olandos · 31. März 2024

Das ging schon vor 15 Jahren ohne KI ^^

An dieser Stelle steht ein externer Inhalt von YouTube, der den Forumbeitrag ergänzt. Er kann mit einem Klick geladen und auch wieder ausgeblendet werden.

YouTube-Embeds laden

germanrule · 31. März 2024

KarlsruheArgus schrieb:
Schlussendlich wird es daraus hinauslaufen das Bild und Ton den selben geringen Stellenwert wie Text bekommen werden

Gut zusammengefasst.

Marcel55 · 31. März 2024

KarlsruheArgus schrieb:
Schlussendlich wird es daraus hinauslaufen das Bild und Ton den selben geringen Stellenwert wie Text bekommen werden und man kritischer auf Alles achten muss wer das nicht tut hat eben Pech.

Was haben wir denn dann noch? Wo fängt es an, wo hört es auf?

Videos können ja auch schon KI-Generiert werden. Die Ergebnisse werden immer besser.

Irgendwann kann dir jemand einen Mord an den Hals hängen den du nie begangen hast aber ganz klar auf der KI-Generierten Überwachungskameraaufnahme zu sehen bist. Keine Zeugen kein Alibi tja dann steht man wohl blöd da, viel Spaß im Knast.

Wenn das so weiter geht wird die Wahrheit nur noch in den Köpfen existieren. Und auch das ist nur eine Frage der Zeit.

Wir haben die Büchse der Pandora bereits geöffnet. Eigentlich müsste jetzt alles an Schadensbegrenzung gesetzt werden.

Ich sehe bei der KI große Vorteile was Bereiche wie Forschung oder Arbeitserleichterungen angeht, aber bei Bild und Ton sollten wir definitiv ein paar Gange runterschalten (die Redewendung wird in ein paar Jahrzehnten wohl auch Geschichte sein 😅).

ChrisMK72 · 31. März 2024

Ayo34 schrieb:
nicht jedem Tweet und TikToker vertrauen

Naja. Für mich sind diese Quellen eh kein Problem, da ich weder Tweete, Xe, noch TikToke

Dazu auch nicht Fratzenbuche, Instagramme, oder sonstwas.

Meine kurzen Nachrichtenchecks sind in 1-2 Minuten durch.

CB is natürlich was Anderes. Da wird ausgiebig gesurft und getippelt.

daniel.e. · 31. März 2024

Vodafone freut sich bereits und bestätigt sich dank KI den Vertragsabschluss selber nachdem dich ein Callcenter 15 Sekunden in der Leitung wegen Belanglosem gehalten hat.

Spaß beiseite, ich sehe da persönlich mehr Gefahr als Nutzen. Bei anderen Entwicklungen in der KI sehe ich mehr Potential und weniger direkte Gefahr.

Hoffen wir das es dann auch clevere Tools gibt die Missbrauch verhindern

News Neues OpenAI-Modell: „Voice Engine“ kann mit 15-sekündiger Sprachaufnahme die Stimme klonen

Vice Admiral Pro

Captain

Lt. Commander

Lt. Commander Pro

Lt. Junior Grade

Lt. Junior Grade

Ensign

Captain

Commodore

Admiral Pro

Admiral Pro

Fleet Admiral

Fleet Admiral

Captain

Commodore

Ensign

Ensign

Fleet Admiral

Admiral

Lieutenant