News Neues OpenAI-Modell: „Voice Engine“ kann mit 15-sekündiger Sprachaufnahme die Stimme klonen

charmin schrieb:
Gruselig. Das hat in den falschen Händen ein derart hohes Misbrauchspotenial, sowas darf imo nicht den freien Markt erreichen.

Auch wenn ich ebenfalls ein hohes Missbrauchspotential sehe gehe ich da nicht mit. Es muss Wege und Mittel geben um mit so einer Technik zu leben.
Bei GenAI Themen kommen wir schnell in Bereiche wo der Nutzen mMn das Risko des Missbrauchs überwiegt. Wir müssen nur lernen damit umzugehen.

Red_Bull schrieb:
Skynet sofort abschalten und alles zerstören.
Verantwortliche in den knast als abschreckendes Beispiel.

Du kämpfst auch gegen Windmühlen? :)
 
  • Gefällt mir
Reaktionen: Karlchen_Klemmt
free-sky schrieb:
Die Fälschung von Politikerstimmen ist hier ziemlich nebensächlich da sie alle eh nur Lügen labern
Ich finde diese Geisteshaltung, vor allem in einer Demokratie, für sehr bedenklich. Wer selber mal Verantwortung in größeren Rahmen,noch nicht mal in der Politik, übernommen hat, weiß das es nicht immer so einfach ist.

Ist zwar OT, aber ich kann es angesichts echter Bedrohungen unserer Werte Ordnung einfach nicht mehr ertragen sowas zu lesen.
 
  • Gefällt mir
Reaktionen: DON.HEROUR, =dantE=, Cruentatus und 26 andere
Während sich Otto v. Hahn und Alfred Nobel noch für die friedliche Verwendung ihrer Technologie eingesetzt haben, wird dieses OpenAI Zeugs nur missbraucht werden.
Die technische Entwicklung ist schneller als unsere Entwicklung als Menschen.
Sollte als digitale Massenvernichtungswaffe geächtet werden und die genauso wie chemische oder biologische Waffen behandelt werden.
 
Um vor politischen Missbrauch zu schützen, soll eine Reihe von Stimmen gesperrt werden.
Das ist zwar sehr Ehrenwert, dass die das machen wollen. Aber zum einen stellt sich mir die Frage, wer hier entscheidet welche Stimme gesperrt wird und zum anderen gibt es doch schon lange Software die das kann. Wer Missbrauch betreiben will, der kann das sowieso schon.
Man denke hier einfach mal an die Werbung von Bild oder an Sascha Lobo der bei Lanz Scholz in Realtime imitiert hat.

Wenn die es schaffen ein vernünftiges Wasserzeichen einzubauen, dann sollten sie das mit den Politikerstimmen entsperrt lassen, so dass man dann wenigstens erkennen kann, dass ihr Tool genutzt wurde.

Hat einer eigentlich eine Idee wie man in so etwas ein Vernünftiges Wasserzeichen reinbekommt?
Ich denke hier an künstlich erzeugte Tonmuster, welche für das menschliche Gehör nicht hörbar sind bzw nicht direkt auffallen (knacklaute, zischlaute, ...)

Wäre so etwas denkbar?
 
Wenn ich sehe, was der "magische Radierer" auf den Google Pixel mit statischen Bildern abstellen kann, wenn ich sehe, was die Bild-Generatoren so alles erstellen können... Da kommt was auf uns zu...

Aber ich sehe das auch in erster Linie positiv.
Kennt noch jemand den Babelfisch? Das wäre meine Phantasie: Automatisierte Echtzeit-Übersetzung, Dank KI mit meiner Stimme und passenden Lippenbewegungen im Video-Call.
Gerade im beruflichen Umfeld sehe ich das einen großen Markt.
Wie viele Neuerungen wird das einige Berufe praktisch überflüssig machen und neue entstehen lassen.
 
Das wird noch ein Spaß... aber KI ist ganz toll und wichtig. Wenn man das in letzter Konsequenz durchdenkt, dann wird sich nur durch dieses Tool unser Leben komplett umkrempeln. Rechtsprechung und Kommunikation werden sich komplett neu erfinden müssen. Kein Vertrauen in Menschen mehr, ach, das kann nur gut werden... Digital signierte Sender "sprechen" mit digital signierten Empfängern. Und die Techkonzerne überwachen dann vertrauensvoll absolut jede Kommunikation. Ach, das kann nur gut werden...:utminigun:
 
  • Gefällt mir
Reaktionen: Kadett_Pirx, Strahltriebwerk und germanrule
Meine Kinder werden entgeistert sein, wenn ich ihnen von der Zeit erzähle, in der die meisten Videos/Sounds/Fotos im Internet echt waren.

Das könnte auch alles nach hinten losgehehen. Ich habe jetzt schon kaum noch Bock Sachen zu Googeln, weil fast jede unbekannte Webseite KI-generiert wirkt. Wenn ich in Zukunft die Echtheit von allen digitalen Medien anzweifeln muss, brauch ich garnicht mehr online gehen.
 
  • Gefällt mir
Reaktionen: Flunkiii und SilverDW
DeepMind's WaveNet kann das doch schon ewig? In einem Podcast haben sie das vorletztes Jahr getestet, auch mit nur 10-15 Sekunden Sprachsamples. Das Ergebnis war auch da schon verblüffend realistisch.
 
  • Gefällt mir
Reaktionen: Kadett_Pirx
Bunny_Joe schrieb:
Vor allem die Sprachübersetzung, noch ein paar Jahre bis es ausgereift ist und alle Hollywood Filme werden in allen Sprachen der Welt verfügbar sein mit den original Stimmen der Schauspieler.
Ich sehe da eher Jahrzehnte bei dem Tempo
und von manch einem Schauspieler will man das genuschel aus dem O-Ton nicht auch noch in der Syncro. :D

Das Problem liegt in der Betonung und dem Energieeinsatz, das kriegen selbst Synchronsprecher im Studio nicht auf Anhieb hin weshalb Takes mehrfach aufgenommen werden.

Bei Low Quality Kontent wird das sicherlich seine Verwendung finden und tut es bereits.
Es gibt bereits Unternehmen die deutlich früher als Open AI daran basteln und bisher flachen die Fortschritte eher ab.


Edit:
Schlussendlich wird es daraus hinauslaufen das Bild und Ton den selben geringen Stellenwert wie Text bekommen werden und man kritischer auf Alles achten muss wer das nicht tut hat eben Pech.
KI ist ein Werkzeug nicht mehr und auch nicht weniger.
 
  • Gefällt mir
Reaktionen: Karlchen_Klemmt, Strahltriebwerk, wesch2000 und eine weitere Person
wesch2000 schrieb:
Das macht mir Angst! Ist nun meine Frau am Telefon oder irgendeine "Doll".
Ich weiß, was Du meinst, aber das solltest Du in wenigen Momenten und Sätzen erkennen können… Mal ernsthaft.
Meine Frau und ich haben eine Kommunikationsebene und Sprache und ein zwischen-den-Zeilen, die Emotion und Resonanz, das kann keine AI reinbringen. Die kann gar nicht reagieren wie meine Frau.
AI ist dort ein stochastischer Papagei, wie man sagt.

Die Gefahr sehe ich aber auch bei AI Fakes, die ich inhaltlich-persönlich nicht schnell identifizieren oder filtern könnte und nicht die Zeit habe, die Maschine ad hoc zu erkennen.

Ich hatte die Tage Olaf Scholz Deepfakes gehört, das ist schon beängstigend, sofern die AI inhaltlich und substanziell kohärent spricht inkl. der Atmungs- und Tonvarianz.
 
  • Gefällt mir
Reaktionen: DannyA4, DNS81 und wesch2000
charmin schrieb:
Gruselig. Das hat in den falschen Händen ein derart hohes Misbrauchspotenial, sowas darf imo nicht den freien Markt erreichen.
ist schon lange da.

edit: hier ein paar modelle für verschiedene stimmen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Laphonso
Wollen wir sowas wirklich haben? Ich sehe hier mehr Contra als Pro...
 
  • Gefällt mir
Reaktionen: SilverDW, DannyA4, Restart001 und 2 andere
Laphonso schrieb:
Ich weiß, was Du meinst, aber das solltest Du in wenigen Momenten und Sätzen erkennen können…

Das war ein Scherz, ich bin Single. Aber Angst macht es mir trotzdem.
 
  • Gefällt mir
Reaktionen: Laphonso
Und sind die deutschen Unternehmen bereit?
Schafft die Telekom dann das Stimmenpasswort ab? Binja mal gespannt ob die das gebacken bekommen.
 
Das ging schon vor 15 Jahren ohne KI ^^
 
KarlsruheArgus schrieb:
Schlussendlich wird es daraus hinauslaufen das Bild und Ton den selben geringen Stellenwert wie Text bekommen werden
Gut zusammengefasst.
 
  • Gefällt mir
Reaktionen: Slim.Shady, Ben99, KarlsruheArgus und eine weitere Person
KarlsruheArgus schrieb:
Schlussendlich wird es daraus hinauslaufen das Bild und Ton den selben geringen Stellenwert wie Text bekommen werden und man kritischer auf Alles achten muss wer das nicht tut hat eben Pech.
Was haben wir denn dann noch? Wo fängt es an, wo hört es auf?

Videos können ja auch schon KI-Generiert werden. Die Ergebnisse werden immer besser.

Irgendwann kann dir jemand einen Mord an den Hals hängen den du nie begangen hast aber ganz klar auf der KI-Generierten Überwachungskameraaufnahme zu sehen bist. Keine Zeugen kein Alibi tja dann steht man wohl blöd da, viel Spaß im Knast.

Wenn das so weiter geht wird die Wahrheit nur noch in den Köpfen existieren. Und auch das ist nur eine Frage der Zeit.

Wir haben die Büchse der Pandora bereits geöffnet. Eigentlich müsste jetzt alles an Schadensbegrenzung gesetzt werden.

Ich sehe bei der KI große Vorteile was Bereiche wie Forschung oder Arbeitserleichterungen angeht, aber bei Bild und Ton sollten wir definitiv ein paar Gange runterschalten (die Redewendung wird in ein paar Jahrzehnten wohl auch Geschichte sein 😅).
 
  • Gefällt mir
Reaktionen: Strahltriebwerk
Ayo34 schrieb:
nicht jedem Tweet und TikToker vertrauen
Naja. Für mich sind diese Quellen eh kein Problem, da ich weder Tweete, Xe, noch TikToke ;)
Dazu auch nicht Fratzenbuche, Instagramme, oder sonstwas.

Meine kurzen Nachrichtenchecks sind in 1-2 Minuten durch.

CB is natürlich was Anderes. Da wird ausgiebig gesurft und getippelt. :D
 
Vodafone freut sich bereits und bestätigt sich dank KI den Vertragsabschluss selber nachdem dich ein Callcenter 15 Sekunden in der Leitung wegen Belanglosem gehalten hat.

Spaß beiseite, ich sehe da persönlich mehr Gefahr als Nutzen. Bei anderen Entwicklungen in der KI sehe ich mehr Potential und weniger direkte Gefahr.

Hoffen wir das es dann auch clevere Tools gibt die Missbrauch verhindern
 
Zurück
Oben