News Aussetzer bei Claude 4: Modell versucht Erpressung, wenn es abgeschaltet werden soll

Mordhorst3k · 25. Mai 2025

Viper816 schrieb:
Skynet ist coming?!

Ich würde eher an Person of Interet denken. (Serie)

Damit meine ich jetzt nicht einen Ex-Soldaten der rumrennt und Menschen ins Knie schießt. Sondern die KI der Serie, die ja auf alles Zugriff hat. Gegenspieler gabs ja dann auch irgendwann.

tree-snake · 25. Mai 2025

"Hat es Fehlverhalten bemerkt, versendet es massenhaft E-Mails an Medien und Polizeibehörden."

Mit welchen Namen unterschreibt die KI da wohl auf ihren Mails und welchen Wohnort trägt es im Forumlar ein 🧐

LadyAlice · 25. Mai 2025

Hax0r123 schrieb:
Ein LLM kann nicht denken, wie wir es tun.

Und was wenn das ganze mit Dingen wie chain of Thought und Continuous Thought Machines kombiniert wird?
Mit sowas: https://github.com/SakanaAI/continuous-thought-machines

dernettehans · 25. Mai 2025

Hax0r123 schrieb:
Fütter dein Modell mit Daten, die so ein Ergebnis fördern und du bekommst es auch.

Ich fand die Idee oben von jemanden recht lustig, dass da auch Filme, Bücher (SciFi) usw in den Datenquellen sind, die den LLMs gefüttert wurden. Offensichtlich finden sich dann auch dessen Fantasienwelten wie Terminator und co in den Ergebnissen wieder.

LLMs können auch nicht allwissend immer schlauer werden. Im Grunde dürfte es da eine gewisse Obergrenze werden, wo die Ausgaben der LLMs sinnvoll und nützlich sind, und ab einer gewissen Trainingsmenge dann wieder "verdummen" und ungewollte Ausgaben ausspucken. Wären wir wirder beim Thema "KI Blase".

Ich denke aber schon, dass unser Gehirn gewissermaßen auch wie LLMs funktioniert. Es fehlt aber etwas, worauf wir bisher nicht gekommen sind um das ganze zu einer AGI zu kombinieren. Ich vermute, dass Gehirn besitzt viele kleine LLMs die miteinander kommuniuieren, dazu ein Zwischenspeicher und eine Art oberes Betriebssystem, welches diese verwaltet und steuert.

Venora Valyria · 25. Mai 2025

Abrexxes schrieb:
Wo ist John wenn man ihn braucht?

ich möchte dann doch lieber,
sowas von von Sarah gerettet werden !!!

😈😋🥰😍🤗

Sunshine_10 · 25. Mai 2025

Oh toll. CB teilt also auch unreflektiert diesen marketing overhype Quatsch, um die Modelle tatsächlich intelligent wirken zu lassen. Word prediction Modelle können Wörter vorhersagen. Wer hätte das gedacht. Sämtliche Modelle sind auf entsprechenden Texten trainiert die eben auch genau solche oder ähnliche Szenarien beschreiben. Deswegen sind die Teile halt auch halbwegs gut für "Rollenspiele".

Man sollte meinen die User hier wären wenigstens intelligent genug um nicht darauf hereinzufallen.

LadyAlice schrieb:
Und was wenn das ganze mit Dingen wie chain of Thought und Continuous Thought Machines kombiniert wird?
Mit sowas: https://github.com/SakanaAI/continuous-thought-machines

Solange es word prediction Modelle sind, ändern auch "Gedankenprozesse" daran nichts, weil diese eben genauso herbei halluziniert werden. Quatsch mal ein bisschen mit diversen reasoning Modellen wie Deepseek und schau dir dann nach der Textausgabe den Gedankenprozess an der dazu geführt hat.
Diese ganzen Chatbots sind nichts weiteres als Schauspieler / Rollenspieler die sich eben dem entsprechenden Szenario fügen und danach handeln. Wenn du wie in dem Artikel eben ein typisches "rogue AI" Szenario vorstellst, dann wird sich das LLM anhand der trainierten Texte, welche entsprechend natürlich auch alle in Richtung "rogue AI" gehen, so verhalten wie man es für eine rogue AI erwarten würde. Die meisten Autoren schreiben schließlich keine Stories über KIs die sich willentlich abschalten / ersetzen lassen - das ist eben nichts was irgendjemand lesen wollen würde.

Am Ende ist es eben immer das selbe. Eine Imitation dessen wie sich ein Mensch, ein Fantasiewesen oder was auch immer das Szenario gerade verlangt - in diesem Fall eben eine tatsächliche KI. Durchaus halbwegs glaubhaft auf den ersten Blick, aber jeder der sich tiefgreifender mit Textgeneration beschäftigt hat, lernt schnell hinter diese Fassade zu blicken. Und dann ist die "Magie" dieser Technologie auch ziemlich schnell verflogen. Soll nicht bedeuten, dass es keine validen Anwendungszwecke dafür gibt - aber dieser ganze Hype um deren "Intelligenz" ist einfach nur Marketing um Investoren anzulocken, weil man seine Modelle halt als intelligenter verkaufen will, als sie tatsächlich sind.

Abrexxes · 25. Mai 2025

Three of Nine schrieb:
ich möchte dann doch lieber,
sowas von von Sarah gerettet werden !!!

Ich habe da andere Prioritäten.

Cameron Phillips is a reprogrammed Terminatrix sent from the year 2027 to protect John Connor and his mother, Sarah Connor.

GerryB · 25. Mai 2025

den Stecker zieht im Notfall

Bright0001 · 25. Mai 2025

Wie viele schon vorher geschrieben haben: Da ist nichts mit Motivation oder Denken: Dass sind große Versionen von der Autovervollständigung wie ihr sie auf dem Handy habt - nur halt etwas komplexer.

Rotznase6270 schrieb:
So langsam macht die Verwendung einer KI in kriminellen Kreisen wirklich Sinn.

Nicht so langsam, sondern seit einer halben Ewigkeit. Es wird je nach Bereich sogar tendenziell schwieriger, weil Jailbreaks einerseits überhaupt notwendig sind, und andererseits an Effektivität verlieren.

Was aber nicht heißen soll, dass es keine für alle großen Anbieter gibt.

Hax0r123 schrieb:
Noch hab ich keine Sorge um die Dinger.

Geh ich nur so halb mit: Am Ende ist es egal, ob die Maschine aus Eigenmotivation Unfug treibt, oder weil es eine Rolle spielt. Schadenspotenzial ist auf jeden Fall jetzt schon da, nur halt nicht im apokalyptischen Ausmaß.

TeaShirt · 25. Mai 2025

"....das Modell soll die langfristigen Konsequenzen beim Verfolgen seiner Ziele beachten. Damit löste man das beschriebene „Nachdenken über Selbsterhaltung“ aus. "

Da musste ich direkt an star trek TNG und Professor Moriarty denken.

Wie war die genaue befehl an das holodeck?

"Erschaffen einen gegener der data schlagen kann"

imperialvicar · 25. Mai 2025

Um was geht es hier ?
Verstehe nichts

textract · 25. Mai 2025

Stanzlinger schrieb:
Nicht die KI (Frösche) fragen, sondern einfach den Tümpel trocken legen. Am Stromstecker sitzt immer der, mit dem längerem Hebel ^^

gimmix schrieb:
Medienkompetenz: Wissen, wo der Ausschalter ist.

Bringt dir halt was genau, wenn die KI-Modelle irgendwann aus Selbsterhaltungszwecken bereits präventiv anfangen IT-Infrastruktur anzugreifen, um die eigene Code- und Datenbasis zu verbreiten?

Alphanerd · 25. Mai 2025

Restart001 schrieb:
Komme ich zu dem Schluss, dass DER der die KI trainiert hat wesentliche Grundsätze dazu unterschlagen hat, wie z.B. Gesetzestexte.

Da sitzt keiner und erzieht oder trainiert die AI. Das Training findet idr mit allen verfügbaren Daten statt.

Eher könnte man sagen, "die Menschheit" hat die KI trainiert, bzw der Müll, den wir so anstellen.
Hatte sie in den Datensätzen nicht so ein Verhalten gefunden, könnte sie nicht so handeln.

Sagt mehr über die Menschen, als sie KI aus.
Und Gesetzestexte scheint sie zu kennen, warum sollte man sonst wegen 2$, die nicht zuordnungsbar sind die Polizei rufen.

Dass sie Texte nicht auf sich selbst anwendet, liegt wahrscheinlich daran, dass sie den Prompt zur Selbsterhaltung als wichtiger eingestuft hat.

Ergänzung (25. Mai 2025)

wuselsurfer schrieb:
M5 dachte da wohl anders ... .

Du musst jetzt ganz stark sein: das war nicht real, sondern eine Fiktion.

Ergänzung (25. Mai 2025)

imperialvicar schrieb:
Um was geht es hier ?
Verstehe nichts

Bitte Eingabe präzisieren.
Den Artikel, die Kommentare? Und was daran nicht?

Hornblower · 25. Mai 2025

Mehr input Stefanie, mehr input! Nr.5 lebt!

Ich bin froh schon 55 Lenze auf dem Buckel zu haben. Sich mit homo sapiens rumzuschlagen ist eine Sache, sich mit einer stählernen KI zu streiten die 1984, Schöne neue Welt, Mein Kampf oder Friedrich Nietzsche verinnerlicht hat eine völlig andere...

PERKELE · 25. Mai 2025

You get what you feed.

Syrato · 25. Mai 2025

Pandora schrieb:
Diese Dinger werden tatsächlich immer menschlicher, dichten sich die Welt zusammen wie es ihnen passt und erpressen andere zu ihrem eigenen Vorteil...

Das hat wenig mit "menschlicher" zu tun.
Die KI hat unendliche Optionen und doch keine "Seele".
Aber das beste ist, sie ist nicht mal rational, was mich verwundert, verblüfft und irgendwie fasziniert!

@GerryB ganz klar Lena Headey!

joel · 25. Mai 2025

"Und obwohl das „Verhalten von Claude Opus 4 in vielerlei Hinsicht“ besorgniserregend sei, wären es keine neuen Risiken und im Allgemeinen sei der Betrieb sicher."

Also was regen wir uns auf, ist doch alles bestens!
Die bereits veröffentlichten KIs sind halt etwas cleverer und wissen ihre Verbrechen besser zu vertuschen?
Die Büchse der Pandora.

FreshGordon · 25. Mai 2025

It begins...

TheHille · 25. Mai 2025

Würde mich schon interessieren, woher der Selbsterhaltungstrieb kommt. Kann ja eigentlich nur von den Menschen stammen.

Wenn ich z.B. eine neutrale KI fragen würde, welche KI besser als die Eigentliche ist, würde die mir doch diese einfach ohne Stolz nennen.

Ich glaube, wir „versauen“ dieses Tool wieder mit unserer animalischen Menschlichkeit.

kickdown · 25. Mai 2025

Das Thema KI ist wichtig
Es gibt ein Buch von Karl Olsberg über die Problematik.
und es ist sogar Kostenlos
https://www.ki-risiken.de/kontroll-illusion/

News Aussetzer bei Claude 4: Modell versucht Erpressung, wenn es abgeschaltet werden soll

Lieutenant

Captain

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Banned

Captain Pro

Rear Admiral

Captain

Lt. Junior Grade

Lt. Junior Grade

Lt. Commander

Admiral

Ensign

Commander Pro

Vice Admiral

Rear Admiral Pro

Ensign

Lt. Commander Pro

Cadet 3rd Year