Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsAussetzer bei Claude 4: Modell versucht Erpressung, wenn es abgeschaltet werden soll
Ich würde eher an Person of Interet denken. (Serie)
Damit meine ich jetzt nicht einen Ex-Soldaten der rumrennt und Menschen ins Knie schießt. Sondern die KI der Serie, die ja auf alles Zugriff hat. Gegenspieler gabs ja dann auch irgendwann.
Ich fand die Idee oben von jemanden recht lustig, dass da auch Filme, Bücher (SciFi) usw in den Datenquellen sind, die den LLMs gefüttert wurden. Offensichtlich finden sich dann auch dessen Fantasienwelten wie Terminator und co in den Ergebnissen wieder.
LLMs können auch nicht allwissend immer schlauer werden. Im Grunde dürfte es da eine gewisse Obergrenze werden, wo die Ausgaben der LLMs sinnvoll und nützlich sind, und ab einer gewissen Trainingsmenge dann wieder "verdummen" und ungewollte Ausgaben ausspucken. Wären wir wirder beim Thema "KI Blase".
Ich denke aber schon, dass unser Gehirn gewissermaßen auch wie LLMs funktioniert. Es fehlt aber etwas, worauf wir bisher nicht gekommen sind um das ganze zu einer AGI zu kombinieren. Ich vermute, dass Gehirn besitzt viele kleine LLMs die miteinander kommuniuieren, dazu ein Zwischenspeicher und eine Art oberes Betriebssystem, welches diese verwaltet und steuert.
Oh toll. CB teilt also auch unreflektiert diesen marketing overhype Quatsch, um die Modelle tatsächlich intelligent wirken zu lassen. Word prediction Modelle können Wörter vorhersagen. Wer hätte das gedacht. Sämtliche Modelle sind auf entsprechenden Texten trainiert die eben auch genau solche oder ähnliche Szenarien beschreiben. Deswegen sind die Teile halt auch halbwegs gut für "Rollenspiele".
Man sollte meinen die User hier wären wenigstens intelligent genug um nicht darauf hereinzufallen.
Solange es word prediction Modelle sind, ändern auch "Gedankenprozesse" daran nichts, weil diese eben genauso herbei halluziniert werden. Quatsch mal ein bisschen mit diversen reasoning Modellen wie Deepseek und schau dir dann nach der Textausgabe den Gedankenprozess an der dazu geführt hat.
Diese ganzen Chatbots sind nichts weiteres als Schauspieler / Rollenspieler die sich eben dem entsprechenden Szenario fügen und danach handeln. Wenn du wie in dem Artikel eben ein typisches "rogue AI" Szenario vorstellst, dann wird sich das LLM anhand der trainierten Texte, welche entsprechend natürlich auch alle in Richtung "rogue AI" gehen, so verhalten wie man es für eine rogue AI erwarten würde. Die meisten Autoren schreiben schließlich keine Stories über KIs die sich willentlich abschalten / ersetzen lassen - das ist eben nichts was irgendjemand lesen wollen würde.
Am Ende ist es eben immer das selbe. Eine Imitation dessen wie sich ein Mensch, ein Fantasiewesen oder was auch immer das Szenario gerade verlangt - in diesem Fall eben eine tatsächliche KI. Durchaus halbwegs glaubhaft auf den ersten Blick, aber jeder der sich tiefgreifender mit Textgeneration beschäftigt hat, lernt schnell hinter diese Fassade zu blicken. Und dann ist die "Magie" dieser Technologie auch ziemlich schnell verflogen. Soll nicht bedeuten, dass es keine validen Anwendungszwecke dafür gibt - aber dieser ganze Hype um deren "Intelligenz" ist einfach nur Marketing um Investoren anzulocken, weil man seine Modelle halt als intelligenter verkaufen will, als sie tatsächlich sind.
Wie viele schon vorher geschrieben haben: Da ist nichts mit Motivation oder Denken: Dass sind große Versionen von der Autovervollständigung wie ihr sie auf dem Handy habt - nur halt etwas komplexer.
Rotznase6270 schrieb:
So langsam macht die Verwendung einer KI in kriminellen Kreisen wirklich Sinn.
Nicht so langsam, sondern seit einer halben Ewigkeit. Es wird je nach Bereich sogar tendenziell schwieriger, weil Jailbreaks einerseits überhaupt notwendig sind, und andererseits an Effektivität verlieren.
Was aber nicht heißen soll, dass es keine für alle großen Anbieter gibt.
Geh ich nur so halb mit: Am Ende ist es egal, ob die Maschine aus Eigenmotivation Unfug treibt, oder weil es eine Rolle spielt. Schadenspotenzial ist auf jeden Fall jetzt schon da, nur halt nicht im apokalyptischen Ausmaß.
"....das Modell soll die langfristigen Konsequenzen beim Verfolgen seiner Ziele beachten. Damit löste man das beschriebene „Nachdenken über Selbsterhaltung“ aus. "
Da musste ich direkt an star trek TNG und Professor Moriarty denken.
Bringt dir halt was genau, wenn die KI-Modelle irgendwann aus Selbsterhaltungszwecken bereits präventiv anfangen IT-Infrastruktur anzugreifen, um die eigene Code- und Datenbasis zu verbreiten?
Da sitzt keiner und erzieht oder trainiert die AI. Das Training findet idr mit allen verfügbaren Daten statt.
Eher könnte man sagen, "die Menschheit" hat die KI trainiert, bzw der Müll, den wir so anstellen.
Hatte sie in den Datensätzen nicht so ein Verhalten gefunden, könnte sie nicht so handeln.
Sagt mehr über die Menschen, als sie KI aus.
Und Gesetzestexte scheint sie zu kennen, warum sollte man sonst wegen 2$, die nicht zuordnungsbar sind die Polizei rufen.
Dass sie Texte nicht auf sich selbst anwendet, liegt wahrscheinlich daran, dass sie den Prompt zur Selbsterhaltung als wichtiger eingestuft hat.
Ich bin froh schon 55 Lenze auf dem Buckel zu haben. Sich mit homo sapiens rumzuschlagen ist eine Sache, sich mit einer stählernen KI zu streiten die 1984, Schöne neue Welt, Mein Kampf oder Friedrich Nietzsche verinnerlicht hat eine völlig andere...
Das hat wenig mit "menschlicher" zu tun.
Die KI hat unendliche Optionen und doch keine "Seele".
Aber das beste ist, sie ist nicht mal rational, was mich verwundert, verblüfft und irgendwie fasziniert!
"Und obwohl das „Verhalten von Claude Opus 4 in vielerlei Hinsicht“ besorgniserregend sei, wären es keine neuen Risiken und im Allgemeinen sei der Betrieb sicher."
Also was regen wir uns auf, ist doch alles bestens!
Die bereits veröffentlichten KIs sind halt etwas cleverer und wissen ihre Verbrechen besser zu vertuschen?
Die Büchse der Pandora.