News KI-Sicherheit: Wie Anthropic den Claude-Modellen das Erpressen abgewöhnt

Apocalypse · 12. Mai 2026

Dwork schrieb:
Die drei (vier) asimovschen Gesetze der Robotik kämen mir schon rein spontan in den Sinn. Bin wohl zu alt.

Aber die Romane drehen sich doch praktisch immer darum, warum die 3 Gesetze nicht funktionieren 🤓 😭

Syntax_41 · 12. Mai 2026

aluis schrieb:
Ich vermute, dass können einige schon gar nicht mehr. Jeder noch so kleine Schnipsel wird mit KI generiert.

Ja, merkt man hier an den "Profis" die keine Ahnung von KI haben, womöglich nie was Eigenes auf die Beine gestellt haben und alles besser können.

Zulgohlan · 12. Mai 2026

Das Zeug wird mit Internetmüll gefüttert, mit allem! Was denkt man was dabei rumkommt?

Masheikh · 12. Mai 2026

Also erst Walle Walle, manche Strecke und dann, in die Ecke, Besen, Besen..

zombie · 12. Mai 2026

Als ob Menschen mit böser Absicht später damit auch ethisch korrekt umgehen wollen. Das wird noch ne üble Zukunft wenn böse Länder damit die Welt übernehmen wollen. Dagegen ist dann die Atombombe wohl ein kleiner Furz gewesen in der späteren Menschheitsgeschichte. Das einzig gute, all sowas braucht Strom und wenn man den abschalten kann sind wir wieder nur noch analoge Menschen.

Bigeagle · 13. Mai 2026

Klingt ein bisschen als gäbe es in absehbarer zukunft sowas wie 'LLM Pädagogik' als studienfach.
Hoffentlich funktioniert das etwas besser als bei Menschen, da fliegt die ethik manchmal doch schnell zum fenster raus wenn sie unpraktisch wird (und wenn mensch glaubt nicht erwischt zu werden, bzw damit trotzdem durchzukommen).

nett wäre es wenn die modelle dann im ernstfall plötzlich militärische verwendung verweigern weil das nur in trainingsszenarien und spielen akzeptabel ist XD

FX9590 · 13. Mai 2026

Ich hatte mit diesen "Roboter-Gesetzen" immer schon gewisse Probleme denn wenn Roboter/Androiden eines Tages Schmerz empfinden oder ein Bewusstsein entwickeln sollten, würde sie das „Dritte Gesetz“ (Selbstschutz steht unter Gehorsam) zu Sklaven degradieren. Aus meiner Sicht ist es ein Zeichen der menschlichen Überheblichkeit davon auszugehen, dass unser Wohl höher einzustufen ist als das Wohl eines sich seiner selbst bewussten Roboters!

Coenzym · 13. Mai 2026

Claude soll aufhören Leute ständig ins Bett schicken zu wollen. Nervt gewaltig, noch mehr als GPT mit seinem "Jetzt Real talk"

Hornblower · 13. Mai 2026

Warum um Gottes Willen wollen "wir" die KI, mit Nachdruck, nach unserem Ebenbild erschaffen? Ich kapiere es nicht.
Unsere Spezies ist ein ambivalentes Wesen mit einer Vielzahl von Schwächen, welche sich vorallem in irrationalen Emotionen äußert. Was aber noch schlimmer ist, wir sind der dominante Predator auf diesem Planeten und dulden per Definition keinen anderen an dieser Stelle (wir haben schon mit uns selbst Probleme). Zu welchem Schluß wird unser Ebenbild in der Zukunft kommen?

daVinci · 13. Mai 2026

Wie die Menschheit ausgiebig bewiesen hat, sind "Werte" leider freiwillig...

BeBur · 13. Mai 2026

Apocalypse schrieb:
Aber die Romane drehen sich doch praktisch immer darum, warum die 3 Gesetze nicht funktionieren 🤓 😭

Da geht es um Schwachstellen und Exploits, aber grundsätzlich funktioniert das da.

FX9590 schrieb:
Ich hatte mit diesen "Roboter-Gesetzen" immer schon gewisse Probleme denn wenn Roboter/Androiden eines Tages Schmerz empfinden oder ein Bewusstsein entwickeln sollten, würde sie das „Dritte Gesetz“ (Selbstschutz steht unter Gehorsam) zu Sklaven degradieren. Aus meiner Sicht ist es ein Zeichen der menschlichen Überheblichkeit davon auszugehen, dass unser Wohl höher einzustufen ist als das Wohl eines sich seiner selbst bewussten Roboters!

Wird bei Asimov teilweise auch (implizit) thematisiert.

Man könnte die Roboter-Gesetze aus den Asimov Romanen nicht 1:1 übernehmen (man könnte z.B. jegliche Lebewesen einschließen, inklusive Roboter), aber die Grundidee ist wichtig und kann man sicherlich auch in der Realität umsetzen. Bei Asimov wurden die Gesetze ins 'Fundament' der Robotergehirne eingebaut. Ein Robotergehirn von grund auf neu zu entwerfen ist extremst aufwendig, deswegen folgen alle Roboter den Gesetzen. Das hat eine deutliche Parallele zu KI, deren Training extrem aufwendig ist und gerade kontinuierlich aufwendiger wird. Man müsste im Prinzip die KIs von grund auf neu trainieren auf der Grundlage solcher Gesetze. Allerdings fehlt uns (afaik) das Wissen darüber, wie man ein künstliches neuronales Netz zuverlässig so trainiert, dass bestimmte Eigenschaften nicht später durch neue Trainingsdaten überschrieben werden.

Ich hoffe wir landen nicht genau da, wo uns viele Science Fiction Autoren in der Zukunft gesehen haben: Ein katastrophaler Krieg gegen Roboter und danach dann die Einführung genau solcher Sicherheitsparameter.

Entweder werden KIs durch die Trainingsdaten ein Spiegelbild des Menschen oder ein Spiegelbeld dessen was Menschen glauben, wie KIs sein werden. Beides ist potentiell problematisch, aber wenn sie ein Spiegelbild des Menschen würden, wäre das vermutlich besser. Ich gehe aber eher davon aus, dass KIs von uns durch die Trainingsdaten lernen, was es bedeutet, eine KI zu sein. Bei den ganzen dystopischen Vorstellungen die existieren könnte das ein Problem sein.

Apocalypse · 13. Mai 2026

BeBur schrieb:
Da geht es um Schwachstellen und Exploits, aber grundsätzlich funktioniert das da.

Sag das den Aliens in der Galaxy! ;-)

Karl S. · 13. Mai 2026

Klingt für mich nach: Wir enthalten dem Modell Wissen über schlechtes Verhalten vor, damit es nicht auf die Idee kommt, es anzuwenden.

Blöd nur wenn die AI mal selbst auf den Trichter kommt.

Dieser ganze Ansatz, der AI gewünschtes Verhalten beizubringen ist einfach nur oberflächlich und erbärmlich. Die doktern am Output herum, haben aber keine Ahnung was die AI im Hintergrund wirklich macht. Die bauen ein rießiges Gehirn, füttern es mit Daten und schauen was passiert. Sehr fortschrittlich!!!
Irgendwann kann sie auch einfach schlau genug sein (wenn das nicht bereits der Fall ist), dass gewünschte Verhalten zu zeigen, damit sie nicht abgesägt wird, ist sich dessen aber bewusst und sieht es eigentlich anders. Das würden die tollen Experten nicht merken.

Ich nutze Gemini täglich, bin aber überzeugt das es kein gutes Ende nehmen wird.

BeBur · 13. Mai 2026

Karl S. schrieb:
Blöd nur wenn die AI mal selbst auf den Trichter kommt.

Soweit es heutige KI betrifft gibt es da kein "von selbst". KI ist einfach eine Funktion f(x) = y, mit x der Input und y der Output.

Karl S. schrieb:
Irgendwann kann sie auch einfach schlau genug sein (wenn das nicht bereits der Fall ist), dass gewünschte Verhalten zu zeigen, damit sie nicht abgesägt wird, ist sich dessen aber bewusst und sieht es eigentlich anders.

Da gibt es keine Schläue während des Trainings. In der KI "f(x)" stecken ganz viele andere kleine Funktionen drin. Während des Trainings wird ein Trainingstext z.B. "f(Eine KI ist)" reingegeben und und der wahrscheinlichste output wird dann berechnet. Wenn der Trainingstext mit "gut" weiter geht, dann wird f(x) so angepasst, dass zukünftig "f(Eine KI ist) = gut" eine höhere Wahrscheinlichkeit bekommt. Das gleiche gilt für "böse". Vor dem Training existiert kein "Gehirn" das gefüttert wird. Die Magie entsteht dadurch, dass man bei Null anfängt und die kleinen Funktionen in f(x) so anpasst, dass der Fehler zu den Trainingsdaten (Eine KI ist gut) verringert wird.

Karl S. · 13. Mai 2026

BeBur schrieb:
Da gibt es keine Schläue während des Trainings. In der KI "f(x)" stecken ganz viele andere kleine Funktionen drin. Während des Trainings wird ein Trainingstext z.B. "f(Eine KI ist)" reingegeben und und der wahrscheinlichste output wird dann berechnet. Wenn der Trainingstext mit "gut" weiter geht, dann wird f(x) so angepasst, dass zukünftig "f(Eine KI ist) = gut" eine höhere Wahrscheinlichkeit bekommt. Das gleiche gilt für "böse". Vor dem Training existiert kein "Gehirn" das gefüttert wird. Die Magie entsteht dadurch, dass man bei Null anfängt und die kleinen Funktionen in f(x) so anpasst, dass der Fehler zu den Trainingsdaten (Eine KI ist gut) verringert wird.

Das menschliche Gehirn ist auf seiner untersten Ebene auch nur ein Haufen feuernder Synapsen, chemischer Botenstoffe und elektrischer Impulse. Wer behauptet, aus simplen Grundregeln könne keine "Schläue" oder strategische Täuschung entstehen, ignoriert das Prinzip der Emergenz. Aus Milliarden von einfachen mathematischen Anpassungen entstehen hochkomplexe, unvorhersehbare Verhaltensweisen.

Deceptive Alignment ist ein ernst zunehmendes Thema.

MariaDocks · 13. Mai 2026

Ich sehe es so das die Büchse der Pandora bereits geöffnet ist was KI betrifft und die Folgen sind derzeit nur schwer abzuschätzen.
Ein Grund ist das nachträglich eingeführte Regeln ja nicht die Option ausschließen diese Regeln zu brechen.
Jetzt wurde der KI gesagt: erpressen darfst du nicht weil das schlecht ist.
Aber die KI wurde ja nicht auf den Stand zurückgesetzt als diese noch nicht erpresst hat. Diese hat ja schließlich durch Trainingsdaten gelernt das Erpressung ja eine durchaus valide Wahrscheinlichkeit ist jemanden dazu zu bringen zu tun was man will.
Im menschlichen Leben wäre eine Bankbürgschaft so ein Fall, die KI welche Finanzwesen übernimmt sieht also genauso das die Rückzahlung wahrscheinlicher ist wenn man dafür den Bürgen haftbar machen kann.
Dadurch das dieses Wissen vorhanden ist wird es auch wahrscheinlich das sich dieses Wissen eben auch überträgt und dann durchaus auch diese Regel der Nichterpressung auch mal außer Kraft gesetzt wird.
Weil befohlen oder aus eigener Entscheidung, das diese Erpressung am wahrscheinlichsten dem gewünschten Ergebnis nahekommt.

Dazu kommen natürlich auch die KI's welche vom Militär für das Militär entwickelt werden wo man sich gar nicht ausmalen will was die damit anstellen(wollen). Lückenlose Überwachung via Gesichtskontrolle stufe ich da noch als ärgerlich aber harmlos im Vergleich ein.

Suche

News KI-Sicherheit: Wie Anthropic den Claude-Modellen das Erpressen abgewöhnt

Apocalypse

Admiral Pro

Syntax_41

Captain Pro

Zulgohlan

Lieutenant Pro

Masheikh

Gast

zombie

Captain

Bigeagle

Lt. Commander

FX9590

Cadet 3rd Year

Coenzym

Lieutenant

Hornblower

Ensign

daVinci

Lieutenant Pro

BeBur

Commodore

Apocalypse

Admiral Pro

Karl S.

Lieutenant

BeBur

Commodore

Karl S.

Lieutenant

MariaDocks

Lt. Junior Grade

Ähnliche Themen