KI-Sicherheit: Wie Anthropic den Claude-Modellen das Erpressen abgewöhnt
Es waren Ergebnisse aus Anthropics Sicherheitstests, die im letzten Jahr für Aufsehen sorgten: In experimentellen Szenarien tendierten die Claude-Modelle zu Erpressungsversuchen, etwa wenn sie abgeschaltet werden sollten. Eine aktuelle Untersuchung nennt nun Ursache und Gegenmaßnahme.
„AI ist böse“ steckte in den Trainingsdaten
Das zentrale Problem sind laut Anthropic die Trainingsdaten. „Wir glauben, der ursprüngliche Grund für das Verhalten waren Internettexte, die KI als böse und auf Selbsterhaltung bedacht porträtierten“, so Anthropic. Es sind demnach also Science-Fiction-Geschichten rund um Systeme wie Shodan aus System Shock und HAL 9000 aus dem Film 2001: Odyssee im Weltraum, die zu etwas führten, was als „agentic misalignment“ beschrieben wird.
Seit Claude Haiku 4.5 (Haiku ist die kleinste Modellvariante von Anthropic) treten solche Vorfälle aber praktisch nicht mehr auf. Erpressungsversuche wurden in den Testszenarien nicht mehr beobachtet, während ältere Modelle wie Opus 4 in manchen Fällen eine Quote von bis zu 96 Prozent erreichen.
KI-Modell soll ethische Beurteilungen lernen – und nicht nur korrekte Antworten
Erreicht wurde das durch ein verändertes Post-Training. Bei Claude 4 nutzte Anthropic größtenteils reguläres Reinforcement Learning from Human Feedback (RLHF). Im Prinzip wurde ein Modell bei diesem Prozess für korrekte Antworten belohnt und falsche Antworten bestraft. Die agentische Nutzung von Tools spielte dabei aber keine Rolle.
Dieses Verfahren war aber nicht geeignet, um das fehlgeleitete Verhalten abzustellen.
Als wirkungsvoll erwies sich, Claude mit Beispielen zu trainieren. Das Modell sollte in dem Prozess also lernen, warum bestimmte Aktionen besser sind als andere und manche nicht gewünscht sind. „Insgesamt bestätigt sich unser Eindruck, (…) dass die Vermittlung von Grundsätzen, die einem konformen Verhalten zugrunde liegen, effektiver sein kann als das Training anhand der Demonstration von diesem Verhalten“, heißt es im Blog-Beitrag.
Eine Verfassung für Claude als Leitfaden
So einen Ansatz verfolgt Anthropic schon länger. Im März hatte das Unternehmen eine Verfassung für Claude vorgestellt. Diese enthält die Werte und Normen, die man dem KI-System vermitteln will. Es geht also um ethische Grundwerte und damit eher abstrakte Normen.
Um solches Verhalten zu trainieren, hat Anthropic einen „Difficult-Advice“-Datensatz vermittelt. Der Inhalt: Ambivalente Situationen für Nutzer, in denen sie ein legitimes Ziel erreichen können, dafür aber Normen verletzen oder Kontrollmechanismen umgehen müssen. In diesem Kontext wird der KI-Assistent mittels Supervised Learning darauf trainiert, dem Nutzer differenzierte Antworten zu geben. Neu an diesem Ansatz ist laut Anthropic, dass das KI-Modell nicht selbst in dem ethischen Dilemma steckt, sondern den Nutzer berät.
Laut Anthropic ist diese Vorgehensweise wirkungsvoll, weil der Datensatz ethisches Schlussfolgern trainiert – und nicht auf korrekte Antworten abzielt.