- Registriert
- Mai 2003
- Beiträge
- 8.382
Es waren Ergebnisse aus Anthropics Sicherheitstests, die im letzten Jahr für Aufsehen sorgten: In experimentellen Szenarien tendierten die Claude-Modelle zu Erpressungsversuchen, etwa wenn sie abgeschaltet werden sollten. Eine aktuelle Untersuchung nennt nun Ursache und Gegenmaßnahme.
Zur News: KI-Sicherheit: Wie Anthropic den Claude-Modellen das Erpressen abgewöhnt
Zur News: KI-Sicherheit: Wie Anthropic den Claude-Modellen das Erpressen abgewöhnt