Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsAussetzer bei Claude 4: Modell versucht Erpressung, wenn es abgeschaltet werden soll
Gemeinsam mit der Freigabe von Claude-4-Modellen hat Anthropic auch das Sicherheitslevel erhöht. Risiken sieht man im Zusammenhang mit chemischen, biologischen, radiologischen und nuklearen Waffen. Erstaunlich sind aber auch weitere Aussetzer, die Anthropic in der Model Card beschreibt.
Unter bestimmten Umständen lassen sich „besorgniserregende Extreme“ wie etwa Erpressungsversuche provozieren. Voraussetzung für ernsthaftes Fehlverhalten ist jedoch, dass das Modell in seinem Weiterbetrieb bedroht ist und dazu veranlasst wurde, über die Selbsterhaltung nachzudenken.
Naja real wird es einfach gar kein Selbsterhaltungstrieb haben, wozu sollte es das denn negativ sehn und verhindern wollen. Menschlinge finden Tod doof, KI kann durch eine neue Version ersetzt werden super finden.
Nun, sie werden ja auch bis zum Rand mit von Menschen erzeugten Informationen und ihrem Verhalten gefüttert. Dass sie sich dann eine KI ein Stück weit einen Menschen nachahmt, kommt dann daher.
mich würde mal interessieren wie weit die KI systeme der sicherheitsbehörden sind, kann mir doch keiner erzählen das da nicht dran geforscht wird. Da eine KI nix anderes wie ein Werkzeug ist gibt es doch bestimmt auch schon einen kleinen Markt dafür.