Claude Mythos und Opus 4.7: Was leisten Anthropics neue Spitzenmodelle?

Andreas Frischholz
9 Kommentare
Claude Mythos und Opus 4.7: Was leisten Anthropics neue Spitzenmodelle?
Bild: geralt | CC0 1.0

Claude Mythos ist Anthropics Spitzenmodell, das aber nicht für ausgewählte Organisationen bereitgestellt wird, weil es zu stark im Entdecken und Ausnutzen von Sicherheitslücken sein soll. Für die Allgemeinheit gibt es nun aber Claude Opus 4.7.

Bei diesem Modell sollen die Cyber-Sicherheitsfähigkeiten nicht so ausgeprägt sein wie bei Mythos. Anthropic erklärt, man habe während des Trainingsprozesses mehrere Ansätze getestet, um das Modell zu beschränken. Ebenso wurden Sicherheitsmechanismen implementiert, die etwa automatisch Anfragen blockieren sollen, die auf hohe IT-Sicherheitsrisiken hinweisen.

Für professionelle IT-Sicherheitsexperten bietet Anthropic ein neues Cyber Verification Program. Man wählt also einen ähnlichen Ansatz wie OpenAI, Nutzer mit legitimen Interessen sollen sich zunächst autorisieren, wenn sie die leistungsstärksten Modelle nutzen wollen.

Mit Opus 4.7 will Anthropic ermitteln, wie sich die Sicherheitsmechanismen bewähren. Von diesen Erfahrungen sollen dann später Modelle profitieren, die sich in einer ähnlichen Leistungsklasse wie Claude Mythos bewegen.

Wie schlägt sich Opus 4.7 gegenüber den Vorgängern?

Von der regulären Leistungsfähigkeit her erscheint Opus 4.7 hingegen wie ein typisches Modell-Update. Es setzt sich bei den internen Benchmarks an die Spitze und bietet zudem Fortschritte in Bereichen wie Reasoning und ist laut Anthropic in der Lage, komplexe und mehrstufige Aufgaben besser zu bewältigen.

Außerdem kann das Modell Bilder in höherer Auflösung verarbeiten. Damit macht es Fortschritte bei Aufgaben, die auf visuellen Eingaben basieren – also etwa Screenshots, Diagramme und ähnliches.

Relevant sind all diese Bereiche auch für Agenten. Wenn diese einen Computer steuern, erstellen diese Screenshots und nutzen die Inhalte dann als Grundlage für weitere Befehle. Je besser sich also die Screenshots auswerten lassen, desto leistungsfähiger ist Agent beim Steuern eines Computers.

Beim Sicherheitsprofil ist Opus 4.7 laut Anthropic vergleichbar mit dem Vorgänger. Beim Umgang mit Prompt-Injections – also manipulierten Eingaben von Angreifern – ist das Modell im Vergleich zu Opus 4.6 etwas widerstandsfähiger. Etwas schwächer ist es hingegen bei Antworten, die sensible Bereiche wie Drogen betreffen.

Ist Mythos tatsächlich der große Sprung?

Was sind aber die Fortschritte, die Claude Mythos liefert? Eine unabhängige Analyse liefert mittlerweile das AI Security Institute. Generell lautet das Fazit: Das Modell schneidet besser ab, wenn es darum geht, Sicherheitslücken zu erfassen und mehrstufige Verfahren zu bewältigen.

Erkennen lässt sich das etwa in dem Testverfahren „The Last Ones“ (TLO), das eine Attacke auf ein Unternehmensnetzwerk simuliert. Die erfolgt in 32 Schritten. Menschen benötigen schätzungsweise rund 20 Stunden für die Aufgabe.

Claude Mythos ist laut dem AI Security Institute das erste Modell, dem es gelingt, sämtliche Schritte der Attacke in einem Durchlauf zu bewältigen. Das gelingt in drei von zehn Fällen, im Schnitt kommt es 22 Schritte weit. Claude 4.6 war das nächstbeste Modell, es konnte im Durchschnitt 16 Schritte erfolgreich absolvieren.

Laborerfolge sind nicht unbedingt mit realen Aufgaben vergleichbar

Das AI Security Institute beschreibt die Fähigkeiten als bemerkenswert. Allerdings merkt man an, dass sich erfolgreiche Simulationen nicht direkt mit realen Attacken vergleichen lassen. So fehlen etwa Sicherheitsfunktionen, die in der Praxis aktiv sind. Ebenso gibt es keine Bestrafung für fehlgeschlagene Attacken. Eine Simulation lässt sich beliebig oft wiederholen, bei echten Netzwerken würden Angriffe des Modells etwa Sicherheitsalarme auslösen.

Red Hat hat sich ebenfalls die zu den Konsequenzen von Modellen Claude Mythos geäußert. Eine der Kernaussagen in dem Blog-Beitrag ist: IT-Anbieter müssen sich darauf einstellen, dass KI-Systeme nun in der Lage sind, deutlich mehr Sicherheitslücken zu entdecken. Das senkt die Hürde für das Bereitstellen von Exploits. Man warnt aber vor Panik. Die von Anthropic im Linux-Kernel entdeckten Bugs bewertet man etwa mit Einstufungen von niedrig bis moderat.

Priorisierung angesichts der Menge an Bugs entscheidend

Für Anbieter sei es laut Red Hat nun entscheidend, die Prozesse anzupassen. „Es mögen zwar Tausende von Bugs entdeckt werden, wenn aber nur eine Handvoll davon ausnutzbare Sicherheitslücken sind, sind Priorisierung und Triage entscheidend“, heißt es in der Mitteilung. Die Grundlagen von Open Source sieht man davon aber nicht in Gefahr, es würden sich aber die Standards für diejenigen erhöhen, die die jeweiligen Tools betreiben.