News Claude Code und Co.: Wie sich autonome KI-Agenten im Web angreifen lassen

Andy · Heute um 14:35

Je mehr sich KI-Agenten verbreiten, die autonom durch das Web steuern, desto relevanter werden die Sicherheitsrisiken, die von entsprechenden Systemen ausgehen. DeepMind-Forscher geben in einer Studie (via Decoder) nun einen systematischen Überblick über Angriffsmuster, die sie als Agenten-Fallen beschreiben.

Zur News: Claude Code und Co.: Wie sich autonome KI-Agenten im Web angreifen lassen

Vigilant · Heute um 14:45

Welcome to Cyberpunk, Shadowrun und Co.

tomgit · Heute um 15:11

Naja, die größeren Probleme sind eigentlich eher in systematischer Natur zu finden: Overreliance und dass man den Bots meist mehr Rechte als notwendig gibt. Sandboxing gut und schön, aber wenn man OpenClaw auf Root-Ebene einrichtet und quasi unbeschränkte Zugriffe auf alle Inhalt gibt, dann braucht man sich nicht wundern, wenn per Prompt Injection - oder noch besser einfach nur über Prompts - sensible Daten nach außen getragen werden.

HITL ist immer der größte Angriffsvektor, aber inwieweit er bei agentischen Systemen wirklich gewertet werden kann ist da eine separate Frage. Eigentlich geht es ja eher dazu über, dass man einfach die Maschine machen lässt und sich dann wundert, warum es gegen die Wand fährt. Sieht man ja insbesondere gut an OpenClaw: Einfach mal machen lassen und, um die Gemütlichkeit zu steigern, am besten noch Zugriff auf WhatsApp und co geben.

Zero Trust nervt ja nur.

the_IT_Guy · Heute um 15:21

Ich dachte immer die Produzenten der Filme und Serien der 90iger haben das Internet und Programmieren nicht verstanden beim Darstellen der Hacking Szenen. Aber nein, Sie waren Visionäre!
Jetzt wird doch wieder mit menschlicher Sprache gehackt. Großartig, das habe ich nicht kommen sehen. 😅

Kuomo · Heute um 15:23

Da hilft nur eines, unmanipulierbare BlockchAIn Agents.

Rock Lee · Heute um 15:51

Was ich ganz interessant fand beim Thema Prompt injection: Man kann ja lokal im LM Studio ein System Prompt bei einem Modell hinterlegen, so dass man quasi nicht jedes mal erneut etwas schreiben muss wie das Model entsprechend reagieren soll. Bei GPT-oss 20B oder auch einem GLM 4.5-AIR konnte man auf diese Weise die internen Zensurmechanismen etwas entschärfen (nicht aber komplett aushebeln).

Bei großen, neueren Modellen wie GLM 4.7, welches ich auf meinem System grade noch zum Laufen bringen konnte, ging das dann nicht mehr. Das hatte dann in der Reasoning-Kette bemerkt, dass versucht wird es zu manipulieren. Denn die LM Studio System Prompts sind ja keine richtigen System Prompts sondern nur ein Prompt auf die eingebackenen Model-System Prompts oben drauf.

Es bleibt spannend zu sehen wie sich mit immer besseren Modellen die Abwehrmechanismen auf solche Angriffe anpassen...

Suche

News Claude Code und Co.: Wie sich autonome KI-Agenten im Web angreifen lassen

Andy

Tagträumer

Vigilant

Admiral Pro

tomgit

Rear Admiral

the_IT_Guy

Lieutenant Pro

Kuomo

Lt. Junior Grade Pro

Rock Lee

Captain