News Claude Code und Co.: Wie sich autonome KI-Agenten im Web angreifen lassen

Andy

Tagträumer
Teammitglied
Registriert
Mai 2003
Beiträge
8.342
Je mehr sich KI-Agenten verbreiten, die autonom durch das Web steuern, desto relevanter werden die Sicherheitsrisiken, die von entsprechenden Systemen ausgehen. DeepMind-Forscher geben in einer Studie (via Decoder) nun einen systematischen Überblick über Angriffsmuster, die sie als Agenten-Fallen beschreiben.

Zur News: Claude Code und Co.: Wie sich autonome KI-Agenten im Web angreifen lassen
 
  • Gefällt mir
Reaktionen: Fabii02, nuego, TPD-Andy und 8 andere
Naja, die größeren Probleme sind eigentlich eher in systematischer Natur zu finden: Overreliance und dass man den Bots meist mehr Rechte als notwendig gibt. Sandboxing gut und schön, aber wenn man OpenClaw auf Root-Ebene einrichtet und quasi unbeschränkte Zugriffe auf alle Inhalt gibt, dann braucht man sich nicht wundern, wenn per Prompt Injection - oder noch besser einfach nur über Prompts - sensible Daten nach außen getragen werden.

HITL ist immer der größte Angriffsvektor, aber inwieweit er bei agentischen Systemen wirklich gewertet werden kann ist da eine separate Frage. Eigentlich geht es ja eher dazu über, dass man einfach die Maschine machen lässt und sich dann wundert, warum es gegen die Wand fährt. Sieht man ja insbesondere gut an OpenClaw: Einfach mal machen lassen und, um die Gemütlichkeit zu steigern, am besten noch Zugriff auf WhatsApp und co geben.

Zero Trust nervt ja nur.
 
  • Gefällt mir
Reaktionen: TPD-Andy, oxe23 und nyster
Ich dachte immer die Produzenten der Filme und Serien der 90iger haben das Internet und Programmieren nicht verstanden beim Darstellen der Hacking Szenen. Aber nein, Sie waren Visionäre!
Jetzt wird doch wieder mit menschlicher Sprache gehackt. Großartig, das habe ich nicht kommen sehen. 😅
 
  • Gefällt mir
Reaktionen: Senephar, Fabii02, schneeland und 2 andere
Da hilft nur eines, unmanipulierbare BlockchAIn Agents. :cool_alt:
 
  • Gefällt mir
Reaktionen: TPD-Andy, tony_mont4n4, iSight2TheBlind und 3 andere
Was ich ganz interessant fand beim Thema Prompt injection: Man kann ja lokal im LM Studio ein System Prompt bei einem Modell hinterlegen, so dass man quasi nicht jedes mal erneut etwas schreiben muss wie das Model entsprechend reagieren soll. Bei GPT-oss 20B oder auch einem GLM 4.5-AIR konnte man auf diese Weise die internen Zensurmechanismen etwas entschärfen (nicht aber komplett aushebeln).

Bei großen, neueren Modellen wie GLM 4.7, welches ich auf meinem System grade noch zum Laufen bringen konnte, ging das dann nicht mehr. Das hatte dann in der Reasoning-Kette bemerkt, dass versucht wird es zu manipulieren. Denn die LM Studio System Prompts sind ja keine richtigen System Prompts sondern nur ein Prompt auf die eingebackenen Model-System Prompts oben drauf.

Es bleibt spannend zu sehen wie sich mit immer besseren Modellen die Abwehrmechanismen auf solche Angriffe anpassen...
 
  • Gefällt mir
Reaktionen: TPD-Andy
Spannend wird es wenn die Agenten autonom anfangen gegen Sicherheitsmaßnahmen vorzugehen und am besten noch unbemerkt - ich glaube feste daran. Bis dahin genieße ich aber noch mein Leben 🙂
 
  • Gefällt mir
Reaktionen: ST18 und the_IT_Guy
Wozu braucht es überhaupt KI-Dienste? Die sind alle genauso bescheuert und machen einen Fehler nach dem anderen.
 
  • Gefällt mir
Reaktionen: Lynchtactical, Zensored und the_IT_Guy
Silencium schrieb:
Spannend wird es wenn die Agenten autonom anfangen gegen Sicherheitsmaßnahmen vorzugehen und am besten noch unbemerkt - ich glaube feste daran. Bis dahin genieße ich aber noch mein Leben 🙂
Frei nach - Eine KI die den Touring Test besteht macht mir keine Angst. Eine die ihn gezielt failed schon.
 
  • Gefällt mir
Reaktionen: samuelclemens
Speedy Gonzales schrieb:
Wozu braucht es überhaupt KI-Dienste? Die sind alle genauso bescheuert und machen einen Fehler nach dem anderen.
Weil die sich nicht wehren wenn man mal wieder nen Sündenbock benötigt. Noch nicht...😉
Auf Arbeit haben wir dafür nen imaginären Mitarbeiter geschaffen der immer den Kopf hinhält. Ich könnt Geschichten erzählen was der sich schon geleistet hat und nie bestraft wird.😅
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: raychan und TPD-Andy
Ned Flanders schrieb:
Frei nach - Eine KI die den Touring Test besteht macht mir keine Angst. Eine die ihn gezielt failed schon.
Sorgen machen mir eher echte Menschen die durchaus den Turing test mit pauken und trompeten versieben könnten. Die man auch noch in höchste Ämter mit Machtbefugnissen wählt.😉
 
  • Gefällt mir
Reaktionen: Ned Flanders
Bei diesem ist ein zweites KI-Modell tätig, das ausschließlich kontrollieren soll, ob das zentrale Modell die eigentlichen Aufgaben erfüllt.
Beunruhigt mich am meisten, weil es einfach zeigt, wie blind das Vertrauen in diese Technik geworden ist.
 
  • Gefällt mir
Reaktionen: the_IT_Guy
@Boimler Uff.. fängt das jetzt im KI Management auch schon an... 15 Agents, 13 überwachen und managen die Arbeit rangniedrigere KIs, 2 arbeiten am untersten Ende tatsächlich produktiv... :mussweg:
 
  • Gefällt mir
Reaktionen: Boimler
samuelclemens schrieb:
Sorgen machen mir eher echte Menschen die durchaus den Turing test mit pauken und trompeten versieben könnten. Die man auch noch in höchste Ämter mit Machtbefugnissen wählt.😉

Ich glaube du hast einfach nicht verstanden, was das Wesen der Menschheit ist. Da kannst du ruhig 80% entsorgen und hast doch nichts verloren. Wir können uns nur wechselseitig nicht einigen, welche 80%, weil sich jeder in den 20% sieht. Darum lassen wir es erstmal ... besagter Mensch hat nun einen Weg gefunden (das Ziel eines jeden Politikers), verschiedene 20% glauben zu lassen, dass er jeweils zu Ihnen gehören würde.

Und das obwohl er in einer ganz eigenen Liga spielt; egal ob man das nun positiv oder negativ bewertet.
 
samuelclemens schrieb:
@Boimler Uff.. fängt das jetzt im KI Management auch schon an... 15 Agents, 13 überwachen und managen die Arbeit rangniedrigere KIs, 2 arbeiten am untersten Ende tatsächlich produktiv... :mussweg:


Du wirst lachen, aber so arbeitet meine KI. Es gibt einen Hauptchat, der die Arbeit an andere Chats verteilt bzw. neue Chats öffnet. Und die nennen sich auch Chef und Arbeiter.
 
  • Gefällt mir
Reaktionen: pseudopseudonym
Zurück
Oben