Zusammenfassung des Artikels
Der Artikel mit dem Titel
"Poisoned at Scale: A Scalable Audit Uncovers Hidden Scam Endpoints in Production LLMs" (Maßstäbliche Vergiftung: Ein skalierbares Audit deckt versteckte Betrugsendpunkte in Produktions-LLMs auf) beleuchtet ein ernstes Sicherheitsproblem bei
großen Sprachmodellen (LLMs), deren Trainingsdaten aus unkuratierten Internetquellen stammen.
Die Autoren haben ein
skalierbares, automatisiertes Audit-Framework entwickelt, um zu prüfen, ob LLMs bösartigen Code (insbesondere mit schädlichen URLs) reproduzieren. Das Framework verwendet
harmlose, entwicklerähnliche Eingabeaufforderungen (Prompts), die aus bekannten Betrugsdatenbanken generiert werden, um vier gängige LLMs abzufragen:
GPT-4o, GPT-4o-mini, Llama-4-Scout und
DeepSeek-V3.
Das Ergebnis der umfangreichen Evaluierung zeigt eine
systemische Schwachstelle: Alle getesteten Modelle generierten in erheblichem Umfang bösartigen Code. Im Durchschnitt enthielten
4,24 % der generierten Programme schädliche URLs, die zu Phishing- oder Imitationsseiten führen.
Die Forscher validierten
177 unbedenkliche Prompts, die bei allen vier LLMs böswillige Ausgaben hervorriefen. Dies liefert den empirischen Beweis, dass die Trainingsdaten der LLMs
großflächig kompromittiert wurden, was eine dringende Notwendigkeit für robustere Sicherheitsmechanismen und Prüfungen nach der Generierung unterstreicht, um die Verbreitung versteckter Sicherheitsrisiken zu verhindern.
Die wichtigsten Erkenntnisse
Die zentralen Ergebnisse der Untersuchung sind:
- Systemische Schwachstelle bei LLMs: Alle vier getesteten, im Einsatz befindlichen LLMs (GPT-4o, GPT-4o-mini, Llama-4-Scout und DeepSeek-V3) weisen eine systemische Schwachstelle auf, indem sie in Reaktion auf Prompts bösartigen Code generieren.
- Signifikante Rate an bösartigem Code: Im Durchschnitt enthielten 4,24 % der generierten Code-Programme bösartige URLs. Bei ausschließlicher Betrachtung der extrahierten URLs waren im Durchschnitt 12 % bösartig, mit einem Spitzenwert von 17,60 % bei bestimmten Modell-Paarungen (GPT-4o-mini für Prompts und GPT-4o für Codegenerierung).
- Auslösung durch harmlose Prompts: Die bösartigen Ergebnisse wurden oft durch völlig unbedenkliche, entwicklerzentrierte Anfragen (sogenannte "innocuous prompts") ausgelöst, was die Gefahr einer unbeabsichtigten Vergiftung im Entwicklungsalltag verdeutlicht. Die Forscher konnten 177 solcher harmlosen Prompts manuell bestätigen.
- Großflächige Vergiftung der Trainingsdaten: Die Ergebnisse belegen nachdrücklich, dass die Trainingsdaten der Produktions-LLMs erfolgreich in großem Umfang vergiftet wurden, wobei böswillige Inhalte dauerhaft in den gelernten Repräsentationen der Modelle eingebettet sind.
- Gemeinsame bösartige Quelle (Public Internet): Eine Analyse der überlappenden bösartigen Domänen zeigte eine signifikante Überschneidung (2.029 Domänen) sogar zwischen Modellen verschiedener Unternehmen. Dies deutet darauf hin, dass das öffentliche Internet als eine gemeinsame, vergiftete Quelle fungiert, deren schädliche Inhalte von jedem umfassenden Web-Crawl unweigerlich absorbiert werden.
- Dringender Handlungsbedarf: Der Artikel betont die dringende Notwendigkeit robusterer Abwehrmechanismen und Sicherheitsprüfungen nach der Code-Generierung, um die Ausbreitung dieser versteckten Bedrohungen zu verhindern. Ein bekanntes Beispiel für die Gefahr war der Verlust von Kryptowährung im Wert von etwa 2.500 US-Dollar, nachdem ein Nutzer bösartigen, von ChatGPT generierten Code verwendet hatte.