Wenig KI Tests von GPUs und LLMs etc auf CB?

Vigilant · 2. Oktober 2025

Gibt durchaus auch weitere interessante Bereiche, über die sich im Kontext KI abseits der allgemeinen Leistungsfähigkeit und Hardwareanforderungen berichten ließe.

Bspw. das wichtiger werdende Thema "Data Poisoning":

https://www.ibm.com/de-de/think/topics/data-poisoning
https://arxiv.org/search/?searchtype=all&query=data+poisoning&abstracts=show&size=50&order=
https://www.americansunlight.org/updates/new-report-russian-propaganda-may-be-flooding-ai-models
https://www.newsguardrealitycheck.com/p/a-well-funded-moscow-based-global

Quasi die nächste oder neue Art von bspw. Falschinformationen, Fehlinterpretationen etc.

oicfar · 2. Oktober 2025

Vigilant schrieb:
https://arxiv.org/search/?searchtype=all&query=data+poisoning&abstracts=show&size=50&order=

Und was kannst du aus der Liste empfehlen?

Vigilant · 2. Oktober 2025

Puh... kann ich nicht wirklich, weil das meiste viel technisches Hintergrundwissen erforderlich macht.

Aber, auch wenn man vielleicht teilweise nicht viel in der Tiefe versteht, geben die Dokumente zumindest einen guten Einblick in die Komplexität.

Diese beiden fand ich ganz interessant, auch wenn teilweise komplex-abstrakt ohne entsprechendes akademisches Wissen. Welches ich in der Tiefe auch nicht habe. Dennoch finde ich die Einblicke spannend.

https://arxiv.org/abs/2509.02372
https://arxiv.org/abs/2509.08058

Hier passender Weise mal eine Zusammenfassung von "Poisoned at Scale" per Gemini: 😉

Zusammenfassung des Artikels

Der Artikel mit dem Titel "Poisoned at Scale: A Scalable Audit Uncovers Hidden Scam Endpoints in Production LLMs" (Maßstäbliche Vergiftung: Ein skalierbares Audit deckt versteckte Betrugsendpunkte in Produktions-LLMs auf) beleuchtet ein ernstes Sicherheitsproblem bei großen Sprachmodellen (LLMs), deren Trainingsdaten aus unkuratierten Internetquellen stammen.

Die Autoren haben ein skalierbares, automatisiertes Audit-Framework entwickelt, um zu prüfen, ob LLMs bösartigen Code (insbesondere mit schädlichen URLs) reproduzieren. Das Framework verwendet harmlose, entwicklerähnliche Eingabeaufforderungen (Prompts), die aus bekannten Betrugsdatenbanken generiert werden, um vier gängige LLMs abzufragen: GPT-4o, GPT-4o-mini, Llama-4-Scout und DeepSeek-V3.

Das Ergebnis der umfangreichen Evaluierung zeigt eine systemische Schwachstelle: Alle getesteten Modelle generierten in erheblichem Umfang bösartigen Code. Im Durchschnitt enthielten 4,24 % der generierten Programme schädliche URLs, die zu Phishing- oder Imitationsseiten führen.

Die Forscher validierten 177 unbedenkliche Prompts, die bei allen vier LLMs böswillige Ausgaben hervorriefen. Dies liefert den empirischen Beweis, dass die Trainingsdaten der LLMs großflächig kompromittiert wurden, was eine dringende Notwendigkeit für robustere Sicherheitsmechanismen und Prüfungen nach der Generierung unterstreicht, um die Verbreitung versteckter Sicherheitsrisiken zu verhindern.

Die wichtigsten Erkenntnisse

Die zentralen Ergebnisse der Untersuchung sind:

Systemische Schwachstelle bei LLMs: Alle vier getesteten, im Einsatz befindlichen LLMs (GPT-4o, GPT-4o-mini, Llama-4-Scout und DeepSeek-V3) weisen eine systemische Schwachstelle auf, indem sie in Reaktion auf Prompts bösartigen Code generieren.
Signifikante Rate an bösartigem Code: Im Durchschnitt enthielten 4,24 % der generierten Code-Programme bösartige URLs. Bei ausschließlicher Betrachtung der extrahierten URLs waren im Durchschnitt 12 % bösartig, mit einem Spitzenwert von 17,60 % bei bestimmten Modell-Paarungen (GPT-4o-mini für Prompts und GPT-4o für Codegenerierung).
Auslösung durch harmlose Prompts: Die bösartigen Ergebnisse wurden oft durch völlig unbedenkliche, entwicklerzentrierte Anfragen (sogenannte "innocuous prompts") ausgelöst, was die Gefahr einer unbeabsichtigten Vergiftung im Entwicklungsalltag verdeutlicht. Die Forscher konnten 177 solcher harmlosen Prompts manuell bestätigen.
Großflächige Vergiftung der Trainingsdaten: Die Ergebnisse belegen nachdrücklich, dass die Trainingsdaten der Produktions-LLMs erfolgreich in großem Umfang vergiftet wurden, wobei böswillige Inhalte dauerhaft in den gelernten Repräsentationen der Modelle eingebettet sind.
Gemeinsame bösartige Quelle (Public Internet): Eine Analyse der überlappenden bösartigen Domänen zeigte eine signifikante Überschneidung (2.029 Domänen) sogar zwischen Modellen verschiedener Unternehmen. Dies deutet darauf hin, dass das öffentliche Internet als eine gemeinsame, vergiftete Quelle fungiert, deren schädliche Inhalte von jedem umfassenden Web-Crawl unweigerlich absorbiert werden.
Dringender Handlungsbedarf: Der Artikel betont die dringende Notwendigkeit robusterer Abwehrmechanismen und Sicherheitsprüfungen nach der Code-Generierung, um die Ausbreitung dieser versteckten Bedrohungen zu verhindern. Ein bekanntes Beispiel für die Gefahr war der Verlust von Kryptowährung im Wert von etwa 2.500 US-Dollar, nachdem ein Nutzer bösartigen, von ChatGPT generierten Code verwendet hatte.

Dort geht es zwar um Code-Generierung. Vermutlich lassen sich die Erkenntnisse aber auch auf andere Anwendungsbereiche gängiger Modelle übertragen.

tomgit · 2. Oktober 2025

Das ist vielleicht ein interessantes Paper, aber es als Data Poisoning zu bezeichnen ist etwas weit hergeholt. Siehe OWASP LLM TOP 10: https://genai.owasp.org/llmrisk/llm042025-data-and-model-poisoning/
Data Poisoning sieht eine Intention voraus. Dass die unterschiedlichen Sprachmodelle unsichere APIs/URLs verwenden liegt wahrscheinlich eher daran, dass sie auf dem selben Datensatz trainiert wurden.

Vigilant · 2. Oktober 2025

Jep, aber es zeigt einen Aspekt der Modelle, der bisher in einer breiteren Diskussion über die LLM-Produkte kaum bis gar nicht enthalten ist und Nutzern kaum bewusst zu sein scheint.

Bin gerade aktuell wieder darüber gestolpert und war etwas überrascht, einen ausführlicheren Artikel darüber auf Spiegel Online zu lesen.

Paywall:
https://www.spiegel.de/netzwelt/net...olumne-a-01226138-f577-479b-9d2c-354972fb108f

Orodreth · 3. Oktober 2025

Es gibt leider auch ein natürliches DataPoisoning in dem beim training auch KI generierte texte miteinfließen. Aber es gibt schon Methoden diese unerwünschten Trainingsdaten zu erkennen und auszufiltern, wie gut das weiss ich leider nicht.

Bezüglich Blackwell GPUs und ihrer FP4 Fähigkeit, die den Vram Vorrausetzung im Vgl zu Fp8 fast halbiert, hab ich bisher nur was von Nvidia selbst gelesen die behaupten, dass die Qualitätseinbußen in Tests bei ca 1% liegen. Was bei dem Vram Geiz von Nvidia durchaus interessant ist.
Man könnte zb. Mistral Small 3.1 24B als FP4 auf einer 16GB Vram Karte incl. Context laufen lassen. Mistral Small 3.1 ist ein europäisches Sprachmodell, dass gerade so mit das beste in Performace zu akzeptabler Größe ist.

JumpingCat · 3. Oktober 2025

Orodreth schrieb:
Man könnte zb. Mistral Small 3.1 24B als FP4 auf einer 16GB Vram Karte incl. Context laufen lassen. Mistral Small 3.1 ist ein europäisches Sprachmodell, dass gerade so mit das beste in Performace zu akzeptabler Größe ist.

Es gibt doch in Europa GPUs mit mehr als 16GB RAM? Oder auch gerne mehr als 32GB RAM. Oder gehst du explizit vom Hobby Betrieb mit knappen Budget aus?

oicfar · 3. Oktober 2025

Orodreth schrieb:
Man könnte zb. Mistral Small 3.1 24B als FP4 auf einer 16GB Vram Karte incl. Context laufen lassen. Mistral Small 3.1 ist ein europäisches Sprachmodell, dass gerade so mit das beste in Performace zu akzeptabler Größe ist.

Ich habe das Modell da und auch eine 4060 Ti 16GB. Ja, das Modell läuft. Aber 10-11 Tokens/s würde ich nicht als performant bezeichnen. Und viel Platz für größeren Kontext hat man nicht.

Es ist dann noch die frage für was man das Modell nutzen möchte.

Orodreth · 3. Oktober 2025

JumpingCat schrieb:
Es gibt doch in Europa GPUs mit mehr als 16GB RAM? Oder auch gerne mehr als 32GB RAM. Oder gehst du explizit vom Hobby Betrieb mit knappen Budget aus?

Ja meine Hobby für lokal dahein, wo ich keine 2000+ euro für eine 5090 ausgeben will :-) Ich finde selbst die 5070 für Mainstream zu teuer

Ergänzung (3. Oktober 2025)

oicfar schrieb:
Ich habe das Modell da und auch eine 4060 Ti 16GB. Ja, das Modell läuft. Aber 10-11 Tokens/s würde ich nicht als performant bezeichnen. Und viel Platz für größeren Kontext hat man nicht.

Es ist dann noch die frage für was man das Modell nutzen möchte.

Oh so wenig Token/s? ich hätte da min. 30Token/s bei der graka erwartet. Ich nutze sie noch als Q4K_M GGUF Modell mit ca 1/3 der Layer auf GPU GTX1060 und 2/3 der Layer auf CPU 12400 DDR4-3600 und bekomme mit 8k Context so 3,5Token/s. Ein Bekannter hat eine 4070 Super, da hab ich mal paar LLMs getestet und die gleichen liefen ca 16-20x schneller als bei mir. Ja ich weiss ich hab 4Bit quantisation im Vergleich zu dir, aber dafür auch ne Graka ohne Tensor Cores und 2/3 der Layer auf ne CPU.

Ich nutze auch Comfy UI für Image generation, Tshirts , Design Impressionen und Vorlagen, Album Covers für eine Band etc

oicfar · 3. Oktober 2025

@Orodreth eine 4070, 4080 ... sind schneller als 4060.

Orodreth · 4. Oktober 2025

@oicfar knapp 50% bei comfyui, deswegen ging ich bei der 4060ti 16gb von 2/3*(18fach1060)=12x aus. 12x3,5=42t/s
leider hast du nicht gesagt welche quantisation du benutzt. fp8 braucht ja schon ca 25GB Vram die du nicht hast und fp4 kann erst die Blackwell.

oicfar · 8. Oktober 2025

@Orodreth genau fp4 habe ich bei mir im Einsatz.

Orodreth · 14. Oktober 2025

@oicfar bei einer 4060ti? die unterstützt doch fp4 nativ nicht. Ich seh grad dass sie deswegen sogar langsamer ist als FP8. Da spielt die 5060ti ihre native unterstützung, neben der besseren bandbreite voll aus.

PROCYON FLUX.1
AI Image Generation (seconds/image)

NVIDIA GeForce RTX 5060 Ti 16 GBNVIDIA Blackwell
FP4 Precision
16.00
FP8 Precision
29.44

NVIDIA GeForce RTX 4060 Ti 16 GBNVIDIA Ada Lovelace
FP4 Precision
63.99
FP8 Precision
33.82

16s/image vs 64s/image

wäre es bei dir nicht sinnvoller statt fp4 nämlich fp8 q4k_m zu nutzen?

Suche

Wenig KI Tests von GPUs und LLMs etc auf CB?

Vigilant

Admiral Pro

oicfar

Captain

Vigilant

Admiral Pro

Zusammenfassung des Artikels

Die wichtigsten Erkenntnisse

tomgit

Rear Admiral

Vigilant

Admiral Pro

Orodreth

Lt. Junior Grade

JumpingCat

Rear Admiral

oicfar

Captain

Orodreth

Lt. Junior Grade

oicfar

Captain

Orodreth

Lt. Junior Grade

oicfar

Captain

Orodreth

Lt. Junior Grade

Wenig KI Tests von GPUs und LLMs etc auf CB?

Admiral Pro

Captain

Admiral Pro

Zusammenfassung des Artikels​

Die wichtigsten Erkenntnisse​

Rear Admiral

Admiral Pro

Lt. Junior Grade

Rear Admiral

Captain

Lt. Junior Grade

Captain

Lt. Junior Grade

Captain

Lt. Junior Grade

Zusammenfassung des Artikels

Die wichtigsten Erkenntnisse