Leserartikel Samsung 9100 Pro im KI-Härtetest: Gen 5 vs. Gen 4 vs. SATA

Viper1982 · 19. Dezember 2025

Ich wünsche viel Spaß beim Lesen und hoffe, ihr findet die Hardware-Ergebnisse – und die Fähigkeiten aktueller KI-Modelle – genauso spannend wie ich.

NÖ!

SportMönch · 19. Dezember 2025

Glückwunsch zum Goldbarren (SSD). Ne Quatsch. Danke für die viele Arbeit

madmax2010 · 19. Dezember 2025

Hach ja. Wiedermal witzig. Bei Stable Diffusion ist die 11? 12? Jahre alte MLC BX100 einfach schneller als die 9100 Pro

Zu der von dir auf S11 genannten CPU Mauer habe ich gestern noch was zwischen tuer und Angel zusammengetippt:

madmax2010 schrieb:
Solche Marketing-Zahlen entstehen nur unter künstlichen Bedingungen (Queue Depth 32; bedeutet: Die CPU schickt 32 (oder mehr) Anfragen gleichzeitig an die SSD, noch bevor die erste Anfrage überhaupt bearbeitet wurde), bei denen bspw ein 9950x hunderte Datenpakete gleichzeitig abholen Kann.

Im echten Alltag arbeiten Windows und Spiele jedoch an sehr vielen stellen seriell (Queue Depth 1): Das System fordert eine Datei / ein Fragment / Dataframe mit ca 4kb, an und muss die Latenz Zeit warten, bis diese geliefert wird, bevor es überhaupt weiß, welche Datenfragmente als Nächstes benötigt werden. Da Software meist nicht „auf Vorrat“ bestellt, liegen über 90 % der theoretischen Leistung brach, weil die SSD fast nie parallel arbeiten darf. Darum gibt's so Dinge wie hyperthreading. Das ist vor allem IO Optimierung

Der Flaschenhals ist daher nicht Die Bandbreite, sondern die physikalische Reaktionszeit der ssd selbst. Da bei alltäglichen Aufgaben jede Anfrage einzeln abgewickelt wird, addieren sich die winzigen Wartezeiten der Speicherzellen auf, was die Geschwindigkeit einer 1 Millionen iops ssd auf ca 25.000 IOPS limitiert. Die CPU ist zwar extrem schnell darin, die Anfragen abzuschicken, verbringt aber den Großteil der Zeit damit, auf die Rückmeldung der SSD zu warten, weshalb die theoretischen Millionenwerte für einen Einzelnutzer unerreichbar bleiben.

Wenn der 16 Kerner dabei nur 4kb Dataframes snackt landest du Dann bei etwa 100mb/s die effektiv verarbeitet werden.
Kluges queueing, scheduling und so und man landet je nach Anwendung bei 500 bis 1000 mb/s, mit Tendenz zur 500.

Datenbankserver mit 3 stellig Kernen hingegen freuen sich über die Bandbreite und mehr iops

Bei der latenz ist die physische laenge der Lane relevanter, oder ob sie direkt zur CPU oder zum Chipset geht. Aber auch das sind wenige Nanosekunden. Signalgeschwindigkeit im Kupferfestkörper ist ca 200km/ms also schafft das Signal pro 1ns ca 20cm

Während moderne SATA-SSDs (SanDisk/BX100) hier noch gut

B100. Modern. da kamen bis zur MX500 noch so 20 Modelle zwischen

Aber macht auch da keinen Unterschied

Das mit der "Latenzexplosion" passiert mit NVMe SSDs wie Kingston NV1/2 und Crucial P1/2/3/310 ebenfalls

Die "Nadelstiche" (IOPS & Latenz)

Tell me gemini wrote something without telling me..
Diese Cringe Metaphern im Webinterface tun wirklich weh

Auf der Samsung 9100 Pro können Sie ein 100 GB Dataset entpacken und
gleichzeitig flüssig mit LLaMA 3 chatten, ohne dass die Token-Generierung einbricht. Das
ist echtes Multitasking ohne Kompromisse

Stimme nicht zu. wenn das Modell zur laufzeit von der SSD kommt, bricht die Token Rate in jedem Fall ein.
Das Modell wird in den (VRAM|RAM) geladen. Die SSD ist viel viel zu langsam um den Prozessor zu fuettern

Gen 5 lohnt sich vor allem dort, wo Masse bewegt
wird, nicht dort, wo nur viele kleine Anfragen gestellt werden.

Amen.

Sauberer Test und bessere Methodik als bei den sehr vielen Testseiten. Respekt.

Rickmer · 19. Dezember 2025

Paris schrieb:
Das Ergebnis war eine Reihe von PowerShell- und Python-Skripten, die diverse Tests vollkommen automatisiert und somit zu 100 % reproduzierbar durchführten.

Wirklich?
Weil bei Stable Diffusion gibt's den 'seed' - kann man den auch bei GPT / Gemini mitgeben, um wirklich reproduzierbar jedesmal die identische Textausgabe zu erhalten?

Bzw. wenn ich mich richtig erinnere werden doch im Datacenter sowieso üblicherweise eine ganze Reihe an Prompts verschiedener gebündelt ausgeführt womit selbst alle Settings identisch nicht zu einem identischen Output führen kann...

Oder habe ich das falsch im Kopf?

[Nachtrag: Okay, die eigentlichen Tests wurden mit lokalen LLMs durchgeführt. Da ist das natürlich kein Thema.]

Paris schrieb:
Den eigentlichen, detaillierten Testbericht habe ich als PDF-Datei angehängt, da dies deutlich lesefreundlicher ist als ein endloser Forum-Post.

Eh... ich glaube du unterschätzt, was mit dem Editing im Forum möglich ist^^

Aber schaun wir mal rein.

Wie viel vom Bericht hattest eigentlich du geschrieben vs. wurde von AI geschrieben? Wer hat das Wort 'Schwuppdizität' eingebaut? Die Analyse Sektion scheint auf jeden Fall vollständig von KI zu stammen.

(Und bei dem Stichwort: schade, dass keine Optane SSD mit niedrigeren Transferraten aber extrem geringen Latenzen zur Verfügung stand als zustätzlicher Vergleichspunkt)

Beim ComfyUI Test ist auf jeden Fall ein Fehler drin, weil es ist nicht möglich, dass die BX100 ein 6,5GB Modell in 4,x Sekunden lädt. Das würde die Geschwindigkeit der SATA Schnittstelle überschreiten.

madmax2010 schrieb:
B100. Modern. da kamen bis zur MX500 noch so 20 Modelle zwischen

Auch mein Gedanke. Die BX Modelle waren noch nie das beste, was Micron / Crucial schaffen kann und dazu auch noch mittlerweile ~10 Jahre alt.

Ansonsten waren die Ergebnisse soweit ungefähr wie erwartet.

Meine ganzen AI Spielereien liegen auf einer nicht sonderlich schnellen Micron 9200 Eco und nichts von den Ergebnissen suggeriert, dass ich umbedingt eine schnellere SSD brauche.

madmax2010 · 19. Dezember 2025

Rickmer schrieb:
Weil bei Stable Diffusion gibt's den 'seed' - kann man den auch bei GPT / Gemini mitgeben, um wirklich reproduzierbar jedesmal die identische Textausgabe zu erhalten?

Gemini im AiStudio definitiv. via API geht es bei beiden

Rickmer schrieb:
Bzw. wenn ich mich richtig erinnere werden doch im Datacenter sowieso üblicherweise eine ganze Reihe an Prompts verschiedener gebündelt ausgeführt womit selbst alle Settings identisch nicht zu einem identischen Output führen kann...

korrekt

Rickmer schrieb:
(Und bei dem Stichwort: schade, dass keine Optane SSD mit niedrigeren Transferraten aber extrem geringen Latenzen zur Verfügung stand als zustätzlicher Vergleichspunkt)

das die nicht mehr gebaut werden macht mich sauer

Rickmer schrieb:
Meine ganzen AI Spielereien liegen auf einer nicht sonderlich schnellen Micron 9200 Eco und nichts von den Ergebnissen suggeriert, dass ich umbedingt eine schnellere SSD brauche.

Joa. 3GB/s und 750K IOPS muss man auch erst mal dicht bekommen

Ergänzung (19. Dezember 2025)

Rickmer schrieb:
Wer hat das Wort 'Schwuppdizität' eingebaut? Die Analyse Sektion scheint auf jeden Fall vollständig von KI zu stammen.

https://www.computerbase.de/forum/t...es-2-nm-chips-bei-tsmc.2252057/#post-30917606
https://www.computerbase.de/forum/t...i-single-core-leistung.2252891/#post-30939566

gibs zu, du hast den mitgeschrieben
Wusste ich doch, dass ich das schon mal las

Rickmer · 19. Dezember 2025

madmax2010 schrieb:
3GB/s und 750K IOPS muss man auch erst mal dicht bekommen

Tatsächlich erreichen die Q1T1 sequential Werte nicht annähernd 3 GB/s...

Weißt du zufällig, wie LLMs geladen werden? Also alles sequentiell, oder ist das so programmiert, dass alle Layer der LLM gleichzeitig in eigener Queue geladen werden?

Zweiteres klingt für mich wie eine sehr plausible und nicht allzuschwer implementierbare Optimierung, aber wer weiß ob die üblichen Verdächtigen (llama.cpp) das können oder nicht.

madmax2010 schrieb:
gibs zu, du hast den mitgeschrieben
Wusste ich doch, dass ich das schon mal las

Ne, aber ich mag das Wort

madmax2010 · 20. Dezember 2025

Rickmer schrieb:
Weißt du zufällig, wie LLMs geladen werden? Also alles sequentiell, oder ist das so programmiert, dass alle Layer der LLM gleichzeitig in eigener Queue geladen werden?

Etwas. llama.cpp nutzt mmap, weshalb es nicht unbedingt alles direkt im RAM vorhalten muss, was vom Modell bisher nicht aktiv gebraucht wurde. mmap halt..
ANsonsten erfolgt das lesen sequentiell.
Das queueing der layer bringt auch iirc nicht mega viel. ich such gerade mal..

Edit: funden..
https://developer.download.nvidia.com/CUDA/training/StreamsAndConcurrencyWebinar.pdf
Slide 15
Es gibt halt nur 2 CopyEngines und soweit ich das verstehe ist hier H2D die relevante beim Laden des Modells. Das ist an der Stelle der Faktor, der den Durchsatz limitert.

Ich würde da im Kontext von MoE noch einen Schritt weiter gehen.
RAM ist (ja, noch immer) Billiger als GPUs mit VRAM. man kann bspw. ein 70B Modell im RAM halten und nur die Experten jeweils in den VRAM laden.
Das hat zwar etwas mehr Latenz zum ersten token, würde aber danach deutlich mehr Performance bringen.
So partielles offloading ist in Arbeit, aber ich habe nicht verfolgt wie weit das ist und wie gut es geht
bspw: https://app.semanticdiff.com/gh/ggml-org/llama.cpp/pull/11397/overview

Wie weit das ist.. Keine ahnung, sag gern wenn du es angesehen hast und es schon tut.

Ergänzung (20. Dezember 2025)

Rickmer schrieb:
Ne, aber ich mag das Wort

es ist ein hervorragendes wort

Rickmer · 20. Dezember 2025

madmax2010 schrieb:
Das hat zwar etwas mehr Latenz zum ersten token, würde aber danach deutlich mehr Performance bringen.

Mein Verständnis war, dass die Bestimmung der zu verwendenen Experts bei jedem Token aufs neue durchgeführt wird?

Bei einer Vielzahl von Token/s wäre das ein enormes Daten hin-und-her wenn man jeweils für den aktiven Token die Experts in den VRAM lädt.

Außerdem sind die Experts was am seltensten genutzt wird und daher würde ich das so sehen wie (wenn ich es richtig verstehen) in deinem Link diskutiert wird: Die allgemeinen Teile die für jeden Token benötigt werden in den VRAM und die Experts in den RAM.

(Oder es ist zu spät und ich kapier nichts mehr. Auch möglich.)

madmax2010 · 20. Dezember 2025

Rickmer schrieb:
Mein Verständnis war, dass die Bestimmung der zu verwendenen Experts bei jedem Token aufs neue durchgeführt wird?

bei aktuellen Modellen korrekt. Mit dem "einen schritt weiter gehen" meine ich vor allem: es kommen so langsam publikationen die nur ein subset 1-k < n pro prompt nutzen.

Bei Qwen3 30B A3B sind es ~4.7M Parameter pro experte, es gibt pro Layer 128 Experten wovon pro prompt aktiv gehalten werden. Das ganze auf 48 Layern sind ~1.8 Milliarden parameter nur fuer die pro Token aktiven experten in dem Modell.
Dazu Attention + Routing + Heads + Norm ... und man hat die 3 Milliarden aktiven pro Token zusammen
bevor wir jetzt um die zeit anfangen papser zu suchen, einer vom PrimIntellect hat da vor kurzem was zu geposted, was die nutzung der experten etwas auswertet:
https://twitter.com/kalomaze/status/1918238263330148487

Rickmer schrieb:
wäre das ein enormes Daten hin-und-her wenn man jeweils für den aktiven Token die Experts in den VRAM lädt.

Einerseits, ja.
Andererseits, muss jeder (aktive) parameter pro token ohnehin mindestens 1x vom Speicher zum Compute

Rickmer schrieb:
Die allgemeinen Teile die für jeden Token benötigt werden in den VRAM und die Experts in den RAM.

die allgemeinen Teile im RAM zu halten und das variabel genutzte zusammen direkt daneben zu haben ist denke ich schon sinnvoll.

Das ist definitiv, so wie es gerade ist, noch nicht wie ich mir das oben vorstelle, denke aber dass der Weg nur teile des Modells nach der Aktuellen prompt, oder Kontext aktiv zu halten etwas ist, was gerade bei selbst betriebenen LLMs was helfen kann

(Den Begriff experten sollte man definitiv abstrakt verstehen. Das sind i.d.r keine FFNs bei denen eins gut Bio und das andere Mathe kann)

Eben noch vergesen: mmap war mein gedanke, als ich das SD benchmark gesehen habe. Anders kann die Zahl kaum stimmen.
ich war bei llama.cpp auch schon ein paar mal etwas verwundert, als Token kamen, obwohl RAM und SSD nicht aussahen, als ob ein Modell der entsprechenden Größe geladen wurde

midwed · 20. Dezember 2025

Paris schrieb:
Den eigentlichen, detaillierten Testbericht habe ich als PDF-Datei angehängt, da dies deutlich lesefreundlicher ist als ein endloser Forum-Post.

Finde ich nicht. Ist zudem auch nicht Usus.

# Anleitung und Regeln für das Schreiben eines Leserartikels

Pack doch den Testbericht bitte in den Startbeitrag oder in einen neuen Beitrag hier im Thread.

Rotznase6270 · 20. Dezember 2025

Vielen Dank für den interessanten und aufschlussreichen Test.

yxcvb · 20. Dezember 2025

Kurzfassung: Je schneller (mehr Highend) das eingesetzte Equipment ist, desto schneller ist das Ganze. Schon erstaunlich, allerdings hätte ich - ohne mich jetzt allzu weit aus dem Fenster zu lehnen - das auch vorher sagen können.

PrussianHeathen · 20. Dezember 2025

Deine LLM Modelle laden sehr langsam und sind weiter unter der PCIe 3.0 x4 Schnittstelle. Das macht die Analyse komplett falsch. Die Bandbreite ist egal für nvme SSDs.

LLM Model:	4.7	GB

	time (s)	MB/s
Samsung 9100	2.86	1643.35664335664
Crucial T705	2.91	1615.12027491409
Samsung 990	5.65	831.858407079646

Eine PCI 5.0 SSD kann wegen dem neueren controller schneller sein,
Deine Modelle sind auch sehr klein. 4.7GB sind unter einer Sekunde Arbeit für eine PCIe 4.0 SSD bei voller Auslastung.

---------------------------------------------------------

Hier sind meine Ergebnisse mit dem tool LM Speedometer:

LM Speedometer

Model	Time (s)	Size (MB)	Speed (MB/s)
qwen3-coder-30b	8.21	18632	2269
gemma-3n-e4b-it	2.53	4237	1675
openai/gpt-oss-20b	5.92	12110	2046
mistralai/devstral-small-2505	7.36	14334	1948
phi-4	3.73	9053	2427
gemma-3-27b-it	7.61	17404	2287
gemma-3-12b-it	4.22	8155	1932

CPU: Ryzen 8840U
SSD: SN5000S (6GB/s read)
GPU: 780M

Paris · 20. Dezember 2025

Rickmer schrieb:
Beim ComfyUI Test ist auf jeden Fall ein Fehler drin, weil es ist nicht möglich, dass die BX100 ein 6,5GB Modell in 4,x Sekunden lädt. Das würde die Geschwindigkeit der SATA Schnittstelle überschreiten.

Das sehe ich mir, wenn ich Zeit habe gerne an, jetzt wo du es sagst erscheint mir das auch spanisch - möglicherweise ein Fehler in der Auswertungslogik.

Rickmer schrieb:
Eh... ich glaube du unterschätzt, was mit dem Editing im Forum möglich ist^^

Aber schaun wir mal rein.

Wie viel vom Bericht hattest eigentlich du geschrieben vs. wurde von AI geschrieben? Wer hat das Wort 'Schwuppdizität' eingebaut? Die Analyse Sektion scheint auf jeden Fall vollständig von KI zu stammen.

Der Bericht ist zu 99 % von Gemini 3 entworfen und formuliert worden. Dafür habe ich Gemini 3 Pro die Rohdaten aus den Einzeltests der SSDs zur Verfügung gestellt und sie dann zunächst angewiesen ein Konzept für einen Lesertest nach diesen Ergebnissen zu erstellen und dann jeweils einzeln angewiesen die einzelnen Sektionen auszuformulieren. Dazu kamen noch Prompts für zusätzliche Diagramme bzw. Anpassung von offensichtlichen Auswertungsfehlern. Da es ja zu den Primärzielen meines Tests gehörte zu zeigen, zu was KI Modelle derzeit fähig sind (Testkonzeption, Durchführung sowie Darstellung der Testergebnisse durch Ausformulierung eines Testberichts) habe habe ich manuell so wenig wie möglich an der Testmethodik (den Skripten sowie der Auswertungslogik) als auch am Testbericht selbst angepasst. Ausnahmen waren im Fall von Chat GPT 5.2 die Korrektur von offensichtlichen Methodik Fehlern (Chat GPT wollte anfangs per Environment Variable festlegen von welchen Speicherorten Ollama und ComfyUI die Modelle laden ) und im Fall von Gemini 3 die Korrektur mancher Formulierungen (manche der verwendeten Formulierungen können als angriffig aufgefasst werden) sowie die Anpassung mancher Diagramm Bezeichnungen bzw. Darstellungsweisen.

PrussianHeathen schrieb:
PrussianHeathen schrieb:

Deine LLM Modelle laden sehr langsam und sind weiter unter der PCIe 3.0 x4 Schnittstelle. Das macht die Analyse komplett falsch. Die Bandbreite ist egal für nvme SSDs.

Zum Vergrößern anklicken....

Auf meinem Testsystem waren die Ladezeiten über mehrere Testserien hinweg (die Testergebnisse zeigen Durchschnittswerte mehrerer Testläufe) konsistent wie im Bericht dargestellt. Da es sich hier um ein laufendes Produktivsystem handelt, welches für den Test nicht neu aufgesetzt werden konnte (das war aber auch nicht Ziel des Tests) kann ein Einfluss von anderen Softwarekomponenten nicht ausgeschlossen werden. Danke jedenfalls für deine Referenzwerte, diese stellen einen wertvollen Vergleich zu meinen Ergebnissen für die Community dar.

Ergänzung (20. Dezember 2025)

midwed schrieb:
Pack doch den Testbericht bitte in den Startbeitrag oder in einen neuen Beitrag hier im Thread.

Danke für die Anregung, wenn dies der Wunsch mehrerer Community Mitglieder ist werde ich es mir überlegen. Derzeit verzichte ich aus Zeitgründen darauf, da ich mich dafür erst im Detail mit dem Forumsystem befassen müsste, um eine ähnlich ansprechende Darstellung wie im PDF zu erreichen.

Suche

Leserartikel Samsung 9100 Pro im KI-Härtetest: Gen 5 vs. Gen 4 vs. SATA

Anhänge

Viper1982

Rear Admiral

SportMönch

Lieutenant

madmax2010

Fleet Admiral

Rickmer

Silent-Fanatiker Pro

madmax2010

Fleet Admiral

Rickmer

Silent-Fanatiker Pro

madmax2010

Fleet Admiral

Rickmer

Silent-Fanatiker Pro

madmax2010

Fleet Admiral

midwed

Vice Admiral

Rotznase6270

Lt. Junior Grade Pro

yxcvb

Captain

PrussianHeathen

Ensign

Paris

Newbie

Ähnliche Themen

Passend zum Thema

UFS 5.0 Musterchips für 10 GB/s im Smartphone stehen bereit

Extreme Pro & Portable V3 Sandisk beschleunigt seine tragbaren SSDs teils deutlich

Spatium M571 DLP SSD MSI setzt auf Phisons schnellsten Controller