Leserartikel Samsung 9100 Pro im KI-Härtetest: Gen 5 vs. Gen 4 vs. SATA

Vorwort zum Test: Ein Experiment auf zwei Ebenen

Mit diesem Lesertest verfolge ich zwei Hauptziele. Einerseits natürlich die Überprüfung der Samsung 9100 Pro und ihrer „SSD-Gefährten“ unter realistischen Umständen: Welche Auswirkungen hat eine aktuelle PCIe 5.0 SSD auf typische KI-Workloads, insbesondere auf die Ladezeiten? Andererseits – und das war für mich fast noch spannender – wollte ich herausfinden, wie gut KI-Modelle mittlerweile in der Bewältigung komplexer Planungsaufgaben geworden sind.

Da sich dieser Test zeitlich mit der Veröffentlichung von OpenAIs GPT-5.2 und Googles Gemini 3 überschnitt, nutzte ich den Anlass für ein Experiment: Ich ließ die KI die Planung und Durchführung dieses SSD-Tests übernehmen. Mit Ausnahme der manuellen CrystalDiskMark- und PCMark-Ergebnisse wurden alle hier gezeigten Tests und Skripte von GPT-5.2 erstellt. (Randnotiz: Versuche, den Test mit lokal gehosteten Modellen zu entwerfen, scheiterten leider – die Ansätze waren entweder untauglich, fehlerhaft oder führten zum Absturz des jeweiligen Modells.)

Das Vorgehen: Ich habe GPT-5.2 (Plus Version) mit meiner ComputerBase-Lestertest-Bewerbung gefüttert und um ein vollautomatisiertes Testkonzept gebeten. Das Ergebnis war eine Reihe von PowerShell- und Python-Skripten, die diverse Tests vollkommen automatisiert und somit zu 100 % reproduzierbar durchführten.

Bei der Auswertung und dem Verfassen des Testberichts stieß GPT-5.2 jedoch an seine Grenzen. Hier delegierte ich die Aufgabe an ein zweites Modell: Googles Gemini 3 Pro. Das Ergebnis, das wir gemeinsam erarbeitet haben, kann sich meines Erachtens absolut sehen lassen.

Ein Wort zum Aufwand: Wer nun glaubt, dass Entwurf und Durchführung mit ein bis zwei "Prompts" erledigt waren, den muss ich leider enttäuschen. Ich habe drei volle Tage (jeweils ca. 10 Stunden) mit Troubleshooting und Feintuning des von GPT-5.2 entworfenen Konzepts verbracht. Auch der Bericht selbst entstand nicht auf Knopfdruck; ich musste die Rohdaten mit Gemini punkteweise durchgehen, um ideale Ergebnisse zu erzielen. Meine Rolle reduzierte sich dabei oft auf gesunden Menschenverstand und eine Portion Skepsis – die technische Fehleranalyse und -behebung führten die KI-Modelle jedoch erstaunlich eigenständig durch, inklusive cleverer Rückfragen und der Anforderung von Logs oder Screenshots. Trotz der derzeit noch erforderlichen manuellen Eingriffe ist die Leistung der beiden KI-Modelle erstaunlich und eine echte Bereicherung im (Arbeits-)Alltag.

Den eigentlichen, detaillierten Testbericht habe ich als PDF-Datei angehängt, da dies deutlich lesefreundlicher ist als ein endloser Forum-Post.

Ich wünsche viel Spaß beim Lesen und hoffe, ihr findet die Hardware-Ergebnisse – und die Fähigkeiten aktueller KI-Modelle – genauso spannend wie ich.

„Die Samsung 9100 Pro 2TB wurde mir von Samsung für diesen Test zur Verfügung gestellt und ich darf sie im Anschluss behalten. Eine Einflussnahme auf den Testbericht oder eine Verpflichtung zur Veröffentlichung eines positiven Ergebnisses fand nicht statt.“

Versionshistorie:
19.12.2025: Publikation Version 1 des Lesertests
20.12.2025: Aufgrund des berechtigten Einwandes von @Rickmer (danke dafür) habe ich mir die Ergebnisse von Punkt 7 (Comfy UI) des Tests noch einmal angesehen und festgestellt, dass die Ergebnisse verfälscht waren (Das Löschen des Standby Caches funktionierte bei einigen Durchläufen aus nicht gänzlich klärbaren Gründen nicht zuverlässig). Eine aktualisierte Version des Berichts (Version 2) habe ich eingestellt (es hat sich gezeigt, dass es Abweichungen zwischen den Skript basiert ermittelten Werten und manuell ermittelten Pendants gibt). Ich werde in den kommenden Tagen auch die übrigen Ergebnisse noch einmal auf mögliche Abweichungen prüfen.
21.12.2025: Da ich auch in anderen Bereichen des Tests auf für mich nicht klärbare Ungereimtheiten bei den mittels Skript (KI-generiert) ermittelten Ergebnissen gestoßen bin, habe ich mich entschieden weite Teile des Tests durch manuelle Messungen zu ersetzen, die den Lesern nun einen plausiblen Eindruck von der SSD verschaffen sollten. Die neuen Ergebnisse finden sich in Version 3 meines Lesertests.
 

Anhänge

Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: TeeKayEV, coxon, Ark und 4 andere
Ich wünsche viel Spaß beim Lesen und hoffe, ihr findet die Hardware-Ergebnisse – und die Fähigkeiten aktueller KI-Modelle – genauso spannend wie ich.

NÖ!
 
Glückwunsch zum Goldbarren (SSD). Ne Quatsch. Danke für die viele Arbeit
 
  • Gefällt mir
Reaktionen: Paris
Hach ja. Wiedermal witzig. Bei Stable Diffusion ist die 11? 12? Jahre alte MLC BX100 einfach schneller als die 9100 Pro :D

Zu der von dir auf S11 genannten CPU Mauer habe ich gestern noch was zwischen tuer und Angel zusammengetippt:
madmax2010 schrieb:
Solche Marketing-Zahlen entstehen nur unter künstlichen Bedingungen (Queue Depth 32; bedeutet: Die CPU schickt 32 (oder mehr) Anfragen gleichzeitig an die SSD, noch bevor die erste Anfrage überhaupt bearbeitet wurde), bei denen bspw ein 9950x hunderte Datenpakete gleichzeitig abholen Kann.

Im echten Alltag arbeiten Windows und Spiele jedoch an sehr vielen stellen seriell (Queue Depth 1): Das System fordert eine Datei / ein Fragment / Dataframe mit ca 4kb, an und muss die Latenz Zeit warten, bis diese geliefert wird, bevor es überhaupt weiß, welche Datenfragmente als Nächstes benötigt werden. Da Software meist nicht „auf Vorrat“ bestellt, liegen über 90 % der theoretischen Leistung brach, weil die SSD fast nie parallel arbeiten darf. Darum gibt's so Dinge wie hyperthreading. Das ist vor allem IO Optimierung

Der Flaschenhals ist daher nicht Die Bandbreite, sondern die physikalische Reaktionszeit der ssd selbst. Da bei alltäglichen Aufgaben jede Anfrage einzeln abgewickelt wird, addieren sich die winzigen Wartezeiten der Speicherzellen auf, was die Geschwindigkeit einer 1 Millionen iops ssd auf ca 25.000 IOPS limitiert. Die CPU ist zwar extrem schnell darin, die Anfragen abzuschicken, verbringt aber den Großteil der Zeit damit, auf die Rückmeldung der SSD zu warten, weshalb die theoretischen Millionenwerte für einen Einzelnutzer unerreichbar bleiben.

Wenn der 16 Kerner dabei nur 4kb Dataframes snackt landest du Dann bei etwa 100mb/s die effektiv verarbeitet werden.
Kluges queueing, scheduling und so und man landet je nach Anwendung bei 500 bis 1000 mb/s, mit Tendenz zur 500.

Datenbankserver mit 3 stellig Kernen hingegen freuen sich über die Bandbreite und mehr iops

Bei der latenz ist die physische laenge der Lane relevanter, oder ob sie direkt zur CPU oder zum Chipset geht. Aber auch das sind wenige Nanosekunden. Signalgeschwindigkeit im Kupferfestkörper ist ca 200km/ms also schafft das Signal pro 1ns ca 20cm


Während moderne SATA-SSDs (SanDisk/BX100) hier noch gut
:D B100. Modern. da kamen bis zur MX500 noch so 20 Modelle zwischen :D
Aber macht auch da keinen Unterschied

Das mit der "Latenzexplosion" passiert mit NVMe SSDs wie Kingston NV1/2 und Crucial P1/2/3/310 ebenfalls



Die "Nadelstiche" (IOPS & Latenz)
Tell me gemini wrote something without telling me..
Diese Cringe Metaphern im Webinterface tun wirklich weh:D

Auf der Samsung 9100 Pro können Sie ein 100 GB Dataset entpacken und
gleichzeitig flüssig mit LLaMA 3 chatten, ohne dass die Token-Generierung einbricht. Das
ist echtes Multitasking ohne Kompromisse
Stimme nicht zu. wenn das Modell zur laufzeit von der SSD kommt, bricht die Token Rate in jedem Fall ein.
Das Modell wird in den (VRAM|RAM) geladen. Die SSD ist viel viel zu langsam um den Prozessor zu fuettern

Gen 5 lohnt sich vor allem dort, wo Masse bewegt
wird, nicht dort, wo nur viele kleine Anfragen gestellt werden.
Amen.

Sauberer Test und bessere Methodik als bei den sehr vielen Testseiten. Respekt.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Paris
Paris schrieb:
Das Ergebnis war eine Reihe von PowerShell- und Python-Skripten, die diverse Tests vollkommen automatisiert und somit zu 100 % reproduzierbar durchführten.
Wirklich?
Weil bei Stable Diffusion gibt's den 'seed' - kann man den auch bei GPT / Gemini mitgeben, um wirklich reproduzierbar jedesmal die identische Textausgabe zu erhalten?

Bzw. wenn ich mich richtig erinnere werden doch im Datacenter sowieso üblicherweise eine ganze Reihe an Prompts verschiedener gebündelt ausgeführt womit selbst alle Settings identisch nicht zu einem identischen Output führen kann...

Oder habe ich das falsch im Kopf?

[Nachtrag: Okay, die eigentlichen Tests wurden mit lokalen LLMs durchgeführt. Da ist das natürlich kein Thema.]

Paris schrieb:
Den eigentlichen, detaillierten Testbericht habe ich als PDF-Datei angehängt, da dies deutlich lesefreundlicher ist als ein endloser Forum-Post.
Eh... ich glaube du unterschätzt, was mit dem Editing im Forum möglich ist^^

Aber schaun wir mal rein.

Wie viel vom Bericht hattest eigentlich du geschrieben vs. wurde von AI geschrieben? Wer hat das Wort 'Schwuppdizität' eingebaut? Die Analyse Sektion scheint auf jeden Fall vollständig von KI zu stammen.

(Und bei dem Stichwort: schade, dass keine Optane SSD mit niedrigeren Transferraten aber extrem geringen Latenzen zur Verfügung stand als zustätzlicher Vergleichspunkt)


Beim ComfyUI Test ist auf jeden Fall ein Fehler drin, weil es ist nicht möglich, dass die BX100 ein 6,5GB Modell in 4,x Sekunden lädt. Das würde die Geschwindigkeit der SATA Schnittstelle überschreiten.

madmax2010 schrieb:
:D B100. Modern. da kamen bis zur MX500 noch so 20 Modelle zwischen :D
Auch mein Gedanke. Die BX Modelle waren noch nie das beste, was Micron / Crucial schaffen kann und dazu auch noch mittlerweile ~10 Jahre alt.

Ansonsten waren die Ergebnisse soweit ungefähr wie erwartet.

Meine ganzen AI Spielereien liegen auf einer nicht sonderlich schnellen Micron 9200 Eco und nichts von den Ergebnissen suggeriert, dass ich umbedingt eine schnellere SSD brauche.
 
  • Gefällt mir
Reaktionen: Spawn182 und madmax2010
Rickmer schrieb:
Weil bei Stable Diffusion gibt's den 'seed' - kann man den auch bei GPT / Gemini mitgeben, um wirklich reproduzierbar jedesmal die identische Textausgabe zu erhalten?
Gemini im AiStudio definitiv. via API geht es bei beiden

Rickmer schrieb:
Bzw. wenn ich mich richtig erinnere werden doch im Datacenter sowieso üblicherweise eine ganze Reihe an Prompts verschiedener gebündelt ausgeführt womit selbst alle Settings identisch nicht zu einem identischen Output führen kann...
korrekt

Rickmer schrieb:
(Und bei dem Stichwort: schade, dass keine Optane SSD mit niedrigeren Transferraten aber extrem geringen Latenzen zur Verfügung stand als zustätzlicher Vergleichspunkt)
das die nicht mehr gebaut werden macht mich sauer :)

Rickmer schrieb:
Meine ganzen AI Spielereien liegen auf einer nicht sonderlich schnellen Micron 9200 Eco und nichts von den Ergebnissen suggeriert, dass ich umbedingt eine schnellere SSD brauche.
Joa. 3GB/s und 750K IOPS muss man auch erst mal dicht bekommen :D
Ergänzung ()

Rickmer schrieb:
Wer hat das Wort 'Schwuppdizität' eingebaut? Die Analyse Sektion scheint auf jeden Fall vollständig von KI zu stammen.
https://www.computerbase.de/forum/t...es-2-nm-chips-bei-tsmc.2252057/#post-30917606
https://www.computerbase.de/forum/t...i-single-core-leistung.2252891/#post-30939566

gibs zu, du hast den mitgeschrieben
Wusste ich doch, dass ich das schon mal las
 
  • Gefällt mir
Reaktionen: Rickmer und massaker
madmax2010 schrieb:
3GB/s und 750K IOPS muss man auch erst mal dicht bekommen :D
Tatsächlich erreichen die Q1T1 sequential Werte nicht annähernd 3 GB/s...

Weißt du zufällig, wie LLMs geladen werden? Also alles sequentiell, oder ist das so programmiert, dass alle Layer der LLM gleichzeitig in eigener Queue geladen werden?

Zweiteres klingt für mich wie eine sehr plausible und nicht allzuschwer implementierbare Optimierung, aber wer weiß ob die üblichen Verdächtigen (llama.cpp) das können oder nicht.

madmax2010 schrieb:
gibs zu, du hast den mitgeschrieben
Wusste ich doch, dass ich das schon mal las
Ne, aber ich mag das Wort :volllol:
 
Rickmer schrieb:
Weißt du zufällig, wie LLMs geladen werden? Also alles sequentiell, oder ist das so programmiert, dass alle Layer der LLM gleichzeitig in eigener Queue geladen werden?
Etwas. llama.cpp nutzt mmap, weshalb es nicht unbedingt alles direkt im RAM vorhalten muss, was vom Modell bisher nicht aktiv gebraucht wurde. mmap halt..
ANsonsten erfolgt das lesen sequentiell.
Das queueing der layer bringt auch iirc nicht mega viel. ich such gerade mal..

Edit: funden..
https://developer.download.nvidia.com/CUDA/training/StreamsAndConcurrencyWebinar.pdf
Slide 15
Es gibt halt nur 2 CopyEngines und soweit ich das verstehe ist hier H2D die relevante beim Laden des Modells. Das ist an der Stelle der Faktor, der den Durchsatz limitert.



Ich würde da im Kontext von MoE noch einen Schritt weiter gehen.
RAM ist (ja, noch immer) Billiger als GPUs mit VRAM. man kann bspw. ein 70B Modell im RAM halten und nur die Experten jeweils in den VRAM laden.
Das hat zwar etwas mehr Latenz zum ersten token, würde aber danach deutlich mehr Performance bringen.
So partielles offloading ist in Arbeit, aber ich habe nicht verfolgt wie weit das ist und wie gut es geht
bspw: https://app.semanticdiff.com/gh/ggml-org/llama.cpp/pull/11397/overview

Wie weit das ist.. Keine ahnung, sag gern wenn du es angesehen hast und es schon tut.
Ergänzung ()

Rickmer schrieb:
Ne, aber ich mag das Wort :volllol:
es ist ein hervorragendes wort
 
madmax2010 schrieb:
Das hat zwar etwas mehr Latenz zum ersten token, würde aber danach deutlich mehr Performance bringen.
Mein Verständnis war, dass die Bestimmung der zu verwendenen Experts bei jedem Token aufs neue durchgeführt wird?

Bei einer Vielzahl von Token/s wäre das ein enormes Daten hin-und-her wenn man jeweils für den aktiven Token die Experts in den VRAM lädt.

Außerdem sind die Experts was am seltensten genutzt wird und daher würde ich das so sehen wie (wenn ich es richtig verstehen) in deinem Link diskutiert wird: Die allgemeinen Teile die für jeden Token benötigt werden in den VRAM und die Experts in den RAM.

(Oder es ist zu spät und ich kapier nichts mehr. Auch möglich.)
 
Rickmer schrieb:
Mein Verständnis war, dass die Bestimmung der zu verwendenen Experts bei jedem Token aufs neue durchgeführt wird?
bei aktuellen Modellen korrekt. Mit dem "einen schritt weiter gehen" meine ich vor allem: es kommen so langsam publikationen die nur ein subset 1-k < n pro prompt nutzen.

Bei Qwen3 30B A3B sind es ~4.7M Parameter pro experte, es gibt pro Layer 128 Experten wovon pro prompt aktiv gehalten werden. Das ganze auf 48 Layern sind ~1.8 Milliarden parameter nur fuer die pro Token aktiven experten in dem Modell.
Dazu Attention + Routing + Heads + Norm ... und man hat die 3 Milliarden aktiven pro Token zusammen
bevor wir jetzt um die zeit anfangen papser zu suchen, einer vom PrimIntellect hat da vor kurzem was zu geposted, was die nutzung der experten etwas auswertet:
https://twitter.com/kalomaze/status/1918238263330148487

Rickmer schrieb:
wäre das ein enormes Daten hin-und-her wenn man jeweils für den aktiven Token die Experts in den VRAM lädt.
Einerseits, ja.
Andererseits, muss jeder (aktive) parameter pro token ohnehin mindestens 1x vom Speicher zum Compute


Rickmer schrieb:
Die allgemeinen Teile die für jeden Token benötigt werden in den VRAM und die Experts in den RAM.
die allgemeinen Teile im RAM zu halten und das variabel genutzte zusammen direkt daneben zu haben ist denke ich schon sinnvoll.

Das ist definitiv, so wie es gerade ist, noch nicht wie ich mir das oben vorstelle, denke aber dass der Weg nur teile des Modells nach der Aktuellen prompt, oder Kontext aktiv zu halten etwas ist, was gerade bei selbst betriebenen LLMs was helfen kann

(Den Begriff experten sollte man definitiv abstrakt verstehen. Das sind i.d.r keine FFNs bei denen eins gut Bio und das andere Mathe kann)

Eben noch vergesen: mmap war mein gedanke, als ich das SD benchmark gesehen habe. Anders kann die Zahl kaum stimmen.
ich war bei llama.cpp auch schon ein paar mal etwas verwundert, als Token kamen, obwohl RAM und SSD nicht aussahen, als ob ein Modell der entsprechenden Größe geladen wurde
 
Kurzfassung: Je schneller (mehr Highend) das eingesetzte Equipment ist, desto schneller ist das Ganze. Schon erstaunlich, allerdings hätte ich - ohne mich jetzt allzu weit aus dem Fenster zu lehnen - das auch vorher sagen können.
 
Deine LLM Modelle laden sehr langsam und sind weiter unter der PCIe 3.0 x4 Schnittstelle. Das macht die Analyse komplett falsch. Die Bandbreite ist egal für nvme SSDs.

LLM Model:​
4.7​
GB​
time (s)​
MB/s​
Samsung 9100​
2.86​
1643.35664335664​
Crucial T705​
2.91​
1615.12027491409​
Samsung 990​
5.65​
831.858407079646​

Eine PCI 5.0 SSD kann wegen dem neueren controller schneller sein,
Deine Modelle sind auch sehr klein. 4.7GB sind unter einer Sekunde Arbeit für eine PCIe 4.0 SSD bei voller Auslastung.

---------------------------------------------------------

Hier sind meine Ergebnisse mit dem tool LM Speedometer:

LM Speedometer


Model​
Time (s)​
Size (MB)​
Speed (MB/s)​
qwen3-coder-30b​
8.21​
18632​
2269​
gemma-3n-e4b-it​
2.53​
4237​
1675​
openai/gpt-oss-20b​
5.92​
12110​
2046​
mistralai/devstral-small-2505​
7.36​
14334​
1948​
phi-4​
3.73​
9053​
2427​
gemma-3-27b-it​
7.61​
17404​
2287​
gemma-3-12b-it​
4.22​
8155​
1932​

CPU: Ryzen 8840U
SSD: SN5000S (6GB/s read)
GPU: 780M
 
  • Gefällt mir
Reaktionen: Paris
Rickmer schrieb:
Beim ComfyUI Test ist auf jeden Fall ein Fehler drin, weil es ist nicht möglich, dass die BX100 ein 6,5GB Modell in 4,x Sekunden lädt. Das würde die Geschwindigkeit der SATA Schnittstelle überschreiten.
Das sehe ich mir, wenn ich Zeit habe gerne an, jetzt wo du es sagst erscheint mir das auch spanisch - möglicherweise ein Fehler in der Auswertungslogik.
Rickmer schrieb:
Eh... ich glaube du unterschätzt, was mit dem Editing im Forum möglich ist^^

Aber schaun wir mal rein.

Wie viel vom Bericht hattest eigentlich du geschrieben vs. wurde von AI geschrieben? Wer hat das Wort 'Schwuppdizität' eingebaut? Die Analyse Sektion scheint auf jeden Fall vollständig von KI zu stammen.
Der Bericht ist zu 99 % von Gemini 3 entworfen und formuliert worden. Dafür habe ich Gemini 3 Pro die Rohdaten aus den Einzeltests der SSDs zur Verfügung gestellt und sie dann zunächst angewiesen ein Konzept für einen Lesertest nach diesen Ergebnissen zu erstellen und dann jeweils einzeln angewiesen die einzelnen Sektionen auszuformulieren. Dazu kamen noch Prompts für zusätzliche Diagramme bzw. Anpassung von offensichtlichen Auswertungsfehlern. Da es ja zu den Primärzielen meines Tests gehörte zu zeigen, zu was KI Modelle derzeit fähig sind (Testkonzeption, Durchführung sowie Darstellung der Testergebnisse durch Ausformulierung eines Testberichts) habe habe ich manuell so wenig wie möglich an der Testmethodik (den Skripten sowie der Auswertungslogik) als auch am Testbericht selbst angepasst. Ausnahmen waren im Fall von Chat GPT 5.2 die Korrektur von offensichtlichen Methodik Fehlern (Chat GPT wollte anfangs per Environment Variable festlegen von welchen Speicherorten Ollama und ComfyUI die Modelle laden ) und im Fall von Gemini 3 die Korrektur mancher Formulierungen (manche der verwendeten Formulierungen können als angriffig aufgefasst werden) sowie die Anpassung mancher Diagramm Bezeichnungen bzw. Darstellungsweisen.
PrussianHeathen schrieb:
Deine LLM Modelle laden sehr langsam und sind weiter unter der PCIe 3.0 x4 Schnittstelle. Das macht die Analyse komplett falsch. Die Bandbreite ist egal für nvme SSDs.
Auf meinem Testsystem waren die Ladezeiten über mehrere Testserien hinweg (die Testergebnisse zeigen Durchschnittswerte mehrerer Testläufe) konsistent wie im Bericht dargestellt. Da es sich hier um ein laufendes Produktivsystem handelt, welches für den Test nicht neu aufgesetzt werden konnte (das war aber auch nicht Ziel des Tests) kann ein Einfluss von anderen Softwarekomponenten nicht ausgeschlossen werden. Danke jedenfalls für deine Referenzwerte, diese stellen einen wertvollen Vergleich zu meinen Ergebnissen für die Community dar.
Ergänzung ()

midwed schrieb:
Pack doch den Testbericht bitte in den Startbeitrag oder in einen neuen Beitrag hier im Thread.
Danke für die Anregung, wenn dies der Wunsch mehrerer Community Mitglieder ist werde ich es mir überlegen. Derzeit verzichte ich aus Zeitgründen darauf, da ich mich dafür erst im Detail mit dem Forumsystem befassen müsste, um eine ähnlich ansprechende Darstellung wie im PDF zu erreichen.
 

Ähnliche Themen

Zurück
Oben