Samsung SM961 SSD : Abstürze durch fehlerhaftes Thermal Throttling

, 77 Kommentare
Samsung SM961 SSD: Abstürze durch fehlerhaftes Thermal Throttling

Eigentlich wollte ComputerBase in dieser Woche den Test der NVMe-SSD Samsung SM961 präsentieren, doch es kam anders. Während die SSD problemlos und mit hoher Geschwindigkeit die Standardtests absolviert hatte, stürzte das Testprogramm bei den Temperaturtests mit hoher Dauerlast ab. Die Ursache liegt in einem Firmware-Fehler.

Thermal Throttling als Grundausstattung

Wie alle schnellen M.2-Module wird auch die Samsung SM961 unter Dauerlast sehr warm. Um ein Überhitzen zu verhindern, setzen die Hersteller das sogenannte Thermal Throttling ein: Bei Erreichen oder Übertreten eines bestimmten Temperaturwerts sorgt die entsprechend programmierte Firmware dafür, dass die SSD ihre Leistung drosselt, um ein weiteres Aufheizen zu verhindern. Die temperaturbedingte Leistungsdrosselung wird dabei von SSD zu SSD und von Hersteller zu Hersteller anders umgesetzt, sollte aber in jedem Fall vorhanden sein und im Bedarfsfall funktionieren, um die Hardware vor dem Hitzetod zu bewahren. Beispielhaft ein Temperaturdiagramm vom Vorgänger SM951:

Samsung SM951 NVMe – Seq. Schreiben im offenen System
Samsung SM951 NVMe – Seq. Schreiben im offenen System

Beim Schreiben wird gedrosselt. Alles normal!

Wie bei den bisherigen Temperaturtests nutzte die Redaktion den Benchmark Iometer um einen fünfminütigen sequenziellen Dauertransfer zu erzeugen. Die Übertragungsrate sowie die Temperaturen (S.M.A.R.T.-Wert) wurden dabei im Sekundentakt aufgezeichnet, um eine etwaige temperaturbedingte Drosselung festzustellen.

Beim sequenziellen Schreiben konnte nach wenigen Minuten eine leichte Verringerung der Leistung festgestellt werden. Dass es sich um das Thermal Throttling handelt, bewies die Gegenprobe mit einem zugeschalteten Lüfter: Der Luftstrom sorgte für niedrigere Temperaturen und die Leistung blieb bis Testende konstant hoch. Soweit verlief alles normal und im Rahmen der Erwartungen.

Beim Lesen wird nicht gedrosselt! Gut ... oder nicht?

Im Anschluss wurde die gleiche Prozedur für das sequenzielle Lesen wiederholt. Die SM961 startete mit hohen 3.000 MB/s und hielt die Rate relativ konstant bis plötzlich nach etwa zweieinhalb Minuten die Anzeige auf 0 MB/s zurücksprang. Der Benchmark reagierte nicht mehr, das ganze System zeigte Aussetzer und musste letztlich mit einem Hard Reset über den Power-Schalter des Netzteils neugestartet werden.

Mehrere Versuche führten stets zu dem gleichen Ergebnis: Systemabsturz. Die Zeit bis zum Fehler variierte dabei leicht und ging stets mit dem Erreichen der maximal beobachteten Temperatur einher. Durch die deutlich höhere Leserate wird die SSD heißer als beim Schreiben, zudem wird die Leistung bis zum Absturz nicht reduziert.

Die Vermutung, dass die hohen Temperaturen die Ursache für den Absturz darstellen, wurde letztlich bestätigt. Mit einem direkt auf die SSD blasenden Lüfter verringerten sich die Temperaturen drastisch und der Test lief anstandslos mit konstant hoher Leistung bis zum Ende.

Thermal Throttling funktioniert beim Lesen nicht

Die Beobachtungen von ComputerBase führten zu dem Schluss, dass das Thermal Throttling beim sequenziellen Lesen nicht oder zumindest nicht richtig funktioniert und es daher ab einer gewissen Temperatur zu Fehlern kommt, was einen Systemabsturz zur Folge hat. Auf das Problem angesprochen, hat Samsung bestätigt, dass die Ursache in einem Problem mit der Firmware liegt. Das vorliegende Testmuster mit 512 GByte besitzt die Firmware-Version CXA7100Q. Diese Firmware lag auch Tom's Hardware beim Test der SM961 vor. Das Problem wurde jedoch nicht erkannt, da augenscheinlich keine Temperaturtests beim sequenziellen Lesen durchgeführt wurden.

Ein Nutzer des Forums von Overclock.net berichtet über die gleichen Probleme und liegt mit seiner Vermutung richtig.

Neue Firmware soll Problem beheben

Samsung hat ein Firmware-Update in Aussicht gestellt, das das besagte Problem beheben soll. ComputerBase wird die Tests mit der neuen Firmware wiederholen, sobald das Ersatzlaufwerk eingetroffen ist. Anders als bei den Endkunden-SSDs gibt es für Samsungs OEM-SSDs kein öffentliches Tool, um die Firmware selbst zu aktualisieren.

Samsung SM961 512 GB (MZVKW512)
Samsung SM961 512 GB (MZVKW512)

Vor diesem Hintergrund ist der Verkauf der OEM-SSD im Endkundenhandel problematisch. Tom's Hardware hatte die SM961 von einem Händler bezogen. Ein Foto zeigt, dass die gleiche, als nun fehlerhaft entpuppte Firmware CXA7100Q zum Einsatz kam. Daher ist davon auszugehen, dass sich SM961 mit 512 GByte und dieser Firmware im Umlauf befinden. Für Privatkunden besteht aber keine Möglichkeit, die Firmware zu aktualisieren. Als OEM-Produkt besteht ohnehin kein Anspruch auf Garantie oder Support vom Hersteller – dieses Risiko sollte jedem Nutzer vor dem Kauf bewusst sein. Bisher kann die Redaktion nur bestätigen, dass die Firmware-Version CXA7100Q betroffen ist, die beim 512-GByte-Modell (MZVKW512) Verwendung findet. Ob auch die anderen Varianten diesbezüglich Probleme aufweisen, ist nicht bekannt.

Fehler ja, aber in der Praxis kaum ein Problem

Allerdings muss die Schwere des Firmware-Fehlers relativiert werden, denn in der Praxis dürfte dieses Szenario selten bis gar nicht auftreten. Bis der Fehler im offenen Testsystem ohne aktive Belüftung auftrat, wurden am Stück rund 450 GByte Daten mit der Höchstgeschwindigkeit von rund 3.000 MB/s gelesen. Solche Datenmengen werden zum einen selten im Privatgebrauch zu bewältigen sein, zum anderen werden die Transferraten in der Praxis weitaus geringer ausfallen, denn um von der SM961 mit 3.000 MB/s zu lesen, muss das Ziellaufwerk die Daten genauso schnell schreiben können, was schon eine absolute High-End-SSD oder einen RAID-Verbund erfordert.

Herrscht im Desktop-Gehäuse ein ausreichender Luftstrom, kommt es vielleicht selbst bei dieser extremen Belastung gar nicht zu einem Temperaturproblem. Allerdings sind M.2-Module aufgrund der Kompaktheit vor allem auch für Notebooks vorgesehen. In einem engen und schlecht gekühlten Notebook-Chassis könnte das Problem durchaus noch früher und bereits bei geringerer Datenrate auftreten. Da das System nicht mehr reagiert, droht auch ein Datenverlust, wenn Arbeiten nicht mehr abgespeichert werden können.

Eine Empfehlung für Kaufinteressenten

Trotz des OEM-Status und den damit verbundenen Nachteilen ist die Samsung SM961 aufgrund der sehr hohen Leistung zu moderaten Preisen gerade für Enthusiasten eine Art Geheimtipp, wie es bereits der Vorgänger SM951 war. Vor dem Hintergrund der Firmware-Probleme empfiehlt die Redaktion beim 512-GB-Modell die Augen offen zu halten und in jedem Fall einen Händler zu wählen, der zur Not kulant genug ist, um die SSD gegebenenfalls zurückzunehmen oder gegen eine Version mit fehlerbereinigter Firmware zu tauschen. Die Firmware-Version ist direkt auf dem Aufkleber auf der SSD abzulesen und damit ohne Einbau schnell erkannt.

Volle Herstellergarantie, Support und Firmware-Updates per Tool gibt es nur bei Retail-SSDs. Hier gibt es diverse Alternativen, die zumindest ähnlich schnell agieren. Laut unbestätigten Meldungen bereitet Samsung auch eine Retail-Variante der SM961 vor, die als 960 Pro in die Fußstapfen der 950 Pro treten könnte. Allerdings ist ein deutlicher Aufpreis zur SM961 zu erwarten.

Update 08.09.2016 14:14 Uhr  Forum »

Die neue Firmware CXA7200Q behebt das Problem. Das Thermal Throttling funktioniert jetzt auch beim sequenziellen Lesen und verhindert den Absturz durch zu hohe Temperatur. Zugleich sorgt die neue Firmware für noch mehr Leistung. Weitere Details sind im Test der Samsung SM961 zu erfahren.