News Server-Ausfälle: Angeblicher TRIM-Bug bei Samsung-SSDs wird untersucht

MichaG

Redakteur
Teammitglied
Registriert
Juli 2010
Beiträge
12.907
Erneut machen Meldungen zu Problemen mit Samsung-SSDs die Runde. Konkret geht es um einen Bericht im Blog der Firma Algolia, in dem ein Datenverlust auf bestimmten Samsung-SSDs konstatiert wurde. Dass das Problem auf bereits bekannten Problemen mit Queued-TRIM unter Linux fußt, verneint Algolia. Weitere Untersuchungen folgen.

Zur News: Server-Ausfälle: Angeblicher TRIM-Bug bei Samsung-SSDs wird untersucht
 
Betrifft ja nicht nur Samsung SSD's.

Die einzigsten Probleme mit Samsung SSD's in Servern hatte ich bisher bei unseren Kunden nur bei Blitzeinschlägen :D
 
Wenn die SSD ein Feature präsentiert das sie nicht richtig unterstützt ist es schwer ein Fehler von Linux wenn es Probleme gibt.

Und wird der Fehler durch ein Firmwareupdate korrigiert wird einfach die Blacklist, von generell für diese SSD, auf die fehlerhaften Firmwares geändert.
(Wie bei den Crucials/Microns ersichtlich, die SSDs bei denen durch ein Firmwareupdate der Fehler behoben wurde, sind nur mit defekten Firmwareversion auf der Blacklist)
 
Zuletzt bearbeitet:
Ich denke scrarred bringt nur seinen Unmut über die letzten paar negativen Meldungen in Bezug auf Samsung-SSDs zum Ausruck.
Am Anfang der News dachte ich auch, dass es wieder um irgendeinen Defekt auf Samsungs Datenspeichern geht und war schon bereit mir die Hand vors Gesicht zu schlagen...aber es wurde ja klar gemacht dass es sich um einen Fehler auf Software-Seite handelt, der nur mit bestimmten Kernels und Befehlen auftritt, und welches Produkt ist denn nicht vor solchen Ausnahmefällen gefeit :)
 
Samsung in kritischen Serverbereichen, das passt irgendwie nicht, das ist halt doch eher ein "Consumer-Laden".
Privat gerne, aber da haben die Crucials ein besses P/L-Verhältnis -> wenn man nicht bis zum letzten Millisekunde die Leistung braucht.
 
1.) Wenn ein Feature offiziell unterstützt wird, so muss dieses auch funktionieren gerade bei etwas so Heiklem wie SSDs, wo es um wichtige Daten geht.

2.) Möglicherweise liegt das Problem gar nicht an den SSDs, sondern am RAID Controller und taucht bei gewissen SSD Modellen einfach nicht auf oder es werden gewisse Befehle nicht dem Standard entsprechend ausgeführt, was bei einigen SSDs zu Problemen führt, bei anderen nicht. Bevor hier genaue Details bekannt werden, würde ich die Schuld nicht unbedingt Samsung in die Schuhe schieben. Zuerst muss die Sache wirklich objektiv geklärt werden. Ist wirklich die SSD Schuld, so muss für die betroffenden Server SSDs sofort eine Rückrufaktion gestartet werden. Im Serverumfeld sind beschädigte Daten katastrophal vor allem, da einzelne fehlerhafte Daten vom RAID Controller nicht erkannt werden weder als defekte Platte noch als unlesbarer Sektor. Das bei einem System, wo man nicht ohne Weiteres das Backup vom Vortag einspielen kann das Ende eines ganzen Unternehmens bedeuten.
 
Jetzt in Panik zu verfallen ist noch zu früh, schließlich weiß noch nicht mal Samsung selbst wo der Fehler liegt. Algolia hat in ihrem Blog bisher nur feststellen können, dass es a) weder an einem Softwarefehler liegt noch das queued Trim daran Schuld ist und somit hat auch die erwähnte Blacklist nichts damit zu hat, sowie b) unabhängig von der verwendeten Kernelversion nur Samsung-Modelle betroffen sind. Alles andere ist momentan pure Spekulation.
 
Super Samsung. Tritt als Premium-SSD-Hersteller auf, bloß hat jedes ihrer Produkte schlimmere Fehler als bei jedem Billighersteller.
 
Zuletzt bearbeitet:
Das betrifft sowieso nur Linux und auch nur neuere Kernels ab 3.12. Bei Queued TRIM darf es natürlich nicht passieren, dass ein TRIM Befehl auf einen LBA dann hinter einem Schreibbefehl auf diesen LBA ausgeführt wird, der eigentlich nach dem TRIM kommen sollte. Nur ist ein TRIM auf einen LBA der sofort wieder beschrieben wird ja sowieso komplett unsinnig, denn wenn ein LBA überschrieben wird, weiß der SSD Controller ja auch sofort, dass die alten Daten die dort vorher standen nicht mehr gültig sind, dass muss man ihm nicht eine halbe Sekunden vorher mitteilen, die Mitteilung (also der TRM Befehl) macht nur Sinn, wenn der Controller danach auch genug Zeit hat um die dadurch als ungültig marktierten Daten eben bei der nächsten GC oder Idle-GC eben nicht mehr kopieren zu müssen.

Deshalb und weil bei Enterpriseanwendungen i.d.R. wenig gelöscht sondern meist überschrieben wird, spielt TRIM für Enterprise SSDs auch praktisch keine Rolle. Die Performance hällt man dort durch genug OP hoch, was gerade bei der Verwendung von Consumer SSD die ab Werk wenig OP bieten, sehr, sehr wichtig ist. Aber weil Consumer SSDs gewöhnlich auch weder einen Schutz der internen Datenpfade vor Datenkorruption noch (ausreichend dimensionierte) Stützkondensatoren haben, empfiehlt sich deren Einsatz in produktiven Serversystemen sowieso nicht, wenn die Datenintigität wichtig ist. Die dort problemlos laufenden Intel SSDs der DC S3000er Reihen unterstützen nur SATA in der Revision 3.0, Queued TRIM wurde mit der Revision 3.1 verabschiedet.
 
Auch wenn es für den Privatanwender wohl irrelevant ist, hat es halt schon einen gewissen Beigeschmack - gerade in Anbetracht des bezahlten Mehrpreises für die 8xx 'Pro'-Version - einen potentiell fehlerhaften Datenträger in Gebrauch zu haben.

Rein subjektiv gesehen bekräftigt mich das in meiner Einstellung, Produkte der Firma Samsung zu meiden. (Die 840er (Evo) Geschichte sei hier einfach am Rande noch einmal erwähnt) Crucial kümmert sich wenigstens nachhaltig um die Behebung von Problemen, anstatt Alibi-Lösungen aufzutischen oder sie gar unter den Tisch zu kehren (840 Basic).
 
Darum ist Crucial da auch auf der Liste, obwohl sie wissen dass ihre Firmware buggy ist und sie sich "nachhaltig" um die Behebung gekümmert haben?

Lies dir mal den Forum Thread im Crucial Forum durch.
 
Was hat der Mehrpreis der Pro mit dem Thema zu tuin? Der Bug, wenn es denn einer in der FW ist und keiner in Linux, kann auch in den biligeren Evos stecken, nur waren die wenigstens so schlau nur die Pros in einem Serverumfelld zu verwenden.
 
Werde ich machen. Mein Kenntnisstand nach Lesen der News war:

Die Liste umfasst auch diverse Modelle von Crucial, die zwischenzeitlich überwiegend mit einer neuen Firmware zur Behebung von Problemen mit TRIM und NCQ versehen wurden, letztlich aber weiterhin in der Linux-Blacklist geführt werden

Edit @Holt: Ich kenne eben viele Privatanwender, die den Aufpreis in erster Linie 'für's Gewissen' in Kauf nehmen, und dadurch gewissermaßen auch eine andere Erwartungshaltung an das Produkt in Hinblick auf die Zuverlässigkeit haben.

Edit 2: Und wo ist denn bitte auf einer offiziellen Samsung-Plattform etwas von dem Fehler zu lesen?
 
Zuletzt bearbeitet:
thrawnx schrieb:
Darum ist Crucial da auch auf der Liste, obwohl sie wissen dass ihre Firmware buggy ist und sie sich "nachhaltig" um die Behebung gekümmert haben?
Meines wissens gibt es nur für die m550 und die MX100 FW Updates die den Bug fixen, nämlich die MU02, aber nicht für die ältere m500. Wo bleibt also der Shitstrom und die News über den Skandal bei Crucial? Immerhin weiß Crucial von dem Bug schon länger und hat ihn bei neueren Serien gefixt!
 
Holt schrieb:
Meines wissens gibt es nur für die m550 und die MX100 FW Updates die den Bug fixen, nämlich die MU02, aber nicht für die ältere m500. Wo bleibt also der Shitstrom und die News über den Skandal bei Crucial? Immerhin weiß Crucial von dem Bug schon länger und hat ihn bei neueren Serien gefixt!

Eben! Die MU02-Firmware ist für die M50 schon seit Anfang des Jahres draußen.
In der Liste aufgeführt ist nur die Firmware MU01, wie ja auch im Text gequotet:
{ "Crucial_CT*M550*", "MU01", ATA_HORKAGE_NO_NCQ_TRIM | ATA_HORKAGE_ZERO_AFTER_TRIM, }
 
Zurück
Oben