News Algolia vs. Samsung: Linux-Patch gegen TRIM-Bug mit Samsung-SSDs

Ein Fehler, der nicht unbedeutende Schäden verursacht hat. Sowohl bei Algolia als auch bei Samsung. Die Kosten finden sich monetär in der Bilanz als auch im Image von diesen und auch bei dem von Linux selbst. Darauf bleiben alle Beteiligten sitzen. Ein Happyend sieht anders aus.

Positiv kann man aber feststellen, dass die Beteiligten in "Zusammenarbeit" letztendlich das Problem gelöst haben.

Weder Algolia noch Samsung waren also schuld. Der Prozess der gegenseitigen Schuldzuweisung und der Widerlegung dieser führten zur Lösung. Alles wie im Märchen?

Bleibt am Ende die Frage der Schuld also offen?
 
Zuletzt bearbeitet von einem Moderator:
Peinlich, @VollgasPilot, sehr peinlich!

Aber ich muß zugeben, eine Sache selbst nicht zu kapieren: Wenn der Fehler weder in der Algolia-Software noch an der Samsung-SSD sondern im Linuxkernel zu finden war, sollten doch SSDs anderer Hersteller in derselben Konstellation ebenso betroffen sein. Warum ist das nicht der Fall?

EDIT: Das Mißverständnis liegt ja im Treiber... gibt es verschiedene Treiber für verschiedene SSDs?
 
Zuletzt bearbeitet:
MichaG schrieb:
Nichts gegen Fefe, aber da hat er, ohne sich mit dem Thema auseinanderzusetzen, einfach mal drauf losgeschrieben und das ging schön daneben ;)

Jepp. Das Problem der 840 EVO mit queued TRIM existiert zwar (übrigens gabs das Problem auch bei Crucial und ist bei der M500 nicht gefixt worden), aber der Patch stammt schon vom Mai und hat nichts mit dem Problem von Algolia zu tun. Es wurde zwar Anfangs vermutet das es Zusammenhänge gibt, aber das sieht nun aktuell nicht mehr so aus, da der Patch an ganz anderer Stelle erfolgte (ansonsten hätte Samsung ihre Enterprise SSDs auch noch mit in die Blacklist aufnehmen müssen, das ist aber nicht passiert)


@Wolfsrabe: würde mich auch interessieren weshalb das nur bei den Samsungs auftritt. Aber es ist durchaus möglich das ein Fehler nur mit bestimmter Hardware auftritt und diese Hardware trotzdem nicht Schuld ist weil ihr Verhalten zwar anders aber trotzdem innerhalb der Spezifikationen liegt. Bestes Beispiel sind da die Creative Soundkarte. Werden oft verteufelt wegen ihrer Probleme, aber meistens sind sie gar nicht selber Schuld ;-) (wie z.B. bei dem PCI-Bus Bug in den VIA Chipsätzen)
 
Zuletzt bearbeitet:
Soweit ich es in der Mailinglist gelesen habe, lag es sehr wohl an Samsung. Da diese sich nicht an die Spezifikationen gehalten haben! :schaf:

Dazu wurde von einem Samsung Mitarbeiter in der Mailingliste ein "unschöner" Bugfix gepostet dazu.

Es liegt wohl daran, dass die SSDs die TRIM + NCQ nicht richtig verarbeiten bzw. sich an die Vorgaben halten. Schätze bei fefe.de wird sicher auch noch eine News kommen.
 
abulafia schrieb:
... Keine Garantie für alles. LINUX...
Wenn ein vergleichbarer Fehler in Zuammenhang mit Windows oder OS X auftaucht, überweisen Microsoft und Apple Schadensersatzzahlungen? Glaubst du doch selbst nicht
 
Mir ist völlig egal wer Schuld war. Ich hab Seit 6 Jahren nur Crucial SSDs in Betrieb, musste noch nie irgend etwas patchen, alles läuft wie geschmiert unter Win sowie unter Linux. Samsung, die gefühlt in den letzten Jahren 78 Patches veröffentlicht haben für ihre Produkte kaufe ich mir höchstens wenns nix anderes mehr gibt.
 
MountWalker schrieb:
Wenn ein vergleichbarer Fehler in Zuammenhang mit Windows oder OS X auftaucht, überweisen Microsoft und Apple Schadensersatzzahlungen? Glaubst du doch selbst nicht

Schadensersatzansprüche entstehen nur aus einem bestehendem Vertragsverhältnis. Ausnahme ist die deliktische Haftung.
 
MountWalker schrieb:
Wenn ein vergleichbarer Fehler in Zuammenhang mit Windows oder OS X auftaucht, überweisen Microsoft und Apple Schadensersatzzahlungen? Glaubst du doch selbst nicht

Mit dem Qualitäts-Betriebssystem des Weltmarktführers kann einem nicht passieren! Das ist 101% Fehlerfrei und Perfekt! Es ist, wie Microsoft selbst, gottgleich und jede Nutzung alternativer Betriebssysteme ist eine Sünde, welche mit Prügel bestraft werden muss!

An die Nullchecker: Das war Sarkasmus!
 
Gegenbeispiel: Du kannst IT-Systeme für dich kaufen/entwickeln lassen, bei denen du auch Haftungsansprüche auf die fehlerfreie Funktion im Rahmen der gesetzten Anforderungen gegenüber dem Verkäufer/Hersteller hast.

Andererseits wirst du niemanden finden, der dir ein universelles, fehlerfreies OS verkauft. Die Anforderung ist zu unspezifisch und mit den realen Bedingungen der Softwareentwicklung unvereinbar.
 
Zuletzt bearbeitet von einem Moderator:
abulafia schrieb:
Gegenbeispiel: Du kannst IT-Systeme für dich kaufen/entwickeln lassen, bei denen du auch Haftungsansprüche auf die fehlerfreie Funktion im Rahmen der gesetzten Anforderungen gegenüber dem Verkäufer/Hersteller hast....
Und es ist gar nicht ausgeschlossen, dass auf einem solchen System dann Linux verwendet wird.

Nach dem Klicken als "Category" die "Operating System Fammily" auswählen und losbashen, was für eine unprofessionelle Betriebssystemfamilie das sein muss, die auf 488 der Top 500 Großrechner genutzt wird.
 
Zuletzt bearbeitet:
Genau. Die NASA auch. Die Installieren da einfach Ubuntu und dann läuft das schon. Und bei Problemen gibts ja die tolle Community.

Du bekommst, was du bezahlst.
 
Zuletzt bearbeitet von einem Moderator:
@Seth666: dann hattest du Glück, Crucial steht nämlich auch mit def der Queued Trim Blacklist, die hatten /und bei der M500 haben immer noch) diesen Bug. Ohne dem aktuellen kernel mit dieser Blacklist würdest du da auch in Probleme rennen wenn du nicht die aktuellste Firmware hast.
 
@seth666
Einbildung ist auch eine Form von Bildung.
wir haben micron (crucial) SSDs und die sind der letzte Dreck, frimware Bugs on mass. wenn man vollmundig behauptet OPAL zu unterstützen und dann kannst du es nicht verwenden weil das Teil so verbuggz ist das ein Datenverlust Auftritt ja tolle SSD (im übrigen haben wir bereit 5 Updates für diese SSD ausgerollt...) und die Samsung laufen tadellos;-)

mal abgesehen davon das diese SSD zu haufen ausfallen und zwar spontan ohne Anzeichen!
 
Zuletzt bearbeitet:
abulafia schrieb:
... Die Installieren da einfach Ubuntu und dann läuft das schon. ...
Niemand hat das hier behauptet. Nur du trollst los, und behauptest, es gäbe niemanden, der Systeme mit Linux professionell anbieten würde - und das ist nunmal blanker Bullshit, wie nicht nur von RedHat Inc.'s Jahresumsatz belegt wird.
 
Nein. Hab ich nicht.

Mein IT System "Philipps Fernseher" läuft übrigens auch mit Linux. Ständig Hänger und Abstürze. Die Probleme sind auch als Sachmangel einzustufen. Ansprüche hab ich aber nur gegenüber dem Händler. Dieser würde sich auf Unerfüllbarkeit berufen und vom Vertrag zurücktreten. Er ist Schadensersatzpflichtig.

Mir egal, ich werd da nichts machen und den irgendwann ersetzen. Die Probleme liegen eher in den Erweiterten Funktionen wie DLNA Streaming. Fernsehen geht.
 
Zuletzt bearbeitet von einem Moderator:
1.) Ja Samsung ist für den queued TRIM Bug verantwortlich. Das ist aber eine ganz andere Baustelle und hat mit dem Problem von Algolia absolut nichts zu tun. Das muss man separat betrachten.

2.) Ich vermute einfach, dass der Fehler bei Intel SSDs grundsätzlich auch vorhanden war, jedoch durch einen anderen zeitlichen Ablauf nicht zum Tragen gekommen ist. Oder die Intel SSDs unterstützen ein Feature mehr oder weniger und wurden anders betrieben. Vielleicht war bei den Intel SSDs auch einfach ein anderer RAID Controller verbaut. Da es sich um ein Problem handelt, das anscheinend nur bei einem gewissen Zugriffsmuster auftritt (sonst wäre es schon viel früher von mehreren Leuten entdeckt worden), kann die kleinste Veränderung hier viel bewirken.

3.) Grundsätzlich ist ein Hersteller nur für direkte Sachschäden haftbar z.B. wenn das Ding auf Grund von minderwertigen Materialen zu brennen anfängt und die Halle abbrennt. Für Dinge wie Produktionsausfall oder Datenverlust ist der Anwender selbst verantwortlich, um hier geeignete Vorkehrungen zu treffen. Etwas Anderes ist, wenn eine gewisse Verfügbarkeit garantiert wird mit entsprechenden Strafzahlungen. Das wird aber kaum zwischen Samsung und dem Endkunden ausgemacht, sondern in der Regel vom EDV Dienstleister.
Trotzdem steht hier natürlich der gute Ruf von Samsung auf dem Spiel und würde einen extremen Imageschaden nehmen, selbst wenn sie nicht daran Schuld sind. Selbst jetzt haben sie einen extremen Imageschaden, da viele nur die erste News lesen. Es liegt auch im Interesse, dass der Fehler behoben wird, bevor noch Leute auf die Idee kommen, gleich bei ihrem alten bewährten Plattenverbunden zu bleiben und das Thema SSD überhaupt bleiben zu lassen.
 
Ich hab mir grad mal die Kommentare zu dem Patch durchgelesen. Scheint ein allgemeiner Bug in Form eines "use after free" zu sein. Theoretisch müsste es bei allen SSDs im RAID durchschlagen. Entweder trimmen die Intels nicht oder irgend eine Timing-Geschichte führt dazu das es zu keinem Problem kommt.
 
Benji18 schrieb:
wir haben micron (crucial) SSDs und die sind der letzte Dreck, frimware Bugs on mass. wenn man vollmundig behauptet OPAL zu unterstützen und dann kannst du es nicht verwenden weil das Teil so verbuggz ist das ein Datenverlust Auftritt ja tolle SSD (im übrigen haben wir bereit 5 Updates für diese SSD ausgerollt...)
Da kann eigentlich nur die m500 sein, bei der gab es wirklich noch relativ viele FW Updates und der Queued Trim Bug wurde dort nie behoben.
Benji18 schrieb:
mal abgesehen davon das diese SSD zu haufen ausfallen und zwar spontan ohne Anzeichen!
Das ist bei SSDs typisch, die fallen meist ohne Vorankündigung aus, außer das NAND ist wirklich am Ende und dat kaputt, dann gibt es auch schon mal Fehlermeldungen die auf einen Ausfall hindeuten könnten, aber die NAND Hersteler wie Crucial, Micron und Samsung verbauen durchweg gute Qualitäten und die vertragen so viele P/E Zyklen, da dauert es bis man da ankommt und Heimanwender werden das wohl niemals erleben, da fällt vorher wohl was anderes aus wie eben der Controller (z.B. durch eine kalte Lötstelle) und das dann eben spontan.

andr_gin schrieb:
1.) Ja Samsung ist für den queued TRIM Bug verantwortlich. Das ist aber eine ganz andere Baustelle und hat mit dem Problem von Algolia absolut nichts zu tun. Das muss man separat betrachten.
Wie kann man nach der Niew und meinem Blick auf den Kernel Fix noch so einen Blödsinn behaupten?
Die Antwort des Kernelentwicklers ist doch auch klar und streitet den Bug auch nicht ab:
Es stand auch schon eindeutig im Blog:
andr_gin schrieb:
2.) Ich vermute einfach, dass der Fehler bei Intel SSDs grundsätzlich auch vorhanden war, jedoch durch einen anderen zeitlichen Ablauf nicht zum Tragen gekommen ist. Oder die Intel SSDs unterstützen ein Feature mehr oder weniger und wurden anders betrieben.
Der Fehler ist ja im Linux, nicht in der SSD, da wird im Kernel ein Pointer überschrieben, bzw. wohl die Daten auf die er zeigt und im Ergebnis werden die falschen LBAs getrimmt, da kann die SSDs im Prinzp nichts dafür, außer das natürlich die Rotinen entsprechend der gemeldeten Features der SSDs funktionieren und da gibt es interessante Unterschiede.

So sind die Intel DC S3500, DC S3600 und DC S3700 z.B. nur SATA 3.0 und aber nicht mit der SATA 3.1 Revision konform, aber die haben laut Datenblatt 0x101F im Word 222 der Identify Device Data und die unteren Bit bedeuten:
6: Supports SATA Rev 3.1
5: Supports SATA Rev 3.0
4: Supports SATA Rev 2.6
3: Supports SATA Rev 2.5
2: Supports SATA II: Extensions
1: Supports SATA 1.0a
0: Supports ATA8-APT ATA8-AST

Intel setzt nur die Bits 0,1,2,3 und 4, nicht einmal Bit 5 welches den Support der SATA 3.0 Norm kennzeichnet, die werden als von Linux nicht wie SATA 3.0 SSDs mit den Features der 3.0er Revision behandelt, auch wenn die physikalisch natürlich diese Geschwindigkeit haben und erreichen. Also warum hat Intel das macht?

Die Datenblatter sagen klar "- SATA Revision 3.0; compatible with SATA 6Gb/s, 3Gb/s and 1.5Gb/s interface rates", wieso geben die Controller aber das Bit 5 beim Wird 222 mit dem sie das auch dem OS mitteilen dann nicht als 1 aus? Das ist bei den Nachfolgern wie z.B. der DC S3710 nicht anders. Warum gibt die SSDs sich selbst nicht als SATA 3.0 konform zu erkennen?

Dann hat bei denen Intel das Word 105 "Maximum number of 512-byte blocks of LBA Range Entries per DATA SET MANAGEMENT command" nur den Wert 4, bei Microns M500 dagegen den Wert 8.

Leider gibt es bei Samsung keinen so guten Zugang zu den Datenblättern, aber ich haben eines für die SM843T und demnach sind da die dentify Device Data Word 222: 0x107F, also auch bis 5 und 6 gesetzt für Supports SATA Rev 3.0 und Supports SATA Rev 3.1 und Word 105 ist 8. Der Bug wird durch das Überschreiben eines Pointers bzw. des Inhalts auf den er zeigt ausgelöst, wieso lässt Intel nur 4 blocks of LBA Range Entries pro Befehl zu? Damit sind mehr Befehle nötig, für die Performance ist das eigentlich schlechter, aber Intel kennt mdraids gut, die haben da sogar die Unterstützung für die Verwaltungsdaten ihrer Chipsatz-RAID eingebaut:

Wenn jetzt Intel den Bug kannte und statt ihn zu beheben die Werte der Identify Device Data seiner SSD so gewählt hat, dass er bei ihren SSDs nicht ausgelöst wird? Dann wäre die Probleme und vor allem der Algoila Blog genau die Werbung die Intel braucht um seine Marktführerschaft im lukrativen Enterprise SSD Segment gegenüber dem Verfolger Samsung mit seinen 3D NANDs zu behaupten, denn Broken SSDs: Samsung Working SSDs: Intel, mehr kann sich deren Werbung doch nicht wünschen. Wenn es darum geht die eigene Marktstellung zu behaupten und zu stärken, ist für Intel auch noch nie ein Trick zu schmutzig gewesen, frag mal AMD. :evillol:

Und wenn es so ist, wer will Intel überhaupt jemals nachweisen können, den Bug vorher gekannt und mit seinen SSDs absichtlich gemieden statt ihn behoben zu haben? Und selbst wenn das gelänge, es ist ja nicht Intel Aufgabe einen Bug im Linux Kernel zu fixen der die eigenen SSDs überhaupt nicht betrifft und wenn sie daraus Profit ziehen indem sie wissen wie ihre SSDs den Bug umgehen, dann wären sie ja auch irgendwie dumm den Bug zu fixen, oder? Die andere Angaben in Identify Device Data können ja auch andere Gründe haben, da hat man eben einfach das Bit 5 in Word 222 vergessen und der Controlller kann eben nur 4 blocks of LBA Range Entries pro Befehl verarbeiten und nicht 8, wie die von Micron und Samsung. Eine böse Absicht wird man doch niemals nachweisen können, außer es taucht eine interne Kommunikation von den Linux an die SSD Leute bei Intel auf, die genau darauf hinweist das die SSDs solche Angaben machen müssen um nicht vom Bug betroffen zu sein.
andr_gin schrieb:
Vielleicht war bei den Intel SSDs auch einfach ein anderer RAID Controller verbaut.
Es gibt um ein SW RAID, die SSDs haben keine RAID Controller verbaut, ein wenig Ahnung vom Thema zu haben würde helfen weniger Unsinn zu schreiben!

andr_gin schrieb:
Etwas Anderes ist, wenn eine gewisse Verfügbarkeit garantiert wird mit entsprechenden Strafzahlungen.
Dann sind aber auch die Umgebungs- und Nutzungsbedingungen genau einzuhalten, sonst gelte. auch die ganze Angaben zu den Ausfallraten nicht.
andr_gin schrieb:
Trotzdem steht hier natürlich der gute Ruf von Samsung auf dem Spiel und würde einen extremen Imageschaden nehmen, selbst wenn sie nicht daran Schuld sind.
Was muss eingentlich passieren damit auch Du es begreifst: Samsung ist nicht dafür verantwortlich, das ist ein Bug im Linux Kernel beim Zusammenspiel von md-raid und Trim, da muss man schauen wer das implementiert hat, der ist verantwortlich!

Natürlich hat Samsung da in den Linux reindebuggt um einen Imageschaden abzuwenden, die waren sich ja offenbar auch sicher, dass es in der FW keinen Bug gab. Man stelle sich vor das wäre unter Windows oder Apple OS passiert die nicht quelloffen sind und wo Samsung eben nicht mal eben selbst debuggen kann.
andr_gin schrieb:
Selbst jetzt haben sie einen extremen Imageschaden, da viele nur die erste News lesen.
Eben und wie viele von denen lesen jetzt nicht oder begreifen nicht, dass Samsung gar keine Fehler in der FW ud das alles nur an dem Bug im Linux Kernel liegt? Du bist ja auch einer davon.
 
Zuletzt bearbeitet:
Zurück
Oben