K7Fan schrieb:
arum würde jemand überhaupt auf die Idee kommen bei einem NAS non-ECC Speicher einzusetzen?
Bei den Consumer NAS ist ECC RAM nicht üblich und wird selbst bei solche deren SoC dies unterstützt, dann nicht verbaut und ist auch nicht nachrüstbar. Daher kommen solche Fertig-NAS Kisten für mich auch niemals in Frage.
K7Fan schrieb:
Wo die 30k wohl herkamen?
Das wäre viel interessanter als die Anzahl. Die NetApp Studie kenne ich nicht, aber ohne Angaben zu der untersuchten Hardware, kann man darüber nur spekulieren. Wenn es einfache PCs ohne ECC RAM (und natürlich der passenden Plattform von Board und CPU die dies unterstützen, sonst hängen die zusätzlichen Bit der ECC RAM Riegel ja nur nutzlos in der Luft) wären mein Tipp das es dort die Ursache zu suchen ist. Aber jede Puffer auf dem Weg, auch der im Host Controller, kann zu Datenkorruption führen und die in Consumer Plattformen werden nicht so gut geschützt wie solche in Enterprise Hardware.
Die Mainframes sind das Sicherste was man bzgl. des Schutzes vor Silent Data Corruption bekommen kann, daher sterben die bei Banken und Versicherungen auch nicht aus, denn während ein Fehler in einem Parkautomaten dann zu einer absurd hohen Forderung führt die letztlich in den sozialen Medien und Zeitungen zum Schmunzeln führt, kann dies bei den Summen mit denen Banken und Versicherungen umgehen, zu deren Insolvenz führen. Die Frage zwischen dem Schutz den man möchte und dem Aufwand den man treiben möchte, muss jeder für sich beantworten, ebenso wie die Frage wie es seine digitalen Daten über Jahrzehnte aufbewahren möchte. Man sollte nur eben die Risiken der einzelnen Möglichkeiten kennen um eine vernünftige Entscheidung treffen zu können.
K7Fan schrieb:
andere Studien zu SDC, z.B. vom CERN
Bei der Cern Studie steht leider auch nur wenig über die jeweils verwendete Hardware, aber ich erinnere mich das dort ein FW Bug bei RAID Controllern / HBAs als eine Ursache der Silent Data Corruption identifiziert wurde. Sowas gab es ja auch bei
einigen Samsung F4EG und
eines Fertigungsloses der Plextor M6Pro. Da können Prüfsummen zumindest helfen die Fehler zu erkennen, ob sie diese in jedem auch korrigieren können?
Ein anderer Punkt ist die Software, wenn diese oder der Anwender z.B. beim Kopieren, Entpacken von Archiven etc. die von der Platte kommenden Lesefehler halt ignoriert und die Software nur teilweise kopierte / entpackte Datei einfach stehen lässt, hat man eben hinterher eine korrupte Version der Datei. Ich weiß ganz konkret das zumindest bei bestimmten Versionen der Kommandozeilenversion von 7Zip beim Entpacken von rar Archiven zwar einen Fehler anzeigen, die teilweise entpackten Dateien aber trotzdem stehen lässt, es ist also nicht nur eine theoretische Fehlerquelle.
Es gibt viele Ursachen für Datenverlust und -korruption, die Tatsache das mal ein paar Bits auf auf einer Platte kippen, führt aber nicht dazu, dafür ist eben mit einer ECC hinter jedem Sektor Vorsorge getroffen worden, denn dies passiert recht häufig und gegen alle zu häufig auftretenden Fehlerquellen ist selbst billige Consumerhardware abgesichert. So hat man damals bei der Einführung der Ultra-DMA Übertragung auch die CRC32 hinter jedem FIS eingeführt (das entsprechende S.M.A.R.T. Attribut für solche Fehler wird daher auch bei SATA Platten oft noch Ultra-DMA CRC Fehler genannt) und bei DDR4 hat man ebenfalls eine CRC für die Übertragung eingeführt, was zwar kein ECC RAM ersetzt da es keine in den Zellen gekippten Bits erkennt, aber immerhin Übertragungsfehler vermeidet.