Feldstudie: SLC-SSDs nicht zuverlässiger als MLC-Laufwerke

Michael Günsch
74 Kommentare
Feldstudie: SLC-SSDs nicht zuverlässiger als MLC-Laufwerke
Bild: Robert | CC BY 2.0

Auf der jüngsten Usenix Conference on File and Storage Technologies (FAST ’16) wurde eine Feldstudie zur Verlässlichkeit von SSDs veröffentlicht. Die herangezogenen Daten wurden mit SSDs ermittelt, die über Jahre in Rechenzentren von Google eingesetzt worden waren.

Die Studie von Bianca Schroeder von der University of Toronto sowie Raghav Lagisetty und Arif Merchant von Google wurde inzwischen publiziert. Laut dem Dokument (PDF) basiert die Studie auf sechs Jahren Datensammlung von SSDs, die in Googles Rechenzentren eingesetzt wurden. Die Zahl der Laufwerke sei „statistisch signifikant“ – wie viele SSDs konkret Berücksichtigung fanden, bleibt jedoch geheim.

Die Studie umfasse Daten von zehn verschiedenen SSD-Modellen mehrerer Hersteller, die sich teils bei der Art (MLC, eMLC, SLC) sowie der Strukturgröße (24 bis 50 nm) des Flash-Speichers unterscheiden. Ziel dieser Feldstudie sei es, bisherigen Studien auf Basis von Benchmarks mit synthetischen Workloads echte Erfahrungswerte aus dem praktischen Einsatz im Data Center gegenüberzustellen.

Untersucht wurden zum einen sogenannte transparente Fehler, die vom Anwender nicht direkt bemerkt werden, wie zum Beispiel durch ECC korrigierbare Fehler. Zum anderen wurde die Rate der schwerwiegenden Fehler (nicht transparent) mit spürbaren Auswirkungen wie Datenverlust und Aussetzern erfasst.

Korrigierbare Fehler sind die Regel, nicht korrigierbare das Problem

Wenig überraschend kam heraus, dass die korrigierbaren Fehler viel häufiger als nicht korrigierbare auftraten. Moderne SSDs besitzen diverse Maßnahmen zur Fehlerkorrektur, damit sich solche Fehler beheben lassen und keinerlei spürbare Auswirkungen auftreten. Laut der Studie hätten nahezu alle Laufwerke derartige Fehler produziert.

Je nach Modell sei bei 20 bis 63 Prozent der untersuchten SSDs zumindest ein nicht korrigierbarer Lesefehler (final read error) aufgetreten. Dies sei die häufigste Art der schwerwiegenderen Fehler. Mindestens ein finaler Schreibfehler sei hingegen nur bei 1,5 bis 2,5 Prozent der Laufwerke verzeichnet worden. Meist seien Schreibfehler korrigierbar, da nach einem Fehlschlag ein erneuter Versuch auf einem anderen Bereich des Flash-Speichers unternommen wird.

P/E-Zyklen und Betriebsdauer erhöhen Fehlerrate

Die Untersuchung der SSDs mit MLC-Speicher habe ergeben, dass die RBER (Raw Bit Error Rate) nach Erreichen der spezifizierten Grenze von 3.000 P/E-Zyklen (Program/Erase) oftmals gemächlich ansteigt. Zusätzliche Tests hätten ergeben, dass die RBER erst nach der dreifachen Menge an Schreib/Löschzyklen drastisch ansteigt. Dies sei ein Indiz dafür, dass Hersteller konservative Angaben zur Haltbarkeit des NAND-Flash machen. SSDs mit SLC-Speicher sind hier im Vorteil, da diese deutlich mehr P/E-Zyklen (in diesem Fall 100.000 Zyklen) erlauben und entsprechend besonders lange eine niedrige RBER halten können.

Steigerung der Fehlerrate (RBER) mit Zahl der P/E-Zyklen
Steigerung der Fehlerrate (RBER) mit Zahl der P/E-Zyklen (Bild: Usenix Association (PDF))

Weitere Analysen ergaben, dass nicht nur die Zahl der Schreibzyklen sondern auch das Alter respektive die Betriebsdauer der Laufwerke Einfluss auf die Fehlerrate nimmt. Eine Grafik zeigt, dass ältere Laufwerke (vier Jahre oder mehr) bei gleicher Zahl von P/E-Zyklen eine höhere RBER besaßen als die jüngeren Modelle (weniger als ein Jahr). Darüber hinaus habe sich erwartungsgemäß gezeigt, dass sich eine Verkleinerung der Strukturgrößen negativ auf die RBER auswirkt, aber nicht zwingend höhere Raten nicht behebbarer Fehler bedeutet.

Alter hat Einfluss auf Fehlerrate (RBER)
Alter hat Einfluss auf Fehlerrate (RBER) (Bild: Usenix Association (PDF))

SLC-Laufwerke nicht zuverlässiger als MLC-SSDs

Zusammenfassend bezeichnen die Forscher die oftmals als Maßstab für die Zuverlässigkeit herangezogene RBER als keinen guten Indikator. Eine hohe RBER führe nicht zwingend zu einem erhöhten Auftreten von nicht korrigierbaren Fehlern. Laut den Untersuchungen hätten sich die teureren SLC-Laufwerke auch nicht als verlässlicher als die günstigeren Modelle mit MLC-Speicher erwiesen, was sich an den Ausfallstatistiken ablesen lässt. Je nach Modellreihe wurden demnach im Laufe der vierjährigen Einsatzdauer etwa 4 bis 10 Prozent der SSDs ersetzt, was sowohl MLC- als auch SLC-Modelle betrifft.

Austauschraten nach SSD-Typ
Austauschraten nach SSD-Typ (Bild: Usenix Association (PDF))

SLC drives don’t have lower repair or replacement rates, and don’t typically have lower rates of non-transparent errors. [...] Based on our observations above, we conclude that SLC drives are not generally more reliable than MLC drives.

Ein Vergleich mit Hard Disk Drives (HDD)

Gegenüber HDDs würden die Ausfallraten der SSDs deutlich niedriger ausfallen. Frühere Berichte hätten HDDs eine Austauschrate von 2 bis 9 Prozent pro Jahr bescheinigt. Bei der von Google unterstützten SSD-Studie wurden in einem Zeitraum von vier Jahren 4 bis 10 Prozent der Laufwerke erneuert. Demnach müssten SSDs weniger häufig als HDDs ausgetauscht werden.

In puncto Fehlerraten seien SSDs aber im Nachteil. Innerhalb des Testzeitraums hätten über 20 Prozent der Flash-Laufwerke nicht korrigierbare Fehler aufgewiesen. Bei 30 bis 80 Prozent seien fehlerhafte Blöcke (bad blocks) und bei 2 bis 7 Prozent fehlerhafte Speicherchips (bad chips) aufgetreten. Bei HDDs seien wiederum laut Berichten nur 3,5 Prozent von fehlerhaften Sektoren betroffen, was zudem in Relation zur erheblich höheren Anzahl an Sektoren gegenüber Blöcken und Chips von SSDs zu betrachten sei. Demnach müssen SSDs zwar seltener als HDDs ausgetauscht werden, jedoch geht dies mit höheren Fehlerraten einher.

Nachtrag: Die Studie hat zu teils kontroversen Diskussionen geführt. Es bleibt festzuhalten, dass die Erkenntnisse lediglich für den Workload in Googles Rechenzentren mit vergleichsweise niedrigem Schreibaufkommen gelten. Die Studie sagt nichts über die generelle Haltbarkeit (endurance) von SLC- oder MLC-Speicher aus. Vielmehr zeigt sie, dass es für Google keine Vorteile bedeutet, SLC-SSDs zu nutzen. Bei sehr hohem täglichen Schreibvolumen würden SLC-SSDs sehr wahrscheinlich ihren Vorteil durch eine höhere Haltbarkeit ausspielen.