Interpretation SMART Samsung 850 Pro 512GB

Silencium · 11. März 2020

Hallo zusammen,

ich habe aktuell das Problem, dass ich eine virtuelle Maschine (VM) aus meinem ESXi nicht gebackuped bekomme.
Nach stundenlanger Suche in den Logs orientiere ich mich langsam in Richtung der SSD, auf der besagte VM liegt.
Ferner meine ich mich zu erinnern, dass es eine andere VM auf dieser SSD gibt, die vor geraumer Zeit mal Probleme mit der eigenen Platte (VMDK) gemeldet hat - will ich jetzt aber nicht beschwören!

SMART sagt jedenfalls Folgendes und ich weiß leider selbst nach Recherche nicht wie ich die markierten Werte zu interpretieren habe. Sind diese Werte bedrohlich hoch, sodass man handeln sollte?

Rechnungen wie auf dieser Seite bringen mich am Ende auch nicht weiter. Was ich mir hier erhoffe sind Erfahrungswerte von Leuten die im IT-Bereich arbeiten, am besten mit dickem Storage und die dadurch wissen wie man die Zahlen in dem Kontext zu interpretieren hat.

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 099 099 010 Pre-fail Always - 13
9 Power_On_Hours 0x0032 090 090 000 Old_age Always - 49095
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 295
177 Wear_Leveling_Count 0x0013 096 096 000 Pre-fail Always - 238
179 Used_Rsvd_Blk_Cnt_Tot 0x0013 099 099 010 Pre-fail Always - 13
181 Program_Fail_Cnt_Total 0x0032 100 100 010 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 100 100 010 Old_age Always - 0
183 Runtime_Bad_Block 0x0013 099 099 010 Pre-fail Always - 13
187 Uncorrectable_Error_Cnt 0x0032 099 099 000 Old_age Always - 802
190 Airflow_Temperature_Cel 0x0032 073 043 000 Old_age Always - 27
195 ECC_Error_Rate 0x001a 199 199 000 Old_age Always - 802
199 CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
235 POR_Recovery_Count 0x0012 099 099 000 Old_age Always - 81
241 Total_LBAs_Written 0x0032 099 099 000 Old_age Always - 57646466610

Die zweite 850 Pro sieht ähnlich aus.

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 099 099 010 Pre-fail Always - 1
9 Power_On_Hours 0x0032 090 090 000 Old_age Always - 46503
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 288
177 Wear_Leveling_Count 0x0013 090 090 000 Pre-fail Always - 560
179 Used_Rsvd_Blk_Cnt_Tot 0x0013 099 099 010 Pre-fail Always - 1
181 Program_Fail_Cnt_Total 0x0032 100 100 010 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 100 100 010 Old_age Always - 0
183 Runtime_Bad_Block 0x0013 099 099 010 Pre-fail Always - 1
187 Uncorrectable_Error_Cnt 0x0032 099 099 000 Old_age Always - 1
190 Airflow_Temperature_Cel 0x0032 072 042 000 Old_age Always - 28
195 ECC_Error_Rate 0x001a 199 199 000 Old_age Always - 1
199 CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
235 POR_Recovery_Count 0x0012 099 099 000 Old_age Always - 73
241 Total_LBAs_Written 0x0032 099 099 000 Old_age Always - 49085651815

Für eure Zeit und Hilfe danke ich im Voraus!

Gee858eeG · 11. März 2020

Die erste SSD hat ja schon einige unkorrigierbare Fehler (ID: 187) gehabt, das heißt Datenverlust. Die würde ich nicht mehr nutzen

up.whatever · 11. März 2020

Silencium schrieb:
am besten mit dickem Storage und die dadurch wissen wie man die Zahlen in dem Kontext zu interpretieren hat.

Bei dickem Storage ist das alles wegabstrahiert. Da steckst du keine enduser Produkte rein, sondern das was der Hersteller offiziell unterstützt und eine Platte ist genau dann defekt, wenn das System meldet, dass sie defekt ist.

Holt · 11. März 2020

Silencium schrieb:
177 Wear_Leveling_Count 0x0013 096 096 000 Pre-fail Always - 238

Bedeutet, dass die NANDs durchschnittlich 238 P/E Zyklen runter haben und damit noch 96% der spezifizierten P/E Zyklen übrig sind.

Silencium schrieb:
5 Reallocated_Sector_Ct 0x0033 099 099 010 Pre-fail Always - 13
...
179 Used_Rsvd_Blk_Cnt_Tot 0x0013 099 099 010 Pre-fail Always - 13

Es gibt bei SSDs keine Reallocated Sectors, sondern nur ausrangierte NAND Blöcke und dies waren hier 13, aber die können auch die Folge der 81 unerwarteten Spannungsabfälle sein:

Silencium schrieb:
235 POR_Recovery_Count 0x0012 099 099 000 Old_age Always - 81

Ebenso dürften die unkorrigierbaren Fehler die Folge der ausgefallenen NAND Blöcke sein. Daher würde ich nun nicht sagen, dass man diese SSD nicht mehr nutzen kann/sollte. Besser wäre es aber gewesen eine Enterprise SSD mit Full-Power-Loss Protection zu nehmen, die sind gegenüber unerwarteten Spannungsabfällen unempfindlich.

Silencium · 11. März 2020

@Gee858eeG Es gibt eben "nur" bei dieser VM einen Fehler bei der Erstellung des Backups bzw. auch wenn ich versuche auf dem Host selbst via Shell die "-flat.vmdk" zu kopieren. Da meckert er. Ansonsten ist mir "leider" noch nie etwas negatives aufgefallen.

@up.whatever Klar, ein Admin der "nur" Platten tauscht wenn das System sagt "kaputt", der wird mir an dieser Stelle kaum helfen können. Ich kenne die NetApp- und EMC-Systeme, aber Ahnung habe ich davon keine -leider.

@Holt Danke, mega informativ! Verdammte Axt, jetzt rächt es sich keinen RaidController mit kleinem PowerPack zu nutzen. Ja, die Server sind mir leider ein paar mal vom Strom geflogen (doofe Sicherung aus der alten Bude)
Ich dachte die 850 Pro wären schon Enterprise-Grade gewesen - haben vor 5 Jahren immerhin 500€/Stk. gekostet.

Holt · 11. März 2020

Silencium schrieb:
Ich dachte die 850 Pro wären schon Enterprise-Grade gewesen

Nein die Pro von Samsung sind Consumer SSDs, die Enterprise SSD aus der Zeit müsste die SM863 gewesen sein.

Gee858eeG · 13. März 2020

Der POR_Recovery_Count steigt bei mir mit jedem Standby Vorgang des PCs, deswegen fand ich den nicht so aussagekräftig. Aber würde natürlich Sinn machen

Holt · 13. März 2020

Gee858eeG schrieb:
Der POR_Recovery_Count steigt bei mir mit jedem Standby Vorgang des PCs

Das ist nicht gut, da würde ich mal schauen woran dies liegt, denn eigentlich sollte vor dem Standby den Platten der entsprechende Hinweis gegeben werden.

Suche

Interpretation SMART Samsung 850 Pro 512GB

Silencium

Lt. Commander Pro

Gee858eeG

Lt. Junior Grade

up.whatever

Commander

Holt

Banned

Silencium

Lt. Commander Pro

Holt

Banned

Gee858eeG

Lt. Junior Grade

Holt

Banned

Ähnliche Themen

Passend zum Thema

DRAM besser ausnutzen AMD kauft KI-Startup MEXT für sein Data-Center-Portfolio

Teure Beschaffung Biwin kauft für mehr als Jahresumsatz NAND-Chips ein

V10 3D-NAND SK Hynix erhöht auf 375 Layer und setzt auf Molybdän