Interpretation SMART Samsung 850 Pro 512GB

Silencium

Lt. Commander
Registriert
Feb. 2011
Beiträge
1.494
Hallo zusammen,

ich habe aktuell das Problem, dass ich eine virtuelle Maschine (VM) aus meinem ESXi nicht gebackuped bekomme.
Nach stundenlanger Suche in den Logs orientiere ich mich langsam in Richtung der SSD, auf der besagte VM liegt.
Ferner meine ich mich zu erinnern, dass es eine andere VM auf dieser SSD gibt, die vor geraumer Zeit mal Probleme mit der eigenen Platte (VMDK) gemeldet hat - will ich jetzt aber nicht beschwören!

SMART sagt jedenfalls Folgendes und ich weiß leider selbst nach Recherche nicht wie ich die markierten Werte zu interpretieren habe. Sind diese Werte bedrohlich hoch, sodass man handeln sollte?

Rechnungen wie auf dieser Seite bringen mich am Ende auch nicht weiter. Was ich mir hier erhoffe sind Erfahrungswerte von Leuten die im IT-Bereich arbeiten, am besten mit dickem Storage und die dadurch wissen wie man die Zahlen in dem Kontext zu interpretieren hat.


ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 099 099 010 Pre-fail Always - 13
9 Power_On_Hours 0x0032 090 090 000 Old_age Always - 49095
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 295
177 Wear_Leveling_Count 0x0013 096 096 000 Pre-fail Always - 238
179 Used_Rsvd_Blk_Cnt_Tot 0x0013 099 099 010 Pre-fail Always - 13
181 Program_Fail_Cnt_Total 0x0032 100 100 010 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 100 100 010 Old_age Always - 0
183 Runtime_Bad_Block 0x0013 099 099 010 Pre-fail Always - 13
187 Uncorrectable_Error_Cnt 0x0032 099 099 000 Old_age Always - 802
190 Airflow_Temperature_Cel 0x0032 073 043 000 Old_age Always - 27
195 ECC_Error_Rate 0x001a 199 199 000 Old_age Always - 802
199 CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
235 POR_Recovery_Count 0x0012 099 099 000 Old_age Always - 81
241 Total_LBAs_Written 0x0032 099 099 000 Old_age Always - 57646466610


Die zweite 850 Pro sieht ähnlich aus.

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 099 099 010 Pre-fail Always - 1
9 Power_On_Hours 0x0032 090 090 000 Old_age Always - 46503
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 288
177 Wear_Leveling_Count 0x0013 090 090 000 Pre-fail Always - 560
179 Used_Rsvd_Blk_Cnt_Tot 0x0013 099 099 010 Pre-fail Always - 1
181 Program_Fail_Cnt_Total 0x0032 100 100 010 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 100 100 010 Old_age Always - 0
183 Runtime_Bad_Block 0x0013 099 099 010 Pre-fail Always - 1
187 Uncorrectable_Error_Cnt 0x0032 099 099 000 Old_age Always - 1
190 Airflow_Temperature_Cel 0x0032 072 042 000 Old_age Always - 28
195 ECC_Error_Rate 0x001a 199 199 000 Old_age Always - 1
199 CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
235 POR_Recovery_Count 0x0012 099 099 000 Old_age Always - 73
241 Total_LBAs_Written 0x0032 099 099 000 Old_age Always - 49085651815


Für eure Zeit und Hilfe danke ich im Voraus!
 
Die erste SSD hat ja schon einige unkorrigierbare Fehler (ID: 187) gehabt, das heißt Datenverlust. Die würde ich nicht mehr nutzen
 
Silencium schrieb:
am besten mit dickem Storage und die dadurch wissen wie man die Zahlen in dem Kontext zu interpretieren hat.
Bei dickem Storage ist das alles wegabstrahiert. Da steckst du keine enduser Produkte rein, sondern das was der Hersteller offiziell unterstützt und eine Platte ist genau dann defekt, wenn das System meldet, dass sie defekt ist.
 
Silencium schrieb:
177 Wear_Leveling_Count 0x0013 096 096 000 Pre-fail Always - 238
Bedeutet, dass die NANDs durchschnittlich 238 P/E Zyklen runter haben und damit noch 96% der spezifizierten P/E Zyklen übrig sind.

Silencium schrieb:
5 Reallocated_Sector_Ct 0x0033 099 099 010 Pre-fail Always - 13
...
179 Used_Rsvd_Blk_Cnt_Tot 0x0013 099 099 010 Pre-fail Always - 13
Es gibt bei SSDs keine Reallocated Sectors, sondern nur ausrangierte NAND Blöcke und dies waren hier 13, aber die können auch die Folge der 81 unerwarteten Spannungsabfälle sein:
Silencium schrieb:
235 POR_Recovery_Count 0x0012 099 099 000 Old_age Always - 81
Ebenso dürften die unkorrigierbaren Fehler die Folge der ausgefallenen NAND Blöcke sein. Daher würde ich nun nicht sagen, dass man diese SSD nicht mehr nutzen kann/sollte. Besser wäre es aber gewesen eine Enterprise SSD mit Full-Power-Loss Protection zu nehmen, die sind gegenüber unerwarteten Spannungsabfällen unempfindlich.
 
  • Gefällt mir
Reaktionen: Gee858eeG
@Gee858eeG Es gibt eben "nur" bei dieser VM einen Fehler bei der Erstellung des Backups bzw. auch wenn ich versuche auf dem Host selbst via Shell die "-flat.vmdk" zu kopieren. Da meckert er. Ansonsten ist mir "leider" noch nie etwas negatives aufgefallen.

@up.whatever Klar, ein Admin der "nur" Platten tauscht wenn das System sagt "kaputt", der wird mir an dieser Stelle kaum helfen können. Ich kenne die NetApp- und EMC-Systeme, aber Ahnung habe ich davon keine -leider.

@Holt Danke, mega informativ! Verdammte Axt, jetzt rächt es sich keinen RaidController mit kleinem PowerPack zu nutzen. Ja, die Server sind mir leider ein paar mal vom Strom geflogen (doofe Sicherung aus der alten Bude)
Ich dachte die 850 Pro wären schon Enterprise-Grade gewesen - haben vor 5 Jahren immerhin 500€/Stk. gekostet.
 
Silencium schrieb:
Ich dachte die 850 Pro wären schon Enterprise-Grade gewesen
Nein die Pro von Samsung sind Consumer SSDs, die Enterprise SSD aus der Zeit müsste die SM863 gewesen sein.
 
Der POR_Recovery_Count steigt bei mir mit jedem Standby Vorgang des PCs, deswegen fand ich den nicht so aussagekräftig. Aber würde natürlich Sinn machen
 
Gee858eeG schrieb:
Der POR_Recovery_Count steigt bei mir mit jedem Standby Vorgang des PCs
Das ist nicht gut, da würde ich mal schauen woran dies liegt, denn eigentlich sollte vor dem Standby den Platten der entsprechende Hinweis gegeben werden.
 
  • Gefällt mir
Reaktionen: Gee858eeG
Zurück
Oben