TrueNAS Reallocated Sectors - keine Warnung?

Banned

Fleet Admiral
Registriert
Sep. 2014
Beiträge
10.907
Ich habe gerade von Core zu Scale bzw. CE das Upgrade gemacht. Habe dann im Anschluss mal in der Shell die Smart-Werte der Festplatten eingesehen und zu meinem Erstaunen festgestellt, dass eine 122 RS hat. Der Threshold liegt bei fünf. Es gab keine unkorrigierbaren Sektoren, also am Ende natürlich nicht wirklich kritisch (habe ohnehin ein RAIDZ2 und gerade Ersatz bestellt - sicher ist sicher; knapp 50% Aufpreis für das Modell zu früher schmerzen aber), aber ich bin doch sehr verwundert, dass ich keine Warnung über die GUI erhalten habe.

Naja, diese Erfahrung wollte ich nur mal teilen. Vielleicht kann ja auch jemand mehr dazu sagen, warum sich das so verhält.

So wie es aussieht, wurde auch schon länger kein Test mehr durchgeführt, dabei habe ich den Service ganz normal mit Default-Einstellung laufen lassen:

1767884402409.jpeg


Auch das finde ich merkwürdig. Die Platte hat nicht viel gelaufen, aber ist schon alt - somit verwundert der Fehler an sich jetzt nicht so.

Dass SMART jetzt in die Cron Jobs ausgelagert wurde, ist auch nicht so ein feiner Zug von den Entwicklern. Aber das nur am Rande.


PS: Bevor die Frage kommt: Ja, ich habe auch ein Backup. :D :freaky:
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: dideldei, Drahminedum und Nordwind2000
Dein Power Off Retract Count ist sehr hoch, genauso hoch wie die Einschaltvorgänge.
Die Platte wurde vor dem Abschalten also nie sauber per Power Down heruntergefahren.
Das könnte eine Ursache für die defekten Sektoren sein.
 
  • Gefällt mir
Reaktionen: Banned
Den normalen SMART Service gibt es seit Goldeneye (25.10) meines Wissens ja in seiner alten Form gar nicht mehr? Es wird jetzt aktiv auf Alternativen verwiesen (so doof das ist).

https://www.truenas.com/docs/scale/25.10/gettingstarted/versionnotes/

  • 25.10 removes the built-in SMART test scheduling and monitoring interface to improve user flexibility for disk monitoring.The smartmontools binaries remain installed and continue to be used internally by TrueNAS, ensuring that existing third-party scripts and monitoring tools continue to work unchanged.Users seeking advanced SMART monitoring can install the “Scrutiny” app from the TrueNAS catalog, which offers superior disk health tracking with historical data storage, customizable alerts, and automatic drive detection.TrueNAS maintains monitoring of critical disk health indicators and automatically migrates existing scheduled SMART tests to cron tasks during upgrade.

    See Disk Management for more information on disk health monitoring in 25.10 and beyond.

[Disk Management] In TrueNAS 25.10 and later:​

  • SMART test scheduling UI is removed
  • SMART monitoring is handled through dedicated applications or user-managed scripts
  • TrueNAS continues to automatically monitor critical disk health indicators
  • The smartmontools binaries remain installed and functional
  • Drive temperature monitoring uses the enhanced drivetemp kernel module, extended to include SCSI/SAS disk temperatures

Falls ich den Post jetzt nicht falsch verstanden habe. Ansonsten einfach ignorieren.

Ich habe bei mir Scrutiny laufen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Banned und IBISXI
EDV-Leiter schrieb:
Dein Power Off Retract Count ist sehr hoch, genauso hoch wie die Einschaltvorgänge.

Gut, die Einschaltvorgänge wundern mich nicht. Das NAS läuft wirklich nur bei Bedarf. Ich weiß, das ist nicht ideal. Aber wenn man alle zwei Wochen oder so mal drauf zugreifen will, ist es auch blöd, es durchlaufen zu lassen.


EDV-Leiter schrieb:
Die Platte wurde vor dem Abschalten also nie sauber per Power Down heruntergefahren.
Das könnte eine Ursache für die defekten Sektoren sein.

Die anderen im NAS im gleichen Alter haben auch einen so hohen Wert und keine Fehler. Die Platte ist halt etwa 10 Jahre. Auch der Power Off Retract Count der jüngeren Platten ist ihrem Alter entsprechend hoch. Vier meiner HDDs hängen direkt am Mainboard und zwei an nem PCIe-Adapter. Das Board ist von Supermicro. Ich werde gleich mal mit meinem Zweit-NAS vergleichen. Das Upgrade kommt jetzt dran. :)

Aber ja, das Board hat generell einen Bug, der dazu führt, dass selten statt einem Shutdown ein Reboot durchgeführt wird - wird dann auch als unscheduled reboot gewertet. Würde mich somit auch nicht wundern, wenn es auch an anderer Stelle Probleme gibt. Ganz toll auch, dass es irgendwann wohl heimlich eine Hardware-Revision gab, die das Problem behoben hat. Ist auch der Grund, warum mit meinem Board neuere BIOS-Updates nicht mehr funktionieren.... Dachte damals erst schon, ich hätte es gebrickt - lange Geschichte voller Recherche, Leid und überraschenden Wendungen. :freak:



SpartanerTom schrieb:
Den normalen SMART Service gibt es seit Goldeneye (25.10) meines Wissens ja in seiner alten Form gar nicht mehr? Es wird jetzt aktiv auf Alternativen verwiesen (so doof das ist).

Also hier wurde angegeben, dass sie nur unter Cron Jobs jetzt laufen bzw. sich einrichten lassen:
https://www.reddit.com/r/truenas/comments/1oiq1cv/removal_of_the_ability_to_schedule_new_smart/
 
Zuletzt bearbeitet:
Ja das ist richtig, aber ich glaube das GUI hat von sich aus keinerlei Interaktion mehr mit dem SMART Werten. Also auch keine Warnungen.

Ich kann aber falsch liegen.
 
  • Gefällt mir
Reaktionen: Banned und IBISXI
SpartanerTom schrieb:
Ja das ist richtig, aber ich glaube das GUI hat von sich aus keinerlei Interaktion mehr mit dem SMART Werten. Also auch keine Warnungen.

Das kann sein. Da ich aber heute erst das Upgrade durchgeführt habe, hätte es schon unter Core eigentlich ne Warnung geben müssen, denke ich.
 
  • Gefällt mir
Reaktionen: SpartanerTom
So, ich habe mal mit dem Backup-NAS verglichen. Und ja, hier zeigt sich ein anderes Bild. Es gibt zwar bei zwei Disks auch ein paar unsafe shutdowns, aber diese haben eine deutlichen Abstand zur Anzahl der Startvorgänge. Die dritte Disk hier hat auch relativ viele, aber diese wurde zuvor in einem externen Gehäuse von WD betrieben (war eine Elements).

Also gibt es wohl ein Problem durch das Board beim Shutdown, was in Anbetracht des beschriebenen Bugs dann irgendwie ins Gesamtbild passt. Danke auf jeden Fall @EDV-Leiter , der Wert war mir gar nicht aufgefallen. Werde wohl irgendwie umbauen, denn auf lange Sicht ist dieses Verhalten natürlich nicht günstig für die HDDs.
 
Nachdem ich mir überhaupt keinen Reim mehr auf die Unsafe Shutdowns machen konnte, habe ich etwas recherchiert.

https://www.truenas.com/community/threads/hdd-power-off-retract-count-going-up-regularly.45910/
https://www.hardwareluxx.de/community/threads/hdd-unsafe-shutdown-count.1118822/

Und scheinbar ist das nicht so ungewöhnlich. Im zweiten Thread meint der geschätzte Holt auch, dass das bei Hitachi/HGST nichts ungewöhnliches sei. Und meine ist eine HGST. Ich habe nur HGST (zwei Deskstar NAS, eine Ultrastar) und drei Toshiba N300, welche nach der Auflösung von HGST den Non-Enterprise-Teil übernommen haben, in dem NAS. Passt also irgendwie dann ins Bild.

In meinem zweiten NAS befinden sich drei WD White Label. Hier ist auffällig, dass bei einer HDD ein ähnliches Verhalten vorliegt, bei den anderen zwei nicht.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0
2 Throughput_Performance 0x0004 127 127 054 Old_age Offline - 112
3 Spin_Up_Time 0x0007 152 152 024 Pre-fail Always - 535 (Average 535)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 83
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0
7 Seek_Error_Rate 0x000a 100 100 067 Old_age Always - 0
8 Seek_Time_Performance 0x0004 128 128 020 Old_age Offline - 18
9 Power_On_Hours 0x0012 100 100 000 Old_age Always - 105
10 Spin_Retry_Count 0x0012 100 100 060 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 81
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 88
193 Load_Cycle_Count 0x0012 100 100 000 Old_age Always - 88
194 Temperature_Celsius 0x0002 203 203 000 Old_age Always - 32 (Min/Max 17/54)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0

------------------------------------------------------------------------------------------------------------

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 191 190 021 Pre-fail Always - 9416
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 62
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 79
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 62
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 9
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 1793
194 Temperature_Celsius 0x0022 126 117 000 Old_age Always - 26
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0

--------------------------------------------------------------------------------------------------------------

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 192 191 021 Pre-fail Always - 9400
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 75
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 101
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 75
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 9
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 1947
194 Temperature_Celsius 0x0022 125 111 000 Old_age Always - 27
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0

-----------------------------------------------------------------------------------------------------------------

Die zwei mit wenig vermeintlichen Unsafe Shutdowns parken dafür die Köpfe wie bekloppt. Das werden die zwei sein, die mit 5640rpm laufen (und wohl ne Firmware für ne Blue oder so draufhaben); wohingegen die andere mit 7200rpm läuft, aber per Firmware gedrosselt wird (hatte WD eine Zeit lang mal so praktiziert, bis die Sache aufgeflogen ist).

Ich gehe deshalb mittlerweile davon aus, dass dieser Wert stark von der entsprechenden Firmware beeinflusst wird.
 
Zuletzt bearbeitet:
Zurück
Oben