SMART Werte wieder gut

geohei

Ensign
Registriert
Apr. 2008
Beiträge
168
Hallo.

Letzte Woche passierte etwas Sonderbares.

Mein Hardware RAID5 Verbund (Areca ARC-1210) wurde langsam. Ein Blick auf das Web Interface zeigte Fehler bei "Timeout Count" und "Media Error Count" der HDD an Channel 4. Dort stand nicht mehr 0 wie bei den anderen 3 HDDs. Das Log bestätigte die Fehler mit dem Eintrag "Reading Error" für Channel 4.

Seitdem lief der Verbund aber wieder mit gewohnter Geschwindigkeit. Heute habe ich noch einmal nachgesehen und bei der gleichen HDD stehen jetzt 0 (Nullen) bei "Timeout Count" und "Media Error Count". Ich dachte immer daß SMART Fehler kumulativ seien und nicht verschwinden könnten.

Nur fiel mir auf, daß bei "SMART Seek Error Rate" der besagten HDD "200(0)" steht, während alle anderen Platten dort "100(0)" haben.

Kann mir das jemand erklären?

Gruß,
 
Zuletzt bearbeitet:
Ich hatte mal bei einer defekten festplatte mit defekten sektoren unter laufzeit 22000 stunden ploztlich 0 stunden stehen.
Die festplatte war trozdem defekt. Wie es dazu kommen könnte? Die festplatte war so defekt das sie die smart werte falsch ausgegeben hat.
Die hdd lief aber noch ein halbes jahr und hatte gelegentlich ein klicken klackern war zu höhren.
Wenn es sich nicht um die neu zugewiesenen sektorenhandelt dann stimmt was mit der hdd nicht. Ergo evt defekt
 
nur einige Werte sind kumulativ beim SMART, andere jedoch zeigen nur aktuelle werte und werden nach einiger Zeit wieder gelöscht. Zum Beispiel aktuell Schwebende Sektoren. Wenn die nur aufgrund einer Störung kurzzeitig schwer lesbar waren oder doch kaputt gegangen sind, geht deren wert wieder runter.

Timeout Count und Media Error Count kommt aber vom Raidcontroller und haben nichts mit den SMART Werten direkt zu tun

SMART Seek Error Rate hingegen kommt vom SMART, ist aber eher uninteressant, das da n anderer Wert steht, ist villeicht einer anderen Firmware der Platte etc geschuldet.

Zitat aus nen anderen Forum:

Die genaue Definition des S_E_R:
Zitat:
(Vendor specific raw value.) Rate of seek errors of the magnetic heads. If there is a partial failure in the mechanical positioning system, then seek errors will arise. Such a failure may be due to numerous factors, such as damage to a servo, or thermal widening of the hard disk. The raw value has different structure for different vendors and is often not meaningful as a decimal number.
S_E_R bedeutet dass der Kopf beim Leseversuch nichts oder falsche Daten ausgelesen hat, zB wenn seine Spur sich leicht verschoben hat oder Vibrationen das Lesen nicht moeglich gemacht haben.
Das muss nicht unbedingt ein Fehler bedeuten, viele Festplatten haben jahrelang staendig (und manchmal schnell) steigende S_E_R Werte.
Dies bedeutet NICHT dass die darunterliegenden Daten verloren sind, in aller Regel sind sie bei einem neuen Ausleseversuch erfolgreich. (Ansonsten gehen andere Fehlerwerte hoch)

Der beste Indikator fuer Fehler in der Struktur der Platte ist "Reallocated Sectors Count", definiert mit:
Zitat:
Count of reallocated sectors. When the hard drive finds a read/write/verification error, it marks that sector as "reallocated" and transfers data to a special reserved area (spare area). This process is also known as remapping, and reallocated sectors are called "remaps". The raw value normally represents a count of the bad sectors that have been found and remapped. Thus, the higher the attribute value, the more sectors the drive has had to reallocate. This allows a drive with bad sectors to continue operation; however, a drive which has had any reallocations at all is significantly more likely to fail in the near future.[2] While primarily used as a metric of the life expectancy of the drive, this number also affects performance. As the count of reallocated sectors increases, the read/write speed tends to become worse because the drive head is forced to seek to the reserved area whenever a remap is accessed. A workaround which will preserve drive speed at the expense of capacity is to create a disk partition over the region which contains remaps and instruct the operating system to not use that partition.
Die Anzahl an wirklich schief gelaufenen Lesevorgaenge ist durch "Soft Read Error Rate" und "Reported Uncorrectable Errors" auslesbar.

Festplatten sterben sehr oft ohne langfristige Ankuendigung durch hoehergehende Werte. Und wenn man dann die Daten kopieren will ist es schon zu spaet und sie stirbt oder schwaechselt sehr stark beim Transfer (oder schon vorher).
 
Was für Platten hast Du denn in dem RAID? Das klingt mir sehr danach, dass es welche mit einer zu hohen TLER sind, dann fliegen die schon mal auf dem Verbund, wenn aber der kritische Sektor dann doch noch gelesen werden konnte, findest Du nicht einmal einen schwebenden Sektor in den S.M.A.R.T. Werten.
 
Sebbi schrieb:
SMART Seek Error Rate hingegen kommt vom SMART, ist aber eher uninteressant, das da n anderer Wert steht, ist villeicht einer anderen Firmware der Platte etc geschuldet.
Eine zweite Platte hat die gleiche FW und dort steht 100 (statt bei Channel 4 200). Also kann es nicht an der Firmware liegen.

Holt schrieb:
Was für Platten hast Du denn in dem RAID? Das klingt mir sehr danach, dass es welche mit einer zu hohen TLER sind, dann fliegen die schon mal auf dem Verbund, wenn aber der kritische Sektor dann doch noch gelesen werden konnte, findest Du nicht einmal einen schwebenden Sektor in den S.M.A.R.T. Werten.
Es sind Raid Platten. An einem zu hohen TLER kann es also nicht liegen. Ausserdem ist ja keine Platte rausgeflogen! Die Geschwindigkeit war nur auf einmal extrem niedrig. Es könnte sogar sein, dass der Verbund für 5-10 Sekunden stand (gar kein Zugriff). Es aber jetzt nicht mehr nachvollziehbar.

Die Platten sind allesamt WDCs.
Channel 1 : WDC WD2003FYYS-02W0B1
Channel 2 : WDC WD2003FYYS-02W0B1
Channel 3 : WDC WD2002FYPS-01U1B1
Channel 4 : WDC WD2002FYPS-01U1B0

Hat jemand eine Vermutung wie es zu diesem sonderbaren Verhalten kommen konnte, was sich dann wieder wie von selbst erledigte?

Gruß,
 
Zuletzt bearbeitet:
geohei schrieb:
Es könnte sogar sein, dass der Verbund für 5-10 Sekunden stand (gar kein Zugriff). Es aber jetzt nicht mehr nachvollziehbar.
Das liegt dann schon an der TLER, nur war diese eben nicht so hoch, dass die Platte aus dem RAID geflogen ist, aber wenn das RAID nicht reagiert, hat sehr wahrscheinlich eine Platte ein Problem beim Lesen eines Sektors gehabt. Wieso nun die S.M.A.R.T. Werte so unterschiedlichen sind, kann man schwer sagen, vielleicht eine Änderung innerhalb der Produktion. Es gab auch bei Samsungs HDDs damals Änderungen (Bugfixes) in der FW und die Versionsnummer wurde trotzdem beibehalten. Die HDD Hersteller sind da wohl etwas schluderig und gerade auch wenn es um die S.M.A.R.T. Werte geht. Bei WD gibt es da einige Attribute die ab Werk einen "Schlechtesten Wert" haben der höher als der "Aktuelle Wert" ist. :D
 
Danke für die Antworten!
Sehen wir 'mal ob sich die Sache wiederholt ...
 
Zurück
Oben