[Sammelthread] HDD-Probleme, SMART-Analysen

Holt · 21. August 2016

Wenn man ein Backup seiner wichtigen Daten, kann man die Platte ruhig weiter nutzen, wenn nicht muss man immer die Sorge haben die Daten zu verlieren, denn nicht nur HW Ausfälle können zu Datenverlust führen. Rekalibrierungen können z.B. auch durch starke Erwärmung in kurzer Zeit nötig werden, was gerade bei USB Platten ja gerne mal passiert, die werden ja in den Gehäuse zuweilen recht warm und das auch recht schnell wenn man sie einschaltet und dann gleich nutzt. Oft sind 20°C Temperaturänderung pro Stunden spezifiziert, was aber nicht bedeutet das 19°C Temperaturänderung innerhalb von 5 Minuten noch immer Ok wären, sondern eben eher so maximal alle 3 Minuten ein Grad Temperaturänderung möglich nicht zu lange überschritten werden sollte. Wirklich kritisch ist das aber wohl auch eher für die Performance als für die Lebensdauer der Platte.

Übrigens hat der G-Sensor schon 5 mal im Betrieb zu harte Stöße gegen die Platte festgestellt, sein vorsichtiger mit ihr, die Dinger sind empfindlich!

BioxX1337 · 21. August 2016

Holt schrieb:
Poste doch bitte mal den Screenshot von CrystalDiskInfo für die Platte, ziehe aber bitte das Fenster soweit auf, dass alle Attribute und auch die Rohwerte vollständig sichtbar sind. Ein Backup der wichtigen Daten auf der Platte hast Du hoffentlich, wenn nicht dann versucht zu retten was sich noch lesen lässt und mache dann erst irgendwelche Test mit HD Tune, denn wenn die Platte einen Schaden hat, können solche Tests wie der Oberflächentest von HD Tune auch das letzte sein was eine HDD noch macht. Das Auslesen der S.M.A.R.T. Werte wie es CrystalDiskInfo macht, ist aber harmlos und kann daher auch vor dem Retten der Daten gemacht werden.

Das Bild ist im Spoiler drin, unter der Kategorie (Die Fehler). Ein Backup kann ich leider nicht machen, da ich keine andere Festplatte habe, die 3TB ist. Alle Daten sind noch komplett Lesbar (weitere Bilder über den Zustand wurden beigefügt).

Holt · 21. August 2016

Den Spoiler hatte ich übersehen. Schaffe Dir dringend eine ausreichend große HDD an um ein Backup anzulegen, solange wirklich noch alle Daten lesbar sind und am Besten gleich zwei, eine interne um die Toshiba zu ersetzen und eine externe USB Platte als Backup über die Daten, denn man riskiert ständig seine Daten zu verlieren von denen man kein Backup hat.

Die Toshiba hat zwar angeblich erst 0x1A = 26 wiederzugewiesene Sektoren vermerkt, aber immerhin 0x3184 = 12676 Wiederzuweisungsereignisse gehabt, wie auch immer das zusammenpassen mag. Der aktuelle Wert vom Attribut C4, also der Wiederzuweisungsereignisse ist nur noch 1 und das deutet an, dass keine weiteren Wiederzuweisungen mehr erfolgen können, weil der Controller der Platte keine neuen mehr verwalten kann, aber es gibt noch 0x88 = 136 schwebende Sektoren, also Sektoren deren Daten nicht mehr zur ECC dahinter passen. Da die korrekten Daten nicht mehr feststellbar sind, gibt die Platte statt falscher Daten einen Lesefehler als Antwort wenn man versucht diese zu lesen, weshalb es sehr viel Glück wären, wenn nun wirklich noch alle Dateien problemlos lesbar wären.

Das kann auch anderen Gründe als defekte Oberflächen haben, z.B. einen Stromausfall während eines Schreibvorgang der dazu führt, dass eben nicht die ganze Daten plus der neuen ECC geschrieben wurden oder wegen eines Stoßes oder Vibrationen ist der Kopf beim Schreiben aus der Spur gekommen und hat Daten auf der Nachbarspur überschrieben. Bei der hohen Anzahl und da es auch sehr viele Wiederzuweisungsereignisse gibt, ist ein Defekt aber sehr wahrscheinlich und die Ursache dieser schwebenden und wiederzugewiesenen Sektoren dürfte weitere schwebende Sektoren und wohl auch bald einen Totalausfall zur Folge haben.

Die Controller merken sich die schwebenden Sektoren und prüfen die Daten nach dem erneuten Schreiben auf diese Sektoren, dann verschwinden diese einfach oder werden eben durch Reservesektoren ersetzt, was hier schon 12676 mal erfolgt sein soll, obwohl es angeblich nur 26 wiederzugewiesene Sektoren gibt.

Apfelorange · 21. August 2016

Danke!

HW Ausfälle können zu Datenverlust führen. Rekalibrierungen können z.B. auch durch starke Erwärmung in kurzer Zeit nötig werden, was gerade bei USB Platten ja gerne mal passiert, die werden ja in den Gehäuse zuweilen recht warm und das auch recht schnell wenn man sie einschaltet und dann gleich nutzt. Oft sind 20°C Temperaturänderung pro Stunden spezifiziert, was aber nicht bedeutet das 19°C Temperaturänderung innerhalb von 5 Minuten noch immer Ok wären, sondern eben eher so maximal alle 3 Minuten ein Grad Temperaturänderung möglich nicht zu lange überschritten werden sollte. Wirklich kritisch ist das aber wohl auch eher für die Performance als für die Lebensdauer der Platte.

HW Ausfälle, weil - falls die Temperaturänderungen der Grund sind für die Rekalibrierungsanläufe - durch das ständige ausdehnen und zusammenziehen das Material irgendwann kaputt geht/bricht?
Schnelle Temperaturänderungen. Ich frage mich, ob es eine Rolle spielt, dass der Anschluss USB3 ist und auf der Platine am SATA-Anschluss "SATA-I" steht.
Das Schrieben von 4GB am Stück, sollte die Platte aber aushalten, oder kann das bereits zu einer zu schnellen Temperaturänderung führen? Vielleicht immer nach dem Einschalten und vor dem Ausschalten und zwischen den Schriebvorgängen etwas ruhen lassen?

Holt schrieb:
Übrigens hat der G-Sensor schon 5 mal im Betrieb zu harte Stöße gegen die Platte festgestellt, sein vorsichtiger mit ihr, die Dinger sind empfindlich!

Die Platte ist nicht von mir (ursprünglich), in meinem Besitz noch keine Änderung der G-Sense Werte. Lustigerweise habe ich festgestellt, das keine einziger meiner ca. 15 Festplatten G-sense Fehler hat. Seltsamerweise aber immer die, die ich von anderen Leuten bekomme. Ich hatte seltsamerweise noch Probleme mit meinen eigenen Platten (abgesehen von einer Crucial m4 SSD, die von ein aufs andere Mal nicht mehr lesbar war und auf Garantie getauscht werden konnte).

Holt · 21. August 2016

Apfelorange schrieb:
Danke!

HW Ausfälle können zu Datenverlust führen.

Zum Vergrößern anklicken....

Von "nicht nur HW Ausfälle können zu Datenverlust führen" nur den Teil oben zu zitieren, finde ich schon ein wenig sinnentstellend.

Apfelorange schrieb:
durch das ständige ausdehnen und zusammenziehen das Material irgendwann kaputt geht/bricht?

Das weiß ich nicht, glaube es aber eher weniger, es dürfte vor allem Probleme bei der Kopfpositionierung und daher die häufigere Notwendigkeit von Rekalibrierungen gehen. Die Trackdichte der Platte dürfte so etwa bei wie bei der M8.DVR bei 365kTpI (Kilo-Tracks per Inch), also 25,4mm / 365000 = 70nm, das Trägermaterial ist laut Product Manual Glas (es gibt auch welche mit Aluminium) und der maximale Radius der Platter dürft knapp 3cm betragen. Der Längenausdehnungskoeffizient von Glas (Quarzglas) ist 0,5 *10^-6/K, die äußere Spur dürfte also pro °C Wärmeunterschied ihren Abstand zur der Achse um 1,5nm verändert, bei den 70nm pro Spur klingt das nicht viel, aber die Daten selbst sind ja nur ein Teil der Spurbreite, zwischen den Spuren gibt es auch noch Markierungen und bei 20°C Temperaturunterschied wäre der Kopf überhaupt nicht mehr korrekt positioniert. Bei Aluminium mit einem Längenausdehnungskoeffizient 23,8 wären es 35,7nm pro °C, also sehr, sehr viel bei den heutigen Datendichten.

Apfelorange schrieb:
Ich frage mich, ob es eine Rolle spielt, dass der Anschluss USB3 ist und auf der Platine am SATA-Anschluss "SATA-I" steht.

Die ST640LM001 selbst hat ein SATA 3Gb/s Interface, der USB-SATA Bridgechip kann aber vermutlich nur SATA 1,5Gb/s, aber das sollte die Performance nicht einschränken und damit keinen Einfluss haben.

Apfelorange schrieb:
Das Schrieben von 4GB am Stück, sollte die Platte aber aushalten, oder kann das bereits zu einer zu schnellen Temperaturänderung führen?

Natürlich führt das zu Temperaturänderungen, die Köpfe arbeiten bei der ja auch schon im Teilkontaktbetrieb, anders wäre so eine Kapazität nicht machbar.

Apfelorange schrieb:
Vielleicht immer nach dem Einschalten und vor dem Ausschalten und zwischen den Schriebvorgängen etwas ruhen lassen?

Das kann nicht schaden, ja nachdem wie warm sie vorher ist und wie warm sie dann hinterher bei den Schreibvorgängen wird, Auch für die M8 sind ja 20°C pro Stunden als maximal Temperaturänderung angegeben.

Apfelorange schrieb:
abgesehen von einer Crucial m4 SSD, die von ein aufs andere Mal nicht mehr lesbar war und auf Garantie getauscht werden konnte

Sowas kann gerade bei einer SSD zwar immer passieren, aber könnte es der 5184 Stunden Bug der m4 gewesen sein?

Rios · 22. August 2016

Bzgl. Datenverlust frage ich mich wie man sich vor data corruption - vorallem während eines Backups - schützen kann.

Das Backup-Tool FreeFileSync wirbt auf der Website mit dem Feature: "Fail-safe file copy prevents data corruption". Ist das Standard bei Backup-Programmen oder ist das ein Alleinstellungsmerkmal von FreeFileSync? Und kann man darauf zählen?

Noch eine andere Frage zu dem Programm (aber nicht bzgl. Datenverlust). Als weiteres Feature wird "Detect moved and renamed files and folders" angegeben. D.h. Der Backupvorgang wird drastisch verkürzt, da nicht mehr gelöscht und dann kopiert wird, sondern einfach verschoben wird?

Quelle: http://www.freefilesync.org/faq.php#features

Holt · 22. August 2016

Keine Ahnung was FreeFileSync genau macht, aber es kopiert ja Dateiweise und damit hat man schon mal einen Vorteil gegenüber den Backups die eine große Imagedatei anlegen, denn wenn das schief geht, hat man im schlimmsten Fall gerade kein Backup, außer man hat eben zwei (oder mehr) Backups und überschreibt diese im Wechsel. Dann besteht noch die Möglichkeit, dass Tools die dateiweise sichern veränderte Dateien nicht im Backup überschreiben, sondern eine neue Datei anlegen und die alte erst danach löschen bzw. kann man meine ich bei FreeFileSync auch alle alten Versionen von veränderten und auch gelöschte Dateien auch im Backup behalten, die werden dann meine ich in einen extra Ordner verschoben, was sehr hilfreich sein gerade um versehentlich gelöschte Dateien zu erkennen und nicht auch im Backup zu verlieren, weil man den Fehler noch gar nicht bemerkt hat.

Mordi · 22. August 2016

Ich habe hier 2 HDDs, könnt ihr mir sagen wie es um die steht?

Toshiba DT01ACA300

WD Green

Cool Master · 23. August 2016

Die sind praktich wie neu.

Mordi · 23. August 2016

Um die WD Green mache ich mir schon Sorgen, denn ich habe sie seit 1.5 Jahren und betreibe in sie in Sachen der Betriebsstunden weit außerhalb der Spezifikationen.

Holt · 23. August 2016

Eine gewisse Zeit stehen die Platten das aber durch, die ST3000DM001 haben in den ersten 2 Jahren der sehr harten Nutzung bei Backblaze auch gut durchgehalten:

Beginning in January 2012, we deployed 4,829 Seagate 3.0 TB drives as shown below.

The Slide to Failure

We would expect the Seagate 3TB drives to follow the bathtub-shaped failure rate curve described in our study on hard drive life expectancy. Instead the Seagate drives failure model was quite different.

In annual terms, 2.7% or the drives failed in 2012, 5.4% failed in 2013 and 47.2% failed in 2014.

Dafür das die Platten doch auch noch mit sehr vielen HDDs zusammen in einem Gehäuse betrieben werden, waren die Ausfallraten einschl. Q3 2013 wirklich nicht sehr hoch und sind dann vor allem in 2014 gewaltig gestiegen, als die eben so etwa 2 Jahre rum hatten. In Betrieb genommen wurden sie ja vor allem in Q1, Q2 und Q3 von 2012 und damit haben alle wenigstens ein Jahr, als bis Q3 2013 gut durchgehalten und als dann der Anstieg der Ausfallraten erfolgte, waren schon einige bei knapp 2 Betriebsjahren und als in Q3 die Ausfälle die Spitze erreicht haben, waren alle etwa 2 Jahre in Betrieb, außer denen die später nachgekauft wurden. Interessant wäre halt eine Statistik wie alt eine Platte war als sie ausgefallen ist, dann könnte man sehen wie viele Stunden die so einen Betrieb ausgehalten haben, für den sie gar nie gemacht wurden.

Rios · 23. August 2016

Danke für die Erläuterung Holt! :-)

Jesterfox · 24. August 2016

Da ich aktuell mit meinem einen Windows 10 PC immer wieder mal das Problem hab das der Explorer kurz einfriert hab ich mal in der Ereignisanzeige gestöbert und folgendes gefunden (passt zeitlich auch zusammen):

Die SMART-Werte der Laufwerke sehen aber eigentlich ganz ok aus (Laufwerk 0 sollte C:\ sein):

Kann sich da jemand einen Reim drauf machen? Oder such ich an der falschen Stelle für die Probleme und die Laufwerke und die Warnungen sind gar nicht die Ursache?

Cool Master · 24. August 2016

Also die SSDs sehen gut aus. Die HDD hatte 2 Lesefehler und 1 UltraDMA Fehler. Bei der Laufzeit der HDD würde ich aber sagen vollkommen ok wenn die Werte nicht steigen.

Da du die HDD aber doch gut belastest würde ich mal überlegen ob nicht eine WD Red oder Seagate NAS Sinn ergibt. Rund 26k Stunden bei 800 Einschaltvorgängen ist nicht gerade ohne.

Bzgl. der WIn 10 Fehler kann auch der RAM schuld sein. Mein Tipp einfach mal die SATA Kabel tauschen und schauen ob das Problem noch auftritt. Es spricht eigentlich nichts für ein Problem mit den Kabeln aber das ist relativ schnell getan und kostet nichts bis sehr wenig.

Jesterfox · 24. August 2016

Die HDD stammt aus einem aufgelösten RAID5 Verbund der 24/7 lief, wird mittlerweile aber nur noch im Desktop benutzt. Ist mir durchaus klar dass die schon einiges mitgemacht hat ;-) die ist aber auch nur die "Müllhalde" im PC...

Kabel hatte ich vor etwa nem Jahr schon mal getauscht weil da wirklich was damit war, ist aber n ziemliches Gefummel in meinem Gehäuse... könnt ich aber trotzdem nochmal machen, muss nur schauen ob ich noch welche da hab.

Bei RAM würd ich jetzt eher Abstürze erwarten als solche Hänger... was ich eher noch in Verdacht hab ist das was mit dem Windows selber schief ist und ich einfach nur mal neu installieren sollte. Vor allem da es vermehrt seit dem 1607 Upgrade auftritt. Aber vorher wollt ich halt erst mal die Hardware durchecken nicht dass ich mir die Arbeit umsonst mach.

Holt · 24. August 2016

Warte doch erst ob sich der Rohwert vom Attribut C7 bei der ändert, wenn das Kabel mal getauscht wurde weil es ein Problem gab, dann kann der Ultra-DMA Fehler aus der Zeit davor stammen und damit das Problem schon längst gelöst sein. Ein erneuter Kabeltausch wäre dann nur unnötige Arbeit.

Jesterfox · 24. August 2016

Vor allem ist der eine UDMA-Fehler ja am Datenträger 2, in der Ereignisanzeige wird aber der Datenträger 0 (die 250er M4) angemeckert. Die Probleme hängen aber wohl tatsächlich zusammen. Hatte vorhin wieder einen Hänger und dazu den Eintrag im Log.

Holt · 24. August 2016

Es wird einmal \Device\RaidPort0 und einmal \Device\0000002e angezeigt, welche das nun genau sind, kann ich so auch nicht sagen. Vielleicht hilft ein Blick auf die Datenträgerverwaltung. Läuft der SATA Host Controller im RAID Modus?

Jesterfox · 24. August 2016

Eigentlich sollte der Controller auf AHCI stehen da ich kein RAID verwende... das ganze läuft auch mit dem MS AHCI Treiber da Intel mir keine Windows 10 Treiber für den H77 anbietet (werds aber gleich noch mal checken)

\Device\0000002e ist die kleine SSD die auch das Bootlaufwerk darstellt. Habs grad in der Datenträgerverwaltung geprüft.

Cool Master · 24. August 2016

In dem Fall würde ich sagen, dass es ein SW Problem von Win 10 oder einem Programm ist. Wie gesagt die SMART Werte der SSDs sehen praktisch wie am 1. Tag aus.

[Sammelthread] HDD-Probleme, SMART-Analysen

Banned

Cadet 3rd Year

Banned

Lieutenant

Banned

Lieutenant

Banned

Uwubernetes 1.30

Fleet Admiral

Uwubernetes 1.30

Banned

Lieutenant

Legende

Fleet Admiral

Legende

Banned

Legende

Banned

Legende

Fleet Admiral

Ähnliche Themen

Passend zum Thema