Festplatten defekt?

oTT

Cadet 4th Year
Registriert
Okt. 2005
Beiträge
84
Hi Leute,
ich bin absolut am Ende meines Lateins und hoffe ihr habt noch eine Idee was zu den gleich geschilderten Problemen führt bzw. geführt hat.

Zuerst einmal die aktuelle Hardware Übersicht:

CPU: Intel Core I5-6600K
Kühler: Scythe Mugen 4
MB: Asrock Z170 Extreme 7+ (FW 2.00)
RAM: 2x8GB GSkill 3000 CL15
Controller: LSI MegaRaid 9260-16i (neueste FW)
HDDs: 8x 6TB WD Red 6TB (Raid6), 8x 3TB Hitachi (Raid6), 2x SSD für OS und Games
Netzteil: Enermax Modu 87 800W


Die Chronologie der Ereignisse:

10.12.15: Gelesen dass der Anpressdruck des Mugen 4 zu hoch ist -> Nachrüstset bei Scythe bestellt
23.12.15: Kühler demontiert und Nachrüstset installiert
26.12.15: Während eines Kopiervorgang geht eine der 6TB (PD6 in VD0, 2. Festplatte in der 2. 5-fach Backplane) auf faulty, mit dem Fehler Timed Out - Error8 (laut Megaraid Log). Ein Anschließender Reboot bringt die Festplatte zurück in den Normalzustand, der Controller hat den Status auf non-faulty zurückgesetzt.
27.12.15: Im Leerlauf geht eine 6TB Festplatte (PD7 in VD0, 3. Festplatte in der 2. 5-fach Backplane) auf faulty, selbes Fehlerbild wie am Vortag mit PD6. Einige Minuten später folgt ebenfalls PD6. Ein anschließender Reboot bringt beide Festplatten ohne Fehler zurück. Erster Gedanke, eventuell hat die Backplane ein Problem. Dementsprechend baue ich alle Festplatten dieser Backplane aus und legen sie ausreichend gekühlt neben das Gehäuse und schließe sie außerhalb des Gehäuses mit ausreichend langen Kabeln an. Um ein neues Delta für mein Backup zu ziehen schließe ich ebenfalls 3x 8TB Seagate Archive HDDs direkt an das Mainboard an und beginne mit einem Backup der VD0.
02.01.16: Während der letzten Kopiervorgänge (unattended copy, von daher unklar wann der Fehler auftrat) steigt eine der 8TB Seagate HDDs aus, ist nicht mehr sichtbar im Datenträgermanagement von Windows. Etwa zur gleichen Zeit geht eine 6TB Festplatte (PD4 in VD0, jetzt außerhalb des Gehäuses) und eine 3TB HDD (PD8 in VD1, 1. Festplatte in der 3. 5-fach Backplane) beide mit dem Fehler Timed Out - Error8 auf faulty. PD8 wird weiterhin im MegaRaid faulty angezeigt, PD4 fliegt komplett aus der Übersicht.


So, das ist Stand der Dinge. Ich habe genügend Spare Platten da, und ein nahezu vollständiges Backup aller Daten. Aber ich habe keinen blassen Schimmer was dieses Massensterben verursacht. Meine ursprüngliche Vermutung, dass es sich um die Backplane handelt, würde ich ausschließen. Aber das ist nun auch fast das Einzige was sich ausschließen lässt. Meiner Vermutung geht nun in Richtung des Mainboards / CPUs / RAMs, da die Fehler erst nach dem Kühlertausch auftraten. Allerdings ist mir absolut unbekannt ob MB / CPU ein solches Fehlerbild hervorrufen können? Meine zweite Vermutung ist das mittlerweile ca 4 Jahre (oder sogar 5) alte Netzteil. Vor ca 2 Monaten wurde eine neue Graka verbaut (AMD 290x OC), welche auch mehr Strom verbrauchen dürfte als die alte (AMD 5870). Könnte ein zu schwaches, oder eventuell im Sterben liegendes Netzteil dieses Fehlerbild verursachen? Auf CPU und MB habe ich noch Garantie, einschicken wäre also kein Problem. Beim Netzteil wäre ein Neukauf in Richtung 1000W wohl erforderlich).


Ich hoffe ihr habt ein paar Ideen und könnt mir weiterhelfen.

Beste Grüße
oTT
 
Lass mal Memtest durchlaufen.
Wenn der RAM Defekt ist kommt es manchmal zu eigenartigen Fehlern...

Und check die Spannungswerte vom NT im Bios.
 
Das hört sich nach ner Horrorgeschichte an. Also ich würde jedenfalls das Netzteil tauschen. Bei dem Wert an Platten sollte das kein Problem sein (Enermax oder SeaSonic, großzügig dimensioniert).

Außerdem würde ich das komplette Setup ändern (so ist es bei mir zu Hause): Produktivsystem muss vom Backupsystem getrennt sein. Das bedeutet 2 PCs sollten nebeneinanderstehen und über ein Gigabit Switch verbunden werden. Das Backupsystem steckt dann voller Platten und zieh sich das Backup vom Produktivsystem. Das Produktivsystem ist daher ziemlich egal (Virenbefall, Elektroschaden oder ähnliches), solange das Backupsystem rennt.

Das ist mehr oder weniger aus meiner Erfahrung heraus entstanden, denn früher hatte ich auch alles in einem PC und das endete ab und an in einem ähnlichen Desaster (insbesondere mit RAID, allerdings den typischen Mobo Billigcontrollern)!

Davon abgsehen würde ich auf den Controller: LSI MegaRaid 9260-16i (neueste FW) tippen. Der wird beschädigt sein und diese Ausfälle verursachen (wenn es das Netzteil nicht war).

Eines noch: Ich sehe da ein ASrock Board. Ich bin kein Freund dieser Boards. ASrock ist im Grund die Billigmarke von ASUS. Und das hat seinen Grund. Die Boards sind qualitativ schlechter, als die von ASUS. Deswegen rate ich dem TE, das Board auch gleich mit auf ASUS zu tauschen sobald es eben geht.

Schreib mal die genaue Bezeichnung der Platten. Nicht alle Platten sind für einen so langen Schreib- und Lesebetrieb im RAID geeignet. Es kann durchaus sein, dass die auch deswegen über die Wupper gehen.
 
Zuletzt bearbeitet:
Dieses Memtest von HCI welches unter Windows läuft ist also weitgehend unsinnig, denn Windows hat eine eigene Speicherverwaltung und damit weiß man nie, welcher Teil des physikalischen Speichers nun gerade getestet wird und daher besagt das Ausbleiben eines Fehler bei dem Programm eben gerade nicht, dass das ganze RAM wirklich fehlerfrei ist. Man sollte für einen sinnvollen RAM Test also immer die iso / img von Memtest86 oder Memtest86+ von CD oder USB-Stick booten. Es sollten min. 6 PASS abgewartet werden und es darf dabei kein einziger Fehler auftreten, also am Besten über Nacht laufen lassen. Zuerst testet man mit allen Riegeln zusammen und den Einstellungen im BIOS/UEFI wie sie auch unter Windows verwendet werden, man sollte also unter Windows auch nie dauerhaft OC-Tweaktools verwenden, sondern immer die dort ausprobierten Einstellungen ins BIOS übernehmen.

Dann kann es auch an der CPU oder dem Kühler liegen, wenn der zu fest oder zu lose sitzt und daher die Pins der CPU nicht alle Kontakt haben, das hatte ich gerade erst, da war der Kühler auf einer Seite zu lose, da haben sich wohl die Schrauben wegen der Vibrationen gelöst.

Außerdem sind die Red nur für bis zu 8 Platten im Gehäuse zugelassen, Du scheint ja aber 16 HDDs alleine in den RAIDs zu haben, dafür sind die nicht gedacht. Die haben zwar Vibrationssensoren, aber nur eine einfache Lösung, da gibt es eben auch Unterschiede. Hier gibt es z.B. in der NAS Drive Selection Guide von Seagate eine schöne Übersicht:
 
Zuletzt bearbeitet:
Vielen Dank schonmal für die Tipps!

@Holle231: Ich lasse jetzt gerade mal 8 Instanzen von MemTest laufen, bis jetzt zumindest fehlerfrei bei 30% Coverage. Die Spannungen sind laut Bios und Monitoring Tool von Asrock absolut im grünen Bereich (3.3V bei 3.35V, 5V bei 5.12V, 12V bei 12.28V, VCore und VDimm wie eingestellt). Ich lasse jetzt erstmal die MemTests noch durchlaufen.

@Mr.Seymour: Backup System ist leider noch nicht da, ist aber in Arbeit (Dell R710 mit genügend Platten drin, und auch einem LSI Controller). Das mit dem Mainboard stimmt, leider war zu Skylake Release kein passendes Asus verfügbar. Aber ich werde mal bei Mindfactory anfragen inwiefern man das regeln kann per RMA. In Bezug auf dem Controller, ich hoffe dass der das nicht ist, aber wenn der Netzteiltausch (ich liebäugele mit dem bereits sehr positiv getesteten Corsair AX1500i) keine Besserung bringt in Verbindung mit Asus Board und neuen CPU, dann wird mir wohl nichts anderes übrig bleiben.

@Holt: Ja, da ist was dran, ich lasse nach den Windows Test das ganze auch nochmal per Iso durchlaufen. Bezüglich den REDs, ja, da musste ich kostentechnisch ein wenig auf die Bremse treten, da das ganze dann doch eher eine private Spielerei in Richtung sehr großes NAS/Datengrab ist. Aber, in sehr naher Zukunft sollten die 6TB REDs nur noch als Backup laufen im Dell Server, und dafür als Ersatz im Hauptsystem 16x 4TB Constellations per SAS laufen.
Aber das mit CPU/MB ist durchaus möglich, da ich wie gesagt aufgrund der vielfach berichteten Anpressdruckproblematik beim Mugen4 extra umgerüstet habe. Das CPU Substrat war dabei sogar schon minimalst verbogen, allerdings war auf dem Sockel keine verbogenen Pins sichtbar. Aber das wird auf jeden Fall getauscht um das auszuschließen als Fehlerquelle.

Gibt es aktuell einen Controller der in Hinblick auf Performance und Stabilität besonders zu empfehlen wäre? Speziell auch in Verbindung mit SAS-Expandern (denn sowas könnte evtl. in Zukunft eine Option werden)?
 
Kenne mich mit externen Controller nicht so gut aus. Aber LSI hat einen ausgezeichneten Ruf. Vor zwei Jahren wurde LSI von Avago übernommen.

Bangalore (Reuters) - Der US-Chipkonzern und Apple-Zulieferer Avago kauft den Rivalen LSI für 6,6 Milliarden Dollar.
Je Anteilsschein erhielten LSI-Aktionäre 11,15 Dollar in bar, teilten beide Unternehmen am Montag mit. Das entspricht einem Aufschlag auf den Schlusskurs vom Freitag von 41 Prozent. Die Fusion solle im ersten Halbjahr 2014 abgeschlossen sein, falls die LSI-Aktionäre und die Aufsichtsbehörden grünes Licht gegeben haben. Der LSI-Kurs legte vorbörslich um 39,1 Prozent zu.
Avago beliefert unter anderem Apple mit Chips für Mobiltelefone. Die LSI-Chips werden für Speicherkarten oder Festplatten benötigt.

Ob sich an der Qualität der Controller was geändert hat. Keine Ahnung. Denke mal eher nein.
 
So, MemTest in Windows, sowie MemTest86+ per bootable USB sind ohne Fehler durchgelaufen für über 3 Stunden. Ich bau den PC jetzt auseinander und schicke CPU und Mainboard ein. Wenn das den Fehler nicht behebt, dann wird ein neues Netzteil bestellt. Wenn das den Fehler auch nicht gehebt, dann wird ein neuer Controller geholt. Zumindest sehe ich aktuell keine andere Möglichkeit den Fehler loszuwerden.
 
Okay, viel Glück.
 
oTT schrieb:
@Holt: Ja, da ist was dran, ich lasse nach den Windows Test das ganze auch nochmal per Iso durchlaufen.
Den unter Windows laufen zu lassen schadet nichts, da er garantiert mit den gleichen Einstellungen läuft besteht auch die Chance Fehler zu finden die davon abhängen, aber keine Fehler zu bekommen hat eben keine besonders hohe Aussagekraft.
oTT schrieb:
als Ersatz im Hauptsystem 16x 4TB Constellations per SAS laufen.
Die sind natürlich optimal, aber wie wäre es mit der Seagate Surveillance HDD 7200rpm 8TB, SATA 6Gb/s (ST8000VX0002) ab € 341,99? Die 8TB hat laut Datenblatt auch eine UBER von 1:10^15, 180TB Workloadrating pro Jahr und die RV Sensoren, kann also auch mit mehr als 8 Platten im Gehäuse stecken.
Die Seagate Enterprise NAS HDD 8TB, SATA 6Gb/s (ST8000NE0001) ab € 421,99 hat 2 Jahre mehr Garantie und 300TB Workload, die Seagate Enterprise Capacity 3.5 HDD 512e 8TB, SATA 6Gb/s (ST8000NM0055) ab € 519,64 sogar 550TB pro Jahr (also für Dauerlast statt nur Dauerbetrieb). Aber wenn sich die Daten nicht ständig ändern und man es mit dem Scrubbing nicht übertreibt, sollten 180TB im Jahr reichen und die Surveillance ist dafür 200€ günstiger. 8TB würde ich auf jeden Fall vorziehen, aber man muss bei den HW-RAID Controllern eben aufpassen, ob die so große Platten unterstützen und SAS wäre natürlich noch mal eine Runde besser, ist aber auch teurer. Die genannte sind alles PMR HDDs, die haben also kein SMR wie die 8TB Archvie v2!
oTT schrieb:
Aber das wird auf jeden Fall getauscht um das auszuschließen als Fehlerquelle.
Bei so viele Daten würde ich auf jeden Fall auf ECC RAM und ein passendes Xeon E3 System setzen, da RAM Fehler häufiger vorkommen als die meisten User glauben, sich aber längst nicht immer durch Bluescreens verrate und eben auch oft zu Datenkorruption führen. Sind die Metadaten des Filesystems betroffen, so verliert man schnell das ganze Filesystem, auch und gerade wenn man eines mit Prüfsummen verwendet, weil die RAM Fehler dzau führen könne, dass sie dann die scheinbar korrupten Daten kaputtkorrigieren. Ich kann nur nur empfehlen zu lesen was Matt Ahren, Mitentwickler des ZFS-Dateisystems, schreibt:
Man beachte die Reihenfolge, zuerst empfiehlt er ECC RAM und dann als Kirsche auf den Kuchen ein Filesystem mit Prüfsummen wie ZFS zu verwenden, wenn man seine Daten liebt und vor Korruption schützen möchte! Das ECC RAM nur Sinn macht, wenn der Rest des Systems dieses auch unterstützt, ist hoffentlich selbstverständlich.

Wenn sowieso eine Neuanschaffung ansteht und so viel Geld für Controller und Platten ausgegeben wird, sollte man an der Stelle nicht sparen!
 
Holt,

Danke für die Hinweise. Hatte noch nie ECC RAM und habe gerade die Preise nachgesehen. Sind ja richtig billig im Vergleich von vor 10 Jahren. Werde ich vielleicht beim nächsten Speicherkauf auch nehmen. Die vorgeschlagenen Platten sind natürlich auch gut, aber teuer (zumindest für meinen "heimgebrauch", im Büro würde ich sowas auch ohne wenn und aber einsetzen, wenn es nötig wäre).
 
Leider OffTopic aber ich kann den Schmarn von Oben nicht unkommentiert lassen. Asrock hat seit Jahren nichts mehr mit Asus zu tun und steht der "Qualität" von Asus Boards in nichts nach, wenn die nicht sogar besser ist.

Asrock gehört Pegatron, mit Foxconn wohl der größte Auftragshersteller in der Elektrotechnik. 2010 hat Asustek Asrock verkauft und ist Anteilseigner bei Pegatron mit ca. 20%. Asrock kann seitdem frei am Markt agieren und ist nicht mehr der Spielplatz bzw. Low End Abklatsch von Asus. Was sich auch in diversen Testergebnissen, als auch hier in den Empfehlungen nachlesen lässt.
 
Zuletzt bearbeitet:
Mr.Seymour Buds schrieb:
Sind ja richtig billig im Vergleich von vor 10 Jahren. Werde ich vielleicht beim nächsten Speicherkauf auch nehmen.
Die Systme sind halt teurer nur nutzt es nicht Reigel mit ECC RAM in ein Board oder mit einer CPU zu verbauen, die das nicht unterstützen. Die ECC Funktion erfordert eben eine durchgehende Unterstützung im ganzen System, also beim RAM, dem Board (hängt auch vom Chipsatz ab, bei Intel geht es mit mit den C Chipsätzen für Xeons) und dem Speichercontroller, der in der CPU sitzt. Bei den i5 und i7 sind die Memorycontroller um diese Funktion beschnitten, die S.115x Celeron, Pentium und i3 unterstützen eben ebenso wie die Xeon CPUs.
Mr.Seymour Buds schrieb:
Die vorgeschlagenen Platten sind natürlich auch gut, aber teuer (zumindest für meinen "heimgebrauch"
Die Seagate Surveillance 8TB kostet pro TB gerade 42,75€, das finde ich für so eine HDD nun wirklch nicht teuer und da ja ab einer bestimmten Kapazität des Storages auch jeder Einbauplatz Geld kostet, z.B. für den Port am Controller / Expander und der Spannungsversorgung, Strom, Platz im Gehäuse, lohnen sich größere Platten schon recht schnell, auch wenn sie pro TB etwas teurer sind.
 
Das mit dem ECC wusste ich auch noch nicht, danke für die Info, das wird dann natürlich beim nächsten Kauf bedacht. Gibt es irgendwo eine Übersicht welche Intel Skylake CPUs und welche Hersteller bzw MBs das in Kombination unterstützen?
Gut dass der R710er dann bald mit REG Speicher bestückt ist. In Bezug auf die Asrock / Asus Thematik muss ich leider erstmal weiterhin mit Asrock vorlieb nehmen, da ein Wechsel zu Asus innerhalb des RMAs wohl nicht geht.
Aber die Surveilance Platten sind ne echte Alternative, da werde ich mal die Preisentwicklung beobachten.
 
Das findest Du im Preisvergleich und überprüfe wie immer alle Angaben direkt auf der Seite des Hersteller, da geizhals nicht selten Fehler enthällt. Generell sind es eben die S.115x Celeron, Pentium i3 und Xeon E3-12xx auf Boards mit einem C2xx Chipsatz, die ECC RAM unterstützen, i5 und i7 CPUs nie.
 
Ah, ok, gefunden. Ist ein wenig verwirrend, da der Z170 auch ECC Speicher unterstützt, aber die Funktionalität nicht.
 
Ich denke mal, dass INTEL davon ausgeht, dass ECC im Konsumentenbereich keine Rolle spielt. Deswegen wird die Technik hier auch nicht unterstützt. Im wissenschaftlichen Bereich bin ich mir nicht ganz sicher, ob dort nun wirklich an jeder Universität ECC Speicher verwendet wird. Xeons hatten die im Rechenzentrum auf jedenfall. Das weiss ich noch genau...

Generell sind es eben die S.115x Celeron, Pentium i3 und Xeon E3-12xx auf Boards mit einem C2xx Chipsatz, die ECC RAM unterstützen, i5 und i7 CPUs nie.

Das ist schon arg speziell. Besonders der Chipsatz. Den werden die wenigsten haben. Bzw. eigentlich nur der Chipsatz. Den Speicher und die CPUs bekommt man ja schon.

Und wenn ich schon dabei bin: Bei Platten habe ich in den letzten Jahren die besten Erfahrungen mit Crucial (SSDs) und Western Digital (HDDs) gemacht.
 
Zuletzt bearbeitet:
oTT schrieb:
Ah, ok, gefunden. Ist ein wenig verwirrend, da der Z170 auch ECC Speicher unterstützt, aber die Funktionalität nicht.
Dann spricht man aber eigentlich nicht von unterstützen, das bedeutet normalerweise, dass es dann auch die Funktion hat. Die Unbuffered ECC Module laufen in einem Z170, aber mehr auch nicht und das gilt eigentlich generell. Die extra Bits für ECC hängen dann aber eben in der Luft, man hat also 0 Vorteil davon ECC RAM verbaut zu haben.
 
So, nächste Woche Montag ist ein R710 mit 72GB Registered Speicher im Haus, dann hat diese Baustelle zumindest ein Ende. Das Asrock Board und der CPU werden derweil gerade ausgetauscht, dh eventuell kann ich Anfang nächster Woche dann testen ob es daran gelegen hat. Ich werde dann berichten.
 
So, endlich mal ein Update hier. CPU und Mainboard wurden ja eingeschickt und getestet. Mainboard fehlerfrei, CPU defekt. Neuer CPU und altes Board kamen zurück vor gut einer Woche, und wurden bis jetzt intensiv getestet. Bis jetzt läuft alles fehlerfrei. Anscheinend hat also wirklich der Kühlertausch dazu geführt, dass der Anpressdruck bei leicht verbogenem CPU Substrat zu einem fehlerhaften CPU Verhalten geführt hat. Man lernt nie aus würde ich mal sagen...

Anderes Thema, aktuell setzte ich einen neuen Backup Server auf. Für diesen konnte ich günstig einen HP P410/256MB Controller ergattern. Jetzt ist aktuell ein Supermicro 24-Bay Gehäuse auf dem Weg, welches eine Backplane hat die SES2 unterstützt. Leider finde ich in keiner Doku des Controllers hierzu etwas. Hat da jemand evtl Erfahrung?

Gruß
oTT
 
Zurück
Oben