kieleich schrieb:
nicht die 2-3-4 Tage Rebuild.
doch genau hier ist ja die krisitsche Phase.
Gerade bei größern Raidverbänden kann es daher durchaus vorkommen, das wenn man eine defekte Platte tauscht, während des Rebuids sich eine weitere verabschiedet, was das Raid, jenachdem wieviele Platten kaputt gehen können, zerstört. Vorallem wenn das Raid schon älter (5 Jahre+) ist und die Festplatten alle das selbe Alter pi mal Daumen haben.
Denn ein Rebuild löst einen massiven Leistungsspike auf 100 % Auslastung über lange Zeit aus, wodurch physiche Schwachstellen, die bei normaler Belastung kein Problem darstellten, auf einmal in Erscheinung treten.
Darum zieht man von älteren Raids auch niemals ein Backup mit voller Geschwindigkeit, sondern begrenzt diese, auch wenn es länger dauert.
kieleich schrieb:
Das Problem ist dass Festplatten ihre Fehler gern verstecken, und du ohne Log Monitoring, regelmäßige Test, die Fehler erst Wochen Monate Jahre Später überhaupt erst bemerkst. Diese lange Zeit zum Fehler überhaupt bemerken, das ist das kritische Zeitfenster
Dafür gibt es S.M.A.R.T. , Fehlerkorrekturmassnahmen von der HDD selbst und ggf vom Dateisystem selbst etc etc.
Und auch gerade beim Raid hat man Paritätsdaten, wodurch Defekte an den Daten wieder behoben werden können.
kieleich schrieb:
wahrscheinlich das Fehler erst beim Rebuild auffallen leider, weils dann plözlich darauf an kommt
Fehler im Dateisystem? Die sind egal, dafür gibt es die Paritätsdaten etc.
Wie ohen beschrieben sind es die physichen Fehler, wenn Schwachstellen durch den Leistungsspike kaputt gehen, die das Raid zerstören, wenn mehr Festplatten aussteigen als zulässig.