Adaptec RAID controller: Festplatten ok aber RAIDset nicht?

NullDevice

Lt. Junior Grade
Registriert
Jan. 2011
Beiträge
257
Hi,

Ich hab einen Adaptec 8805 controller in meinem Homeserver.
Da ist ein RAID1 mit 2x SSD, und ein RAID5 mit 4x 3TB Platten drin.

Läuft schon seit längerem ohne Probleme.
Wie auch immer, vor ein paar Tagen fing der RAID controller plötzlich laut zu piepen an. Was er schon mal machte, als damals eine Disk defekt war.

Hab also mal nachgeschaut was los ist. Im zugehörigen Tool "Maxview Storage Manager" von Adaptec.
Jedoch konnte ich nix erkennen spontan. Die disken schienen ok.
Der doch sehr laute Audio-Alarm liess sich im dem Tool aber nicht quittieren aus irgendeinem Grund. Also hab ich mich entschieden den ganzen Server mal zu rebooten, und ihn im Adaptec-BIOS-Interface dieses Adapters auszuschalten, das genau vor dem Booten kommt. In diesem "BIOS-tool" sieht man ja auch was los ist.

Ich reboote also den server, quittiere den Audio-alarm. Und siehe da: Das RAID5 steht auf status FAILED, anstatt auf OPTIMAL.
Wenn eine Disk defekt ist, steht es auf DEGRADED, nicht auf FAILED.
Nach kurzer Recherche, die kein Ergebnis brachte, hab ich mich entschieden aus dem Backup das RAID einfach neu zu erstellen. Denn alle eiinzelnen Disks standen auf Status OPTIMAL.
Somit hab ich das RAID 5 einfach gelöscht, und neu erstellt.

Lange werkte der Rechner herum, so ca. 12 Stunden. Währenddessen fiel mir auf, dass das RAID den Status IMPACTED hatte. Ich dachte ich lass ihn mal fertig erzeugen (Build & Verfy with Fix).
Tja und heute morgen ist es fertig erzeugt. Und hat leider immer noch den Status IMPACTED.

logical overview.JPG

state imp.JPG

Alle einzelnen Disken haben den Status OPTIMAL, nur das ganze RAIDset ist nicht Optimal. Hmmmm...

Vielleicht sind die SMART werte der Disken bereits so schlecht, dass es nicht mehr ok ist insgesamt?

disk1a.JPG
disk1b.JPG
disk2a.JPG
disk2b.JPG
disk3a.JPG
disk3b.JPG
disk4a.JPG
disk4b.JPG

Also ich weiss nicht mehr wirklich weiter.
Mehr als das RAID löschen und neu erstellen fällt mir nicht ein, was ich aber schon gemacht habe.
Wenn ich eine Disk tauschen muss, kann ich das machen. Aber dazu muss ich wissen welche. Der Controller meldet aber alle als OPTIMAL.

Was könnte ich noch probieren?
Eine Ersatz-Disk des selben Modells hätte ich sogar hier.

Lg, ND
 
"An impacted array is one which has been created, but for some reason the initial build operation did not complete. All member drives are present and operational, and all data written to the array is protected. To optimize the array, run a Verify with Fix task."

keine 10 Sekunden mit google
 
Ja, so schlau war ich auch schon google zu bemühen. Diese Erklärung hab ich auch gefunden.
Nur dass ich beim Neu-Erzeugen des RAIDs schon angegeben habe, dass er "Build & Verfy with Fix" machen soll.

EDIT:
Ahhh Danke! Du hattest Recht. Ich hab jetzt nochmals ein "Verfy with Fix"gemacht in diesem Maxview Tool.
Jezt ist er umgesprungen auf OPTIMAL. Der Prozess läuft noch.

changed to optimal.JPG

Damn, darauf hätt ich selber auch kommen können.
Jedenfalls lass ich diesen Fix-prozess mal durchlaufen.

Vielleicht kommt ja dabei raus, dass eine Disk wirklich defekt ist. Obwohl das noch nicht angezeigt wird.
Irgendeinen Grund muss es ja haben, wenn ein RAID plötzlich kaputt ist.

lg, ND
Ergänzung ()

EDIT 2:
Zu früh gefreut: Ich hatte das andere RAID ausgewählt: Das mit den SSDs.
Jedenfalls führe ich jetzt auch den Verfiy with Fix auf dem anderen mit den normalen Platten aus:

Anhang anzeigen 673645

Schauen wir mal was passiert wenn der Prozess fertig ist.
Ergänzung ()

So, Verify with Fix ist fertig.
Status ist noch immer IMPACTED.
Hmmm...
Noch irgendwelche Ideen?
 
Zuletzt bearbeitet:
NullDevice schrieb:
Ich reboote also den server, quittiere den Audio-alarm. Und siehe da: Das RAID5 steht auf status FAILED, anstatt auf OPTIMAL.
Wenn die Ursache die den Alarm ausgelöst hat nicht beseitigt wurde, sollte man auch nicht erwarten das hinterher alles funktioniert. Zum Glück hast Du ja ein Backup, sonst wäre vor dem Reboot die letzte Chance gewesen dies noch anzulegen.
NullDevice schrieb:
Alle einzelnen Disken haben den Status OPTIMAL, nur das ganze RAIDset ist nicht Optimal. Hmmmm...
Als Optimal würde ich allenfalls Device 0 ansehen, die anderen haben viele bzw. Device 4 mit 16 einige wiederzugewiesene Sektoren. Das es Seagate Platten sind, sieht man an den Werten, aber um welche Modelle genau handelt es sich?
NullDevice schrieb:
Wenn ich eine Disk tauschen muss, kann ich das machen. Aber dazu muss ich wissen welche.
Schau in der Zeile ID 0x05 auf den Wert in der Spalte Raw value.
NullDevice schrieb:
Eine Ersatz-Disk des selben Modells hätte ich sogar hier.
Wenn HDDs lange unbenutzt rumliegen, ist dies auch nicht güt für sie, die sind nur beschränkt lagerfähig. Dazu schreibt Seagate z.B. hier und auch in einigen anderen Product Manuals:
Wenn also die Lagerbedingungen nicht eingehalten werde, sind 90 Tage und zwar in der ungeöffneten Originalverpackung, sonst bestenfalls 1 Jahr. Nach dem Öffnen sollten HDD nicht länger als 30 Tage stromlos sein.

Bei der neuen Barracuda Pro 10TB mit Heliumfüllung schreibt Seagate:
Also hier nur ein halbes Jahr in der ungeöffneten originalen Versandverpackung von Seagate und sonst 2 Monate, nur bei optimalen Bedingungen bis zu einem Jahr.

HGST schreibt für die meisten Modelle wie hier für die Megascale:
 
ST3000DM001 sind einfache Desktopplatten und nicht für den Einsatz im Dauerbetrieb, mit anderen HDDs im gleichen Gehäuse (wegen der Vibrationen) oder an HW-RAID Controllern (wegen fehlender ERC/TLER) geeignet. Da hier aber schon 3 oder 4 Platten wiederzugewiesene Sektoren haben, dürfte es eher nicht die ST3000DM001 sein, denn normalerweise beträgt der Timeout von HW RAID Controllern nur 8s bis sie eine HDD als defekt aus dem RAID werfen und einfache Desktopplatten ohne ERC/TLER versuchen bei Probleme länger einen problematischen Sektor doch noch zu lesen und man kann die Zeit sie es aufgeben und doch einen Lesefehler melden (und damit einen schwebenden Sektor registrieren) bei denen auch nicht einstellen. ERC/TLER bedeutet nämlich nur, dass man diese Zeit einstellen kann und die ab Werk auch kürzer (meist auf 7s) eingestellt ist.
 
Hallo Holt,

Quittiert hab ich den Alarm nur weil er akustisch wirklich (sehr) laut ist bei diesem Controller.

Also den reallocation count hab ich auch schon gesehen. Ich weiss aber nicht ab welchem Wert man Platten tauschen sollte, generell.
Es haben 3 von 4 Disken mehr als 0 (null), das heisst defekte Sektoren, nehm ich an.

Dieses RAID ist halt schon einige Jährchen gelaufen.
Denkst du dass ich mal die beiden die über 7000 und über 10.000 haben tauschen sollte?
Blöderweise hab ich nur 1 in Reserve spontan. Und wie du ja gesagt hast, kann es sein dass die auch schon Defekt sein könnte.

Ich könnte auch generell alle 4 Disken tauschen, gegen neue. Also generell neuere Modelle. Das wär aber auch die teuerste Variante.

Komisch nur, dass der RAID controller keinen Mucks darüber sagt, warum er das RAID als "Impacted" ansieht. Vorallem dass er die Disks alle als Optimal anzeigt, nichts im Eventlog stehen hat, und auch dass SMART Errors auf "No" steht bei allen Disken.
Das macht mich ein bisschen stutzig.
Ergänzung ()

Tinu_CH schrieb:
Ich hoffe es sind keine ST3000DM001. Die würden sich nicht eignen. Es gibt dazu auch ein Eintrag bei Adaptec:
http://ask.microsemi.com/app/answer...sion/L3RpbWUvMTUyMjY4OTk5OS9zaWQvMVRQUUVhSm4=

Da es diese HDD in verschiedenen Versionen mit unterschiedlichen Firmwareversionen gibt und Seagate nicht zu allen ein update anbietet gäbe es keine Lösung ausser andere HDDs zu verwenden.

Ahh, doch genau die sind es:

disktype.JPG

Die Firmware Version ist auch unter CC4G , wie in dem Artikel beschrieben.
Ja das sind Desktop Platten. Ist ja auch "nur" ein Homeserver. Aber das nächste mal verwende ich für Dauerbetrieb geeignete.
Irgendwas sagt mir dass dieser Zeitpunkt jetzt gekommen ist.

Ich werde die Disken tauschen schätze ich. Denn auch wenn ich die Firmware upgrade - der hohe reallocation count bleibt ja.
Bleibt die Frage ob ich diese Disken überhaupt noch jemandem (mit gutem Gewissen) geben kann für Homeuser zwecke. Aber ich schätze mal eher nicht...

Lg,
 
Zuletzt bearbeitet:
NullDevice schrieb:
Also den reallocation count hab ich auch schon gesehen. Ich weiss aber nicht ab welchem Wert man Platten tauschen sollte, generell.
Das ist schwer zu sagen, wichtiger als die absolute Anzahl ist die Geschwindigkeit mit der der Wert steigt. Es sind ja noch Reservesektoren übrig und wenn nur langsam weitere Wiederzugewiesene Sektoren hinzukommen, dann kann so eine HDD noch eine ganze Weile halten. Steigt die Anzahl dagegen rasant, so ist der Fehler der dafür sorgt so gravierend, dass ein baldiger Totalausfall dann sehr wahrscheinlich ist.
NullDevice schrieb:
Es haben 3 von 4 Disken mehr als 0 (null), das heisst defekte Sektoren, nehm ich an.
Richtig, da hat der Controller anstelle der defekten Sektoren eben schon Reservesektoren verwenden müssen. Dafür sind sie da und die Frage ist eigentlich nur, wieso die Sektoren kaputt gegangen sind. Dies kann halt verschiedene Ursachen haben, die sieht man den Werten nun einmal leider nicht an.
NullDevice schrieb:
Denkst du dass ich mal die beiden die über 7000 und über 10.000 haben tauschen sollte?
Ein paar Tausend sind schon recht viel, leider hast Du nicht geschrieben welches Modell es genau ist.
NullDevice schrieb:
Ich könnte auch generell alle 4 Disken tauschen, gegen neue. Also generell neuere Modelle. Das wär aber auch die teuerste Variante.
Keine Ahnung was Dein Controller so unterstützt und wie viel Platz Du so brauchst bzw. in den nächsten Jahren brauchen wirst, aber tendenziell würde ich über ein RAID 1 aus zwei HDDs mit hohe Kapazität nachdenken statt weiter ein RAID 5 mit 4 kleinen 3 oder 4TB HDDs zu verwenden.
NullDevice schrieb:
Komisch nur, dass der RAID controller keinen Mucks darüber sagt, warum er das RAID als "Impacted" ansieht. Vorallem dass er die Disks alle als Optimal anzeigt, nichts im Eventlog stehen hat, und auch dass SMART Errors auf "No" steht bei allen Disken.
Die Frage ist was der auswertet, der zeigt ja nicht einmal die Grenzwerte an, vielleicht wertet er sie gar nicht aus sondern geht nur nach einem Selbsttest oder gibt erst Fehler an, wenn ein Aktueller Wert den Grenzwert unterschreitet.
 
Holt schrieb:
Ein paar Tausend sind schon recht viel, leider hast Du nicht geschrieben welches Modell es genau ist.

Es sind alle die da:
Model: ST3000DM001-9YN1
Firmware: CC4C

Holt schrieb:
..aber tendenziell würde ich über ein RAID 1 aus zwei HDDs mit hohe Kapazität nachdenken statt weiter ein RAID 5 mit 4 kleinen 3 oder 4TB HDDs zu verwenden.
Ich hab momentan die Seagate Ironhawk 10 TB im Auge:
https://geizhals.at/seagate-ironwolf-nas-hdd-10tb-st10000vn0004-a1479598.html?hloc=at

Wenn ich ein RAID1 mache aus 2 davon, komme ich mit Sicherheit die nächsten Jahre aus.
Derzeit sind 5 TB belegt.
Und mit diesem Controller hätte ich später die Option ein RAID5 draus zu machen mit einer dritten Platte. Falls mir tatsächlich mal der Platz ausgehen sollte.
Und die sind lt. Hersteller für Dauerbetrieb geeignet. Ich glaub meine bisherigen waren das nicht.

Holt schrieb:
Die Frage ist was der auswertet, der zeigt ja nicht einmal die Grenzwerte an, vielleicht wertet er sie gar nicht aus sondern geht nur nach einem Selbsttest oder gibt erst Fehler an, wenn ein Aktueller Wert den Grenzwert unterschreitet.
Ja... aber irgendetwas muss ihn ja stören wenn er "Impacted" als Status führt.
Ich schätze ich werde mal die 1 Disk mit dem höchsten Realloc-count morgen Abend tauschen. Und schauen ob sich der Status wieder auf Optimal verändert.
Wenn nicht, könnte ich noch bei Adaptec nachfragen ob ihnen noch was einfällt. Und wenn das auch nix wird, alle 4 Disken tauschen.

Lg, ND
 
NullDevice schrieb:
Es sind alle die da:
Model: ST3000DM001-9YN1
Dann würde ich alle ersetzen, da die nun wirklich nicht für diesen Einsatz ausgelegt sind und auch nicht mehr sehr lange durchhalten dürften. Mich wundert nur das sie trotz der fehlenden ERC nicht schon beim ersten schwebenden Sektor aus den RAID geflogen sind. Der Timeout des RAID Controllers scheint hier also lang genug zu sein.
NullDevice schrieb:
IronWolf nicht IronHawk, die mit Hawk im Namen sind die SkyHawk. Von den 10TB IronWolf haben ich auch 6 in meinem Heimserver und bin damit bisher sehr zufrieden. So aus knapp über 1m Entfernung sind sie gar nicht zu hören, ich muss schon auf wenige Zentimeter mit dem Ohr rangehen um die Platten überhaupt arbeiten zu hören. Ich hatte echt befürchtet die wären viel lauter, dabei sind sie viel leiser als ich gedacht hatte.
NullDevice schrieb:
Und mit diesem Controller hätte ich später die Option ein RAID5 draus zu machen mit einer dritten Platte.
Das können die meisten RAID Lösungen und das war auch ein Gedanke warum ich Dir ein RAID 1 vorgeschlagen habe.
NullDevice schrieb:
Und die sind lt. Hersteller für Dauerbetrieb geeignet. Ich glaub meine bisherigen waren das nicht.
Das einmal und zum anderen sind die IronWolf auch mit Vibrationssensoren ausgestattet und für bis zu 8 HDDs in einem Gehäuse zugelassen, die ST3000DM001 hat sowas nicht und sollte eigentlich als einzige HDDs im Gehäuse stecken. Bei so einer Anwendung wie Deiner sind sie meist schon nach rund 20.000 Betriebsstunden hinüber, Du hast also richtig Glück mit Deinen gehabt. HDDs die keine Zulassung für den Dauerbetrieb haben, sind aber auch meist nur auf 2400 Power-On Hours ausgelegt und damit entsprechen dann 20.000 Betriebsstunden so vielen wie bei der vorgesehenen Nutzung in über 7 Jahren angefallen wären.
NullDevice schrieb:
Ich schätze ich werde mal die 1 Disk mit dem höchsten Realloc-count morgen Abend tauschen. Und schauen ob sich der Status wieder auf Optimal verändert.
Das Problem ist, dass Du nicht weißt welche Platte(n) für den Status Impacted verantwortlich sind. Ich würde Dir raten den Austausch aller Platte bald ins Auge zu fassen, denn bis auf Device 1 sind die mit um die 30.000 Betriebsstunden schon alle sehr alt für dieses Modell geworden und Device 1 ist mit über 7000 Wiederzugewiesenen Sektoren auch nicht mehr gerade in einem guten Zustand. Auch wenn Du jetzt das RAID wieder hinbekommst, dürftest Du sehr bald die nächsten Probleme haben.
 
Yupp, die IronWolf meinte ich, nicht IronHawk oder SkyHawk :)
Ich hab bereits organisiert dass ich sie morgen bekomme. Dann kann ich morgen Abend Platten tauschen und das RAID neu erzeugen.

Danke für die Hilfe jedenfalls! :)

lG,
 
Zurück
Oben