6x500GB RAID5 nach defekter HDD bei Rebuild eine weitere Platte defekt gegangen

Rheinschiffer

Ensign
Registriert
Mai 2009
Beiträge
159
Server-PC
6x500GB SATA Samsung 501LJ (1 GPT Partition 2,5TB) am IHC9R eines GA-X38-DQ6.
OS ist w2k3srv std R2 System auf GSATA jMicron
Ausfall der HDD an Port4, RAID5 degraded
Nach Austausch dieser HDD bei Rebuild nach 2%:
Defekt an HDD Port1, RAID5 Status: failed

Client PC mit ASUS P5KWS (auch ICH9R) vorhanden; OS WinXP-Pro und Win7 RC7100
2x1,5TB HDDs leer vorhanden, auch SATA/USB Adapter und externe Gehäuse
Was tun??
 
Aktionen, die zur Wiederherstellung zielführend sein können:

a) Zusammenflicken des RAID-Verbundes nach der ernst@at-Methode
- Inspektion der zwei rausgefallenen Platten auf fehlerhafte Bereiche (ohne Replacement der fehlerhaften Sektoren)
- Sicherung aller 6 Images (bis zu max 3TB Plattenplatz erforderlich, komprimiert dementsprechend weniger)
- bei tatsächlichen partiellen Defekten die Rekonstruktion einer oder beider defekten Memberplatten.
- Versuch, mit den reparierten Member-HDDs den RAID5 wieder zu aktivieren

b) Behandlung mit Datenrettungssoftware.
- Lizenzerwerb ~200€
- 2x1,5TB HDD’s zum Erzeugen des Images
- zusätzlich max 2,5TB(nach Füllungsgrad) Plattenplatz zum Retten der Daten

c) professionelles Datenrettungsunternehmen
- Einschicken aller Platten bzw Images, zu erwartende Kosten ca 2000 bis 5000€
 
Hallo ernst@at,

ich würde es gern mit der ernst@at Methode probieren, ob es mir dann wirklich 5000 Euro Wert ist muß ich mir dann aber noch reiflich überlegen.

Wie würde die ernst@at Methode denn ausschauen?
 
Die Methode a) hat schon in den meisten Fällen prächtig funktioniert.
In Deinem Fall ist aber, falls die beiden HDDs tatsächlich Fehler aufweisen, von der Art der Defekte abhängig, wie und ob die Rekonstruktion der betroffenen Bereiche möglich ist.

Sieh dir mal in diesem Thread die Allgemeine Vorgangsweise im Post#9 an und installiere Dir HxD und sieh Dir in den nachfolgenden Einträgen an, wie am besten die benötigten Informationen ausgetauscht werden.
 
Ok, habe HxD installiert.

Kann ich mit dem Server online gehen, um dann mit Copy Paste zu arbeiten?
Ich habe alle Aktivitiäten die auf dem Server laufen unterbunden, Netzwerkkabel getrennt, damit ja nix passiert. Ich sitze jetzt vor dem Notebook mit Wlan.
 
Wenn es dazu keine weiteren Fragen gibt, Dann schließ mal die erste rausgefallene Platte von Port4 über USB am Client-PC an und versuche ähnlich wie im anderen Thread den ersten und die letzten 5 Sektoren dieser Platte im HxD-Format zu posten (aller Anfang ist schwer)
Mal sehen, was ich da aus dem Kaffeesud lesen kann.
Ergänzung ()

Kann ich mit dem Server online gehen, um dann mit Copy Paste zu arbeiten?
Am Server sollten alle Memberplatten des RAID abgeschaltet bleiben, das kannst Du doch am Client machen, oder?
Ergänzung ()

Außerdem kannst Du mal testen, ob HDTune über diesen USB-Adapter die SMART-Werte auslesen kann (aber noch keinen Benchmark oder Errorscan drüberlaufen lassen - so wenig Aktivität wie möglich, bis wir die Art der Fehler einschätzen können)
 
So hier die gewünschten Blöcke.
Ergänzung ()

Der Server läuft immer noch, auch die Platten sind noch alle an, die Fehlermeldung vom Matrix sind noch im Fenster zu lesen, ich habe den nicht angefasst.

Was genau soll ich mit dem Server machen?
Ergänzung ()

Leider bekomme ich nur die Firmware und die Capacity der Platte angezeigt, oh auch die Temp sehe ich grade. Bei Health leider keine Info's. :mad:
 

Anhänge

  • HxD.zip
    5,2 KB · Aufrufe: 550
Der RAID-Controller lässt bei "failed" ja ohnehin keinen Zugriff auf die HDD's mehr zu.
Poste vielleicht noch zur Info das Fenster des Matrix-Managers.
Lass das mal so, vielleicht brauch ich noch was vor dem Runterfahren und Abschalten aller 6 RAID-HDDs...
Ergänzung ()

Leider bekomme ich nur die Firmware und die Capacity der Platte angezeigt, oh auch die Temp sehe ich grade. Bei Health leider keine Info's.

Tja, nicht jeder USB-Adapter lässt die Commands zur SMART-Abfrage durch.
Versuch es mal mit dem neuen Kabeladapter, wenn dort auch nicht, dann bleibt nichts anderes übrig, als die Platte an den Client-PC per SATA Kabel zu hängen. Ist im BIOS des Client-PC's der ICH9R-Controller auf RAID gestellt? - das wäre weniger gut.
 
leider zeigt der neue Adapter auch nicht mehr an. Und ja am Client ist der IHC9R auf Raid.
Aber ich könnte die Platte am 2 SATA vom ASUS hängen.

Hier mal die Screenshots.

konntest Du mit der Datei was anfangen,ich meine habe ich es richtig gemacht?
 

Anhänge

  • screenshot1.JPG
    screenshot1.JPG
    134,2 KB · Aufrufe: 666
  • screenshot2.JPG
    screenshot2.JPG
    75,5 KB · Aufrufe: 640
Zuletzt bearbeitet:
konntest Du mit der Datei was anfangen,ich meine habe ich es richtig gemacht?
Bisher alles erstklassig!!!

Der Inhalt der RAID-Infos dieser HDD stellt den Zustand nach dem ersten Ausfall dar:

Kurzform aus dem Analyse-Log (im Anhang):
total disks: 6
total volumes: 1
Map Name: "2.5Terra"
Sectors: 4883840000

# Sectors/member: 976768264
# Stripes/member: 7631000
# Sectors/Stripe: 128 ==> stripesize=64KB
Volume status: DEGRADED
Volume type: RAID-5 Array
# member disks: 6

member order 1: HDD[0] <Serial=S0MUJ1FPA91881>
member order 2: HDD[1] <Serial=S0MUJ1DP930072>
member order 3: HDD[2] <Serial=S0MUJ1KPA77223>
member order 4: HDD[3] <Serial=S0MUJ2FPA21167>
member order 5: HDD[4] <Serial=S0MUJ1MP505599> *** BAD ***
member order 6: HDD[5] <Serial=S0MUJ1DP930069>
Ergänzung ()

Wenn am ASUS auch ein 2. SATA-Controller drauf ist, dann kannst du die Platte dort dranhängen.

Vorgangsweise mit HDTune:

- die SMART-Werte unter "Health" mit Copy-information-Button (blau) in eine Text-Datei speichern
- einen Benchmark fahren (ohne sonstige Aktivitäten auf dem Client, vorher mit dem Zahnäder-Button die Benchmark-Option Accurate einstellen) Das Ergebnis-Bild kann in einen Bildeditor mit Copy-Screenshot-Button (grün) über Zwischenablage übertragen und abgespeichert werden
- wieder die Smart-Werte auslesen und speichern
- danach einen ErrorScan drüberlaufen lassen und das Bild speichern;
- ein drittes Mal die SMART-Werte abspeichern

und das alles posten bitte...
 

Anhänge

  • HxD.log.txt
    6,4 KB · Aufrufe: 534
So nun endlich die HD-Tune Ergebnisse der ausgefallen Platte auf Kanal 4.
 

Anhänge

  • HDD4.ZIP
    66,8 KB · Aufrufe: 537
Die HDTune-Daten der HDD[4] sehen nicht weiter auffällig aus, außer den massenhaften HW ECC corrected - ist die Frage, wie oft ein weiterer Leseversuch gestartet wurde bei den "vielleicht 0/vielleicht 1" Daten von der Oberfläche und wie lange der Controller darauf Lust hatte, zu warten. Unlesbar ist jedenfalls noch nichts.

Fahr den Server mal runter,
Klemm alle 6 Platten des RAID5 ab und mach mit der HDD[1] die gleiche Prozedur mit HxD und HDTune gleich am SATA-Anschluss des Client-PCs und poste wieder die Ergebnisse.
den Server kannst Du, wenn Du ihn brauchst, ohne die RAID5 Member-Platten wieder hochfahren

Danach verfahre genauso mit der neuen, nur zu 2% rebuilded und aus Sicht des Controllers noch intakten Platte, die jetzt als HDD[4] drinnensteckt. Mal sehen, wie es da aussieht.
Ergänzung ()

Betreff: SMART über USB
Auch mit meinem Digitus DA-70148-1 Adapter geht das nicht.
smartmontools sollte mit diesem, da der eine JMicron JM20337 USB-Bridge benutzt, irgendwann mal funktionieren. siehe smartmontools USB support. im letzten Windows-Build ist aber der Parameter "-d usbjmicron" noch nicht implementiert. Was solls, für die restlichen Platten brauchen wir das ohnehin nicht.

Es sieht jedenfalls nach dem ersten Platten-Smart so aus, als ob die HDD an manchen Stellen zu langsam reagiert, und der Controller sie deswegen rauswirft.
Mal ein wenig forschen, vielleicht gibt es ein firmwareupgrade...
Ergänzung ()

Betreff: RAID-Ausfall
Wer suchet,...
Gib dir mal folgendes Post. Äußerst interessant:o
 
Hier die gewünschten Info's von der HDD1 (Ausfallplatte wärend des Rebuild)



Na, das sind ja Prima aussichten... was da im Thraed steht. Ich werde wohl mal ein paar Seagte NS oder WD Raid Editions brauchen.
Ich finde die Hersteller sollten darauf Hinweisen, klar es gibt extra Raid gelabelte Platten (auch von Samsung) aber aber...
Taugen denn die Segate ST31500341AS (1,5TB) etwas, dann würde ich zu den 2 gekauften von Donnerstag noch eine weitere kaufen und die dann als Raid 5 betreiben.
 

Anhänge

  • HDD1.ZIP
    70,3 KB · Aufrufe: 497
Zuletzt bearbeitet:
Die Smart-werte der HDD[1] sehen nicht ganz so rosig aus
2 raw read errors
und merkwürdigerweise zeigt er hier zu den "ECC recovered" bei dieser Platte auch die gleiche Anzahl als "soft read error" an, diese ID gibt es bei der HDD[4] gar nicht...
Lesbar ist trotzden alles, was solls.

Hast Du eingentlich neben der neuen Platte, die jetzt als HDD[4] drinnensteckt, noch eine weitere 500GB als Spare auf Lager?

Es wäre zu überlegen, den Platten das DELL-Firmware-Update zu applizieren. Ob das Erfolg bringt, steht in den Sternen

An erster Stelle, würd ich mal sagen, sollte das flottmachen der zwei ausgefallenen 500er stehen, damit vom RAID5 mal eine Sicherung gemacht werden kann. Dann haben wir ein weiteres Problem.
Am ICH9R sind alle 6 Ports belegt, und am jMicron steckt an einem Port das System.
Falls wir den RAID5 wieder zum laufen kriegen, könnte man den Inhalt mal auf die 2x1,5TB als RAID0 definiert legen - dazu bräuchtest Du entweder einen PCIe x1 Controller mit 'nem SiliconImage Chip (~20€) oder musst das System auf eine IDE-Platte umschaufeln, damit das an den 2xSATA des jMicron gemacht werden kann. Alternativ: die Systemplatte über USB-Adapter booten?
Diese 2x1.5TB RAID0 dann dem ICH9R als Kuckucksei unterschieben und auf 3x1.5TB RAID5 migrieren sollte möglich sein - ob's funktioniert, steht auf einem anderen Blatt.
Ergänzung ()

Im Anhang noch den Analyse-Log der HDD[1].
nichts, was wir nicht schon wissen außer dem Tausch der HDD[4]

member order 5: HDD[4] <Serial=S13TJ1CQB11823> *** BAD ***
 

Anhänge

  • HxD1.log.txt
    6,4 KB · Aufrufe: 506
Zuletzt bearbeitet:
Wie der Zufall es will, habe ich im Server ganau so einen SIL PCIx1 drin von Dawicontrol,
den habe ich mal zu zum Anschließen einer oder zwei weiteren HDD's gedacht. Aber wäre es nicht einfacher auf dem Client ein Raid 1 zu erstellen mit den beiden 1,5TB dann eine Dasi über 1Gbit machen? Sicherlich dauert es etwas länger aber dann wären wir schon ma auf dem gleichen Raid-Controller, das Hinzufügen einer weitern Platte zum Raid 1 doch nicht ganz so schwierig,oder?

Noch eine 501J habe ich, dort läuft zur Zeit das BS vom Client, aber das könnte ich auf eine andere Platte 160GB SATA von Seagate packen, dann hätte ich noch eine zum spielen.

Ich würde gern die Samsung's komplett entfernen, also nicht mehr als Raid benutzen.

Deshalb die Variante Raid 5 wiederherstellen, Daten via 1Gbit auf ein Raid 1 am Client sichern, noch schnell eine Platte besorgt, dann das Raid 1 an den Server und das Raid 1 mit der 3. Platte raufstufen zum Raid 5.

Was sagst Du dazu?

Gruß Rheinschiffer
Ergänzung ()

So hier noch die Dateien zur HDD4 (mit 2% Ruibild) also die getauschte Platte, eine 502.

Die war um einiges schneller, sowohl beim Benchmark als auch beim Oberflächentest. 40 min. weniger wie die Vorgängermodelle.
Ergänzung ()

Sorry Ernst ich meinte ein Raid 0 auf dem Cleint nicht Raid 1. Habe mich vertan. :(
 

Anhänge

  • HDD4(2%).ZIP
    69 KB · Aufrufe: 476
Zuletzt bearbeitet:
Bei 2x1.5TB RAID1 haste nur eine Gesamtkapazität von 1.5TB - ist die 2.5TB Partition des RAID5 nur halb voll?
Beim migrieren sägt er dann bei RAID1 eine Woche lang mit Armbewegungen herum, bei RAID0 macht er überhaupt keine außer zur nächsten Spur. Wenn beim Migrieren was schiefläuft, ist in beiden Fällen alles weg. Aber... da wäre ja noch das Backup vom RAID5 (wenn der erstmal wieder geht)

Zum Mix von 501 und 502: Vor dem GAU waren es ja 5x 501 und 1x502. Hängt die schon ewig im RAID5 drin oder ist das eine Tauschplatte nach einem früheren Defekt/Rebuild ?
 
Ich hatte mich schon verbessert, Raid 0 dann Raid 5.

Es waren bis Donnerstag als die 1. Platte am Kanal 4 ausfiel 6 gleiche 501LJ.
Ich hatte noch eine neuere Samsung 502 hier liegen, die habe ich dann für die 1. ausgefallene am Kanal 4 eingebaut und den Rebuild angestossen. Beim Rebuild ist dann die Platte am Kanal 1 ausgefallen das ist auch eine 501LJ.

Das Raid lief bis zum am 1. Runterstufen mit 6 gleichen 501LJ.

Gruß Udo
 
Pardon, in der Seriennummernlistung beginnen alle mit S0MUJ1 nur eine mit 2 - das hatte ich falsch in Erinnerung (man sollte halt immer nachprüfen und nix aus dem Gedächnis zusammenreimen, bevor man Unnsinn von sich gibt:p)

Die 502 scheint weniger Platter und höhere Spurdichte zu haben, die ist ja um 50% schneller. Hat auch nur ca. 3% im HW-correctable ECC-Checks Wert gegenüber den beiden "defekten". Ich dachte, das ist nur die Enterprise-Version?

Zur Glückseligkeit fehlt mir jetzt nur noch der Inhalt der HDD[0] mit HxD.
Nachdem die ohnehin in Ordnung ist, kannst Du den Benchmark bei 10% abbrechen, den Surfacecheck sparen wir uns.
 
auch hier wieder die gewünschten Info's zur HDD0.

Beim Health Check, war eine Zeile Gelb gefärbt, deshalb habe ich auch noch einen Screenshot als PNG dabei gepackt.
Ergänzung ()

So nun habe ich zu den beiden bestehenden ST31500341AS die ich am Donnerstag schonmal zur Datenrettung gekauft habe, eine weitere augetrieben, gar nicht einfach.

Nun kommt auch schon das nächste Problem.

Die 3. Platte hat eine ganz andere Firmware.
Die ersten 2 Platten sind identisch SD1A und die 3. Platte hat CC1H.

Schön ist das ja nicht. :mad:

Ich habe alle 3 Platten am Client angeschlossen, vorher schön beschriftet, damit die Reienfolge auch nachher eingehalten wird.

Die Bootplatte die zuvor am Intel IHC9R am Kanal 0 hing habe ich anden 2. SATA Marvel gehängt um den Intel komplett frei zu haben.

Soll ich nun das Raid 5 erstellen?
 

Anhänge

  • HDD0.ZIP
    62,8 KB · Aufrufe: 498
Analyse der HDD[0] und dem hier drauf befindlichen MBR des logischen Volumes im Anhang.
Mein Analyseprogram macht Unsinn bei 6Raid5 - den Fehler muss ich erst suchen...
Wir brauchen noch ein paar Daten von den Memberdisks ausgelesen, bevor wir uns ans flicken machen können. Ich arbeite daran
Ergänzung ()

Betreffend Firmware-Unterschiede
Schon gecheckt, ob die Platten davon betroffen sind? Wenn ja, dann sollte die SD1B/SD2B draufgemacht werden, sonst droht ein plötzlicher Scheintod der HDDs nach einiger Zeit (tritt bei manchen dann auch gleichzeitig ein, wie man im hellauf empörten Geschrei jener, die nie gesichert haben, im Jänner lesen konnte)
Im Zuge des Firmwareupdates, welches im IDE mode des ICH9R durchgeführt werden muss, kann auch gleich mit den Seatools eine HPA von einem Sektor aufgebracht werden, das schützt vor dem bösen Gigabyte-BIOS-Virus...
 

Anhänge

  • HxD0.log.txt
    6,4 KB · Aufrufe: 524
  • HxD0.MBR.log.txt
    3,6 KB · Aufrufe: 638
Zurück
Oben