Server kaputt, Windows RAID HDD ok. Umzug auf Ersatzserver möglich?

Homer42

Cadet 1st Year
Registriert
Jan. 2020
Beiträge
13
Hallo!

Mein HP ProLiant MicroServer (Gen8, G1610T, 1P, 4 GB-U, B120i, SATA-Server) ist kaputt, startet nicht mehr, das rote Licht blinkt.

Darin sind 4 x 2 TB-Platten von WD. 1 Systemplatte und 3 Windows 10 Software RAID 5 Platten. Die Platten sind alle OK.

Mein Problem geht in 2 Lösungsrichtungen:

1. Ich besitze einen zweiten Server, auf dem Papier 100% identische Hardware. Wenn ich die 4 Platten des defekten Servers dort einbaue, bootet der aber leider nicht. Das BIOS ist hinsichtlich Boot richtig eingestellt, weil der Ersatzserver mit anderen Platten normal bootet. Man kann auch wohl nicht eine Windows-Installation durch Festplattenwechsel auf eine andere Hardware verschieben, denke ich, weiß ich aber nicht. Ich vermute im Fall eines erfolgreichen Booten also weitere Windowsfehler. Trotzdem wäre dieser Lösungsansatz natürlich falls gangbar am besten.

2. Wenn ich die Systemrettung aufgebe und nur die Daten retten kann, wäre mir auch schon geholfen. Wie kann ich die 3 Win10-Software-RAID-Platten gefahrlos erkennen und einbinden? Mit Windows? Mit Tools? Ich habe Angst, dass die Platten bei einem Rettungsversuch versehentlich beschrieben und die Daten zerstört werden.

Welchen Lösungsweg würdet Ihr bevorzugen und wie angehen?
 
Eigentlich sollte beim Umzug der Platten in einen anderen identischen Server das Betriebssystem starten, ggf. wird gemeckert wegen Aktivierung des Betriebssystems aber für den Rest ist doch egal, ist ja identische Hardware.
Du bist auch sicher dass nicht die Installation auf der 1. Platte hinüber ist oder steht definitiv fest, dass der Server hardwareseitig defekt ist? Notfalls könnte man aus dem zweiten Server auch die notwendige Hardare in den ersten Server verpflanzen.

Du hast doch sicherlich eine Datensicherung des Inhaltes des Sotware-RAIDs?
Dann brauchst Du ja keine Angst wegen möglichem Datenverlust haben.
Zur Not kann man auch auf der anderen Hardware neu aufsetzen und dann die Daten aus der Sicherung zurückholen.
 
Homer42 schrieb:
bootet der aber leider nicht.
wo hängt's denn beim booten? wenn 100% identisch konfiguriert ist sollte es ja eigentlich booten, eseidenn win hat eine bindung(key) zu dem bios.

und was bedeutet das rote blinkende licht beim kaputten server? das handbuch sollte ja die fehlercodes enthalten um zu analysieren was er meint was defekt ist.
 
Homer42 schrieb:
das rote Licht blinkt.
Die Health-LED ("degraded")?
Dann würde ich erst mal nachsehen, was denn hier nicht stimmt. Lässt er sich noch einschalten/starten?
Gibt es ein iLO Webinterface? Dann hier nachsehen, ob mit Storage, DIMMs usw. alles ok ist, und ob's Meldungen im Integrated Mgmt Log anzeigt.
Wenn er sich starten lässt, kann man auch mit F10 oder über Boot-Stick (SPP) das Intelligent Provisioning aufrufen, und dort einen Diagnosetest mit Insight Diagnostics ausführen, sowie mit dem Smart Storage Administrator nach dem rechten sehen was Controller, logical Volumes und HDDs angeht.
Homer42 schrieb:
Wenn ich die 4 Platten des defekten Servers dort einbaue, bootet der aber leider nicht. Das BIOS ist hinsichtlich Boot richtig eingestellt, weil der Ersatzserver mit anderen Platten normal bootet.
Ähm - hast du denn da auch die selben Arrays/Volume angelegt? Stecken die Platten auch in den selben Bays?
Homer42 schrieb:
Die Platten sind alle OK.
Und wer oder was sagt dir das? :confused_alt: Dein Gefühl?
Wer kommt denn überhaupt darauf, in einem Server mit RAID-Controller nur eine einzelne HDD für's OS zu verwenden - wenn er wichtig ist!? ;)

Eigentlich könntest du auch in das Hardware Maintenance Manual reinsehen, da müsste das alles drin stehen. Bei HPE online sollte es ebenfalls Troubleshooting Guides oder ähnliches geben.
 
eYc schrieb:
Wer kommt denn überhaupt darauf, in einem Server mit RAID-Controller nur eine einzelne HDD für's OS zu verwenden - wenn er wichtig ist
Wenn es wichtig gewesen wäre, hätte man Backups die man jetzt einfach einspielen könnte oder direkt das Ganze so aufgesetzt, dass man unabhängig von einem einzelnen Server ist. Ein Raid ist nur ein winziger Baustein von vielen wenn es um Verfügbarkeit geht...
Jetzt kann man nur hoffen, dass der TE daraus für die Zukunft lernt.

Anyway: Wenn die Platten im baugleichen Ersatzserver nicht booten, dann sind diese nicht identisch (konfiguriert). Ein HP Microserver Gen8 hat ein iLO, also beide vergleichen inklusive Konfiguration des Storage-Controllers.
Die Health-LED kann mehr als einen Zustand andeuten: https://support.hpe.com/hpesc/public/docDisplay?docId=c05059378&docLocale=en_US
Genauere Infos sollte es im iLO geben. Wenn das auch nicht mehr erreichbar ist, würde ich aufs Netzteil tippen. Ein Schaden daran könnte im schlimmsten Fall auch die Platten mit in den Tod gerissen haben. Dann bleibt nur ein hoffentlich vorhandenes Backup.
 
Guten Morgen,
großen Dank für die vielen schnellen und ausführlichen Antworten.

Es gibt ein Backup (realtime über Syncthing zu einem HP Gen10 Server in meinem Büro im Fritzbox-Netzwerk-Verbund), aber nur der wichtigen Daten. Viele "unwichtige" Daten und die ganze Serverinstallation würde ich verlieren.

Die Server-LED vorne blinkt schnell rot: Power Fault
Man bekommt auf dem Monitor nichts mehr angezeigt. Der Server bootet überhaupt nicht. Man hört auch nichts, keinen Lüfter. Nach 2-3 x grünem Aufblinken des Einschaltknopfes wechselt der sofort zu orange.

Dass die Platten noch OK sind, ja, das sagt mir nur mein Bauchgefühl, ist nicht gesichert, ich wollte nur so vorgehen als ob.

eYc schrieb:
hast du denn da auch die selben Arrays/Volume angelegt? Stecken die Platten auch in den selben Bays?
Die 4 zu rettenden Platten stecken in denselben Bays wie früher beim kaputten Server. Arrays/Volumes habe ich nur über Windows angelegt (Windows-Software-RAID). Die Platten, die vorher in meinem noch funktionstüchtigen Ersatzserver drin waren, hatten aber andere Größen und andere Volumes und Arrays. Kann es daran liegen? Muss man die verschobenen Platten nur irgendwo im Bios initial "verankern"?

Zugriff über ilo des kaputten Servers zeigt die ilo-Anmeldeseite, aber mein user/pw funktionieren nicht (ok, da kann das Problem vor oder hinter dem Monitor sitzen, seit dem Aufsetzen vor Jahren war ich nicht mehr über ilo drin). ilo resetten geht nicht, weil der Server nicht startet. Also ich bin da gefangen. Ich hatte mal als ersten Reparaturgriff die Batterie vom Bios(?) entfernt, um sie auszutauschen.

Im tendiere jetzt in Richtung Server neu aufsetzen, es sei denn ein Kunstgriff im Bios ermöglicht mir doch noch das Booten. Dazu eine Frage:

Macht es Sinn den Server nur mit der Systemplatte neu aufzusetzen? Kann man dann vielleicht (sofort oder später?) die 3 RAID 5 Datenplatten dazu stecken und Windows erkennt den alten RAID-Verbund irgendwie? Oder sind auf der Systemplatte wichtige, nicht vom User selbst nachpflegbare RAID-Infos, ohne die man den Verbund nicht mehr starten kann? Hat da jemand noch Erfahrung oder einen guten Tipp?

Danke Euch!
 
Homer42 schrieb:
ilo resetten geht nicht, weil der Server nicht startet.
Default-Passwort probiert?
Auf dem Board müsste es einen iLO Security Switch geben, wenn der auf ON geschaltet ist, kann man sich auf dem iLO ohne User/PW anmelden. Das ist der erste von einer Reihe mit kleinen DIP-Switches, "System maintenance switch".
#6 ist der Schalter für's CMOS-Reset. Wenn der gesetzt ist, muss man den Server starten, warten bis er anzeigt dass man wieder abschalten kann. Dann den Switch wieder auf off (zum umschalten der Switches muss der Server immer stromlos sein!). Manchmal geht's dann wieder, wenn auch vielleicht nur einmalig.

Solange der Power Fault angezeigt wird, wird das aber vermutlich nicht funktionieren, aber man kann's trotzdem mal versuchen.
Ist es wirklich ein "Power Fault", ist das Netzteil defekt, oder das Systemboard, ein Kabel/Stecker, oder ein anderes Gerät zieht vielleicht durch 'Kurzschluss' die Spannung runter.

Schau bitte auch in's Handbuch!
 
  • Gefällt mir
Reaktionen: snaxilian
Homer42 schrieb:
Viele "unwichtige" Daten und die ganze Serverinstallation würde ich verlieren.
Glückwunsch, der erste Lerneffekt sollte jetzt eingesetzt haben: Dein "Backupkonzept" sowie Dokumentation ist also Müll.
Wenn ein Verlust der unwichtigen Daten blöd ist, dann sind diese keine unwichtigen Daten sondern hätten ins Backup gemusst.
Wenn die Installation dermaßen angepasst ist, hätten die Anpassungen dokumentiert und zusätzlich gesichert werden müssen.

Sorry wer meint er könnte Server betreiben hat entweder nicht verstanden welche Verantwortung damit einhergeht und ist schlicht und ergreifend damit überfordert. Das ist nicht schlimm denn das ist alles Wissen und Sachkenntnis, die man sich aneignen muss und eben aus Fehlern lernen sollte.

Homer42 schrieb:
Macht es Sinn den Server nur mit der Systemplatte neu aufzusetzen?
Sinn würde es machen wenn du weniger Vermutungen anstellst und wilde Versuche unternimmst sondern geordneter an die Sache heran gehen würdest.
Behebe die Probleme der Reihe und ggf. Priorität nach. Wenn der Server überhaupt nicht mehr angeht und Power Fault anzeigt, untersuche in dieser Richtung weiter. Zugriff iLO siehe die Tipps von @eYc.

Homer42 schrieb:
Die Platten, die vorher in meinem noch funktionstüchtigen Ersatzserver drin waren, hatten aber andere Größen und andere Volumes und Arrays. Kann es daran liegen? Muss man die verschobenen Platten nur irgendwo im Bios initial "verankern"?
Waren die Volumes und Arrays mit dem Hardware-Controller des Servers angelegt oder ebenfalls im OS?
Du musst beim Ersatzserver halt identische Voraussetzungen schaffen, also v.a. Einstellungen im BIOS und Storage-Controller usw.
Alternativ könntest du aus dem Ersatzserver das Netzteil ausbauen und in den defekten Server einbauen. Bringt dies keine Besserung weißt du immerhin, dass es nicht am Netzteil liegt.

Falls die angeblich unwichtigen Daten doch ggf. gerettet werden sollen: Von den HDDs im defekten Server würde ich jeweils 1:1 Images ziehen. Ja, das bedeutet Aufwand und ja vermutlich wirst du dafür jetzt eine oder ggf. mehrere größere HDDs anschaffen müssen. Das ist einfach die Konsequenz aus den vorherigen Entscheidungen. Die Alternative heißt sich einzugestehen, dass die unwichtigen Daten und die angepasste, undokumentierte und ungesicherte Installation wirklich unwichtig war und dann von vorne anzufangen. Neue Installation, Änderungen dokumentieren, Backups wieder einspielen, Backupkonzept überarbeiten und anpassen, dies zu dokumentieren und den Restore erfolgreich testen und dokumentieren.
 
  • Gefällt mir
Reaktionen: Ichthys und Questionmark
Danke Euch, snaxilian und eyc, der Zugriff über ilo klappt jetzt Dank des DIP-Switch #1. Im "Integrated Management Log" finde ich den Fehler:
"8"," Critical","Power","01/01/1970 00:01","06/17/2021 02:49","3","System Power Fault Detected (XR: 10 00 MID: FF F5 FE 01 FF FF FF 06 06 00 00 02 00 05 80 40 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00)",

Das Datum 1970 irritiert, ist vielleicht auch schon selbst ein Hinweis. Ich frage jetzt den HP Support, was das bedeutet.

Diagnostics --> ilo self test results is alles grün, bis auf die Warnung (gelb):
Embedded Flash/SD Card: The AHS File System Mount failed with (no such device)

Active Health System Log ist nicht aktiv, nicht aufrufbar und nicht aktivierbar.

System Information --> Summary steht bei Fans "not installed" (vielleicht nur, da power off, oder der ist kaputt).

Auf jeden Fall bin ich aber schon mit der Fehler-Adresse in der nächsten Runde...
 
1970? ist das unix startdatum.
klingt nach batterie kaputt, somit settings weg, und datum auch.
 
Das würde aber keinen "Critical Fault" zur Folge haben.
Resets versuchen, Geräte rausnehmen (falls PCIe-Controller oder ähnliches installiert sind), Kabel kontrollieren, Netzteil tauschen (evtl. zum Test), oder (wahrscheinlicher!) Systemboard tauschen wenn sonst alles ok ist.
 
DIP-Switch #6 probiert, aber bootet trotzdem nicht.
Netzteil ausgetauscht, leider gleiches Verhalten, kein Boot, rotes Licht.
Kabel kontrolliert, scheinen OK, hatte auch nie was an der Hardware verändert.
PCI - Steckplatz: da ist nichts drin
Also Systemboard? (Supportmeldung bei HP ist auch noch offen, aber das Forum ist verglichen mit dem hier ewig langsam und bei weitem nicht so auf den Punkt)
Was schätzt Ihr wie lange der Austausch dauert für jemanden, der sowas noch nie gemacht hat? Da muss man so ziemlich alles auseinander bauen, oder? (überlege, ob sich das lohnt)
Und ist da nicht auch das Bios drauf?
D.h. beim Austausch würden die BIOS-Settings drauf gehen. Und wenn ich - wie ihr oben schon festgestellt habt - fast nichts dokumentiert habe, wird es auch kein Selbstläufer sein, den Plattenverbund wie gehabt zu konfigurieren, vermute ich.
Zusätzliche Platten für ein Backup meines unzugänglichen RAID werde ich nicht anschaffen.
Ich hatte den RAID-Verbund unter Windows konfiguriert.
Wenn ich im Smart Storage Administrator alle Platten einzeln als RAID 0 einbinde, werden die dann dabei beschrieben, formatiert o.ä.?
Denn das ist dann mein letzter Versuch den Boot der alten Platten auf dem funktionierenden Server zu probieren.
 
Hallo! Der guten Sitte wegen will ich die Lösung posten.

Auch eine Supportanfrage bei HP brachte nur bedingt Klarheit in die Angelegenheit:

https://community.hpe.com/t5/ProLia...stem-Power-Fault-Detected/m-p/7148639#M175817

Mehr Zeit konnte ich nicht investieren und bin volles Risiko gegangen:

1. Habe alle Festplatten als RAID 0 eigebunden. Erhofftes Ergebnis ist eingetreten: Kein Überschreiben der Platten, Kein Datenverlust (wie sich später gezeigt hat). Diese Information hatte ich so lange sehnsüchtig gesucht.

2. Umstellen im Bios auf Legacy SATA. Das hat das Booten der alten Platten im neuen Server mit Bluescreens und schließlich im abgesicherten Modus ermöglicht.

3. Windows hat sich dann irgendwie selbst repariert.

Ende gut, alles gut, Danke nochmal allen Kommentatoren hier!
 
  • Gefällt mir
Reaktionen: Rickmer, Markchen und Ichthys
Danke für die Rückmeldung und gut, dass Du es lösen konntest! :-)
 
Homer42 schrieb:
Umstellen im Bios auf Legacy SATA.
Was meinst du damit? :confused_alt: Hat der alternativ AHCI und RAID für den SATA-Controller, oder SATA statt SAS?
UEFI-Modus gab es bei der Gen8 noch nicht, erst beim Nachfolger.
 
Zurück
Oben