Server restart nach 4-5 Minuten

Cool Master

Fleet Admiral
Registriert
Dez. 2005
Beiträge
39.632
Moin,

ich habe ein neuen VM Server gebaut mit folgenden Specs:

CPU: AMD Epyc 7401P
RAM: 8x Samsung RDIMM 8GB DDR4-2666, CL19-19-19, reg ECC (M393A1K43BB1-CTD)
Board: ASRock Rack EPYCD8-2T (neuste BIOS und BMC)
NIC: 2x Intel I350-T4 V2
Boot-SSD: 2x Samsung SSD 970 EVO Plus
Storage: 4x 870 Evo 1 TB
NT: Seasonic Prime PX-650 650W
GPU: Aktuell keine

Das Problem welches ich nun habe ist, dass nach ca. 4-5 Minuten das Teil sich einfach neu startet. Ich habs nun 5 mal mittels Uhr gemessen:

4:14 Min.
5:05 Min.
4:07 Min.
4:06 Min.
4:06 Min.

Ich konnte Proxmox ohne Probleme installieren, was wohl Glück war da ich sowohl im BIOS als auch im OS ein restart bekomme. Ich habe schon alles abgesteckt und bin mittels IPMI rein aber auch hier das gleiche Problem 4-5 Min. und Restart.

Habt ihr evtl. schon mal so ein Problem gehabt? Evtl. mit dem Board? Ich wüsste aktuell nicht mehr weiter.
 
Zuletzt bearbeitet: (NT Ergänzung)
Morgen,

und im IPMI kein Log verfügbar? Da keine Fehlermeldungen?
 
  • Gefällt mir
Reaktionen: JackForceOne
Blöde Frage, aber liegt der Prozessorkühler plan auf der CPU auf? - Ich hatte mal vor jahren das problem, dass bei mir der Kühler nicht plan auf der CPU auflag, und deshalb unter Last immer wieder sich neu gestartet hat, nach kurzer Zeit.
CPU Kühler neu drauf, und alles war gut. - Ansonsten gleicher Tipp wie immer: - Wenn mit dem Ding Geld verdient wird, nicht selber bauen, sondern über eine IT Firma deines Vertrauens bauen/konfigurierenn lassen, dann machen die nämlich auch den Support, wenns nicht läuft.
Jetzt kann das alles sein.
Netzteil
Ramriegel
Board....
 
  • Gefällt mir
Reaktionen: evilhunter und JackForceOne
Ist im BIOS Serial Console Redirection aktiviert? Wenn ja, mal testweise deaktivieren und schauen, ob es etwas an dem Verhalten ändert.
 
Wie schaut es mit den Temperaturen aus? Vielleicht ist es ein thermisches Problem, wegen eines Fehlers der Montage des Kühler.
 
Ich hätte drei mögliche Übeltäter, würde aber zuerst mal den ASRock-Support kontaktieren.
Die anderen Punkte:
  • Stromversorgung?
  • Temperatur / Kühlung?
  • RAM -> Mal nur einen reinmachen und prüfen, danach den nächsten etc.
 
evilhunter schrieb:
und im IPMI kein Log verfügbar? Da keine Fehlermeldungen?

Kein Eintrag drin. Zwei Events die drin sind:

Timestamp Clock Synch - Asserted

alex_k schrieb:
Blöde Frage, aber liegt der Prozessorkühler plan auf der CPU auf?

Ja, Temps sind nicht das Problem. CPU hat ca. 42°C.

Capet schrieb:
Ist im BIOS Serial Console Redirection aktiviert?

Nein, ist aus.

JackForceOne schrieb:
Wie schaut es mit den Temperaturen aus?

Sehen super aus, wie gesagt CPU 42°C.

leetxyz schrieb:
RAM -> Mal nur einen reinmachen und prüfen, danach den nächsten etc.

Das habe ich in der Tat noch nicht gemacht und werde ich gleich machen.

Ich mach aktuell mal ein BIOS Downgrade auf 1.5 von 2.6, da der 7401P seit dem ersten BIOS supportet wird. Evtl. liegt es an dem neuen BIOS mit dem das Board gekommen ist.
 
  • Gefällt mir
Reaktionen: evilhunter
Auch wenn der Ausreißer mit 5min nicht dazu passt:

Ist da ein Hardware Watchdog im BIOS aktiv?

Nicht dass dir das BIOS das System zyrücksetzt weil im System der Timer nicht zurückgesetzt wird!
 
Erstmal Willkommen im Forum :) Leider nein, auch der Watchdog ist deaktiviert.

BIOS Flash ist gleich fertig und ich werde in ~10-15 Min noch mal berichten.
 
Welches Netzteil ist da drin?
Evtl. einfach mal mit minimaler RAM-Riegel-Zahl laufen lassen.
Evtl. einfach mal mit minimaler SSD-Belegung laufen lassen.
 
Ah sorry, hatte ich vergessen es ist ein Seasonic Prime PX-650 650W.
Ergänzung ()

So System läuft aktuell seit 7:00 Min. und bis jetzt kein Restart.
 
Zuletzt bearbeitet:
Deine Speicherriegel stehen nicht auf der QVL oder?
Probier mal weniger Riegel.
 
@Tornhoof

Ne sind nicht auf der QVL, habe aber gute Erfahrung mit Samsung bei meinem Threadripper und 3800X.

Uptime ist nun bei 12:30 Min. und er läuft. Fahre nun gleich mal runter und baue die NICs wieder ein.

Aktuell ist nun BIOS 1.50 und BMC 02.20.00 drauf. Scheint wohl ein BIOS Bug zu sein. Ich werde AsRock Rack wohl mal eine Mail schreiben, dass das evtl. mal untersucht wird.
 
  • Gefällt mir
Reaktionen: Rickmer und evilhunter
So Update:

Server läuft nun 1a, konnte Proxmox installieren und ohne Restarts einrichten. Es lag wirklich am BIOS. Mit der 1.50 läuft das Ding wie eine Eins. So ein Problem hatte ich auch noch nicht. Übers Wochenende werden nun noch einige Stress-Test gemacht und er wird dann nächste Woche in Betrieb genommen. Damit kann der alte Ivy Bridge 3770 endlich in den wohlverdienten Ruhestand gehen.
 
  • Gefällt mir
Reaktionen: Tornhoof
Hast du zufällig einen Strommesser zur Hand und könntest kurz Auskunft geben, wie hoch bei dem System der Stromverbrauch im Idle ist?
 
@Rickmer

Ne sorry, leider nicht. Grob geschätzt würde ich aber sagen:

3x 120mm in der Mitte ca. 34,56 Watt (11,52 je Lüfter)
2x 80mm hinten (NF-A8): ca. 2 Watt
2x 92mm Kühler (NH-U9 TR4-SP3): ca. 2,4 Watt
CPU: ca. 50
SSDs: Nicht der Rede wert, sagen wir mal pro SSD 1 Watt = 6 Watt.
HDDs: keine

Ich würde jetzt mal grob sagen 100 Watt. Sagen wir mal, wenn man etwas konservativer ist 150 Watt.

Auf jeden Fall wird Performance / Watt DEUTLICH nach oben gehen.
 
Zurück
Oben