Ryzen Server mit Debian stürzt aller 1-4 Wochen ab und find den Grund nicht.

Skaro

Lt. Commander
Registriert
Jan. 2015
Beiträge
1.118
Hallo,

wie schon im Titel zu lesen ist stürzt, seitdem ich mein Ryzen System im Sommer gekauft habe, es unregelmäßig aller 1-4 Wochen ab. Am Anfang dachte ich noch, dass das an dem alten Linux Kernel (4.9) lag, hab dann 4.11 und 4.12 selbst compiled und das hatte auch nichts geändert. Zu der Zeit war ich noch unter Debian 8 unterwegs, da ich OpenMediaVault benutzt habe.

Aktuell habe ich Debian 9 (mit 4.14er Kernel) und alle Programme die ich unter OpenMediaVault benutzt habe sind nun in Docker Container. (Plex, Samba, PlexPy, 1-2 Gameserver je nachdem was man grad spielt)

Hardware habe ich folgendes:
- Ryzen 7 1700
- ASUS Prime X370-Pro (hat 8 Lanes auf den 2. Slot und ECC Untersützung)
- Kingston ValueRAM DIMM 16GB, DDR4-2400, CL17-17-17-32, ECC
- Seasonic Prime Ultra Titanium 650W ATX 2.4 (Gekauft wegen 2x EPS)
- Eine RAID Karte die 2x SFF Anschlüsse hat die ich zur IBM HBA Karte geflasht habe (lief 1 Jahr mit Intel CPU perfekt)
- Gebrachtes Server Case mit SATA Backplate wo ich die SFF reingesteckt
- 6x8TB ZFS RAIDZ2

Software
- Debian 9 mit 4.14 Kernel
- ZFS (ZFS on Linux)


Wie schon oben geschrieben die Maschine hängt sich komplett auf. SSH geht nicht mehr, die Services gehen nicht mehr und vor ein paar Tagen hatte ich mal den Monitor angesteckt (lief 4 Tage durch bis es passiert ist) und dort war dann das Bild auch eingefroren. Auf den Monitor hatte ich mich eingeloggt und dann dmesg -wH laufen lassen aber zwischen der letzten Nachricht und wann es sich aufgehangen hat waren 6 Stunden also dadurch hatte ich auch nichts Neues erfahren.

In den Logs steht nichts. Also nichts in syslog und auch nichts im kern log. Ich habe auch so ein Crashlog Programm installiert, welches 128 MB in RAM Reserviert und das dann auf /var/crash/ schreibt aber dadurch dass es komplett eingefroren ist konnte er natürlich auch nichts schreiben und nach Hardreset ist der RAM auch geleert...


BIOS habe ich immer geupdatet, ich glaube ganze 6 mal. Ein BIOS Update hatte sogar ein Bug, den ich reportet habe und den hat Asus sogar schnell gefixt.

CPU habe ich ausgetauscht, direktes RMA durch AMD gemacht wegen der SegFault Sache von CPUs die vor der 25. KW hergestellt wurden sind.

RAM habe ich auch schon ausgetauscht durch Non ECC RAM. Hat auch nichts gebracht.


Wie ihr seht habe ich schon alles Probiert was mir eingefallen ist außer die HBA Karte mal raus gezogen (geht schlecht, da dort das ganze Raid dran hängt und 1 oder 2 Wochen will ich jetzt nicht ohne RAID warten...)

Also das letzte was ich tauschen könnte wäre also das Mainboard.


Oder kann ich sonst noch was machen?
 
Bei der Konsumerhardware ala Asus Board wundert mich das nicht, oft taugen die nicht für den Dauerbetrieb.
Hätte ein ähnliches Problem mit einem Asrock Board, erst der Austausch auf ein Serverboard (Supermicro) löste das Problem.
 
Fujiyama schrieb:
Bei der Konsumerhardware ala Asus Board wundert mich das nicht, oft taugen die nicht für den Dauerbetrieb.
Hätte ein ähnliches Problem mit einem Asrock Board, erst der Austausch auf ein Serverboard (Supermicro) löste das Problem.

Sicher, ich könnte mein AMD64 System, sowie Intel Systeme, mehrere Monate am Stück laufen lassen ohne irgendwelche Probleme. Wüsste jetzt nicht warum man ein Server Board bräuchte
 
mein system läuft auch schon seit januar 2014 durch
 
Naja ist oftmals schon viel Schrott was Asus ausliefert, mache wenn es geht auch nen großen Bogen um den Laden. Daher könnte ich mir gut vorstellen das es tatsächlich am Board liegt.
 
Hatte davor ein Intel G4400 mit ein 60€ Gigabyte Board, also wirklich das billigste vom billigsten, und das lief auch über 1 Jahr durch abgesehen von paar Restarts.

Wollte auch schon auf Epyc Switchen bzw das war der eigentliche Plan aber bis jetzt ist dort nichts verfügbar und für eine Intel Server CPU, die die ähnliche Leistung wie der Ryzen 1700 hat muss man ja schon im 4 Stelligen bereich Zahlen.


Ich werde erstmal ASUS anschreiben. Beim letzten Support Ticket war der Support schnell und sogar gut.

Sogar mein erstes ASUS Board was ich jemals gekauft habe nachdem ich 2x ASROCK, MSI, Gigabyte, nun das ASUS und ein neues ASROCK (1151) steht auch schon neben mir. :D
 
Kannst du das System über Linux ordentlich auslasten, bzw. mit Stresstests den Fehler reproduzieren?

Ich tippe auf die Spannungsversorgung.

Ggf. die (V-Core)RAM-Voltage minimal erhöhen, und testen.

Interessant wäre noch, wo du den Monitor angesteckt hast.
Ist eine Grafikkarte verbaut, wenn ja - welche?

Oder hast du die Karte nur testweise verbaut?
 
Also die Crashes passieren random also manchmal wirklich dann, wenn wirklich nichts passiert. Manchmal auch wenn die CPU etwas ausgelastet ist.

Wenn ich in Plex z.B. was 4k mäßiges Live Transkodiere dann ist die CPU für 100% ausgelastet bis der Buffer voll ist und dann idled die CPU auf 0% bis der Client den Buffer wieder neu auffüllen will. Also starkte CPU Lastschwankungen von 0 bis 100% und das aller 30 Sekunden und dort ist es noch nicht abgestürzt was aber eher daran liegt, dass ich nur vllt 20 Stunden im Monat 4k Content gucke.

Die Grafikkarte (GT 710) hatte ich nun extra vor 3 Wochen gekauft um den Monitor mal dran zu lassen. Davor hatte ich immer eine GTX 560 reingesteckt (BIOS Update, BIOS einstellen) und dann wieder raus gezogen.
 
Kannst du deine Festplatten auf Fehler überprüfen?

Wenn da dann alles ok ist, versuche die RAM-Timings ein wenig zu entschärfen, und die Spannung minimal zu erhöhen.

Ggf. das RAM mit Memtest testen.

/Edit

Gerade langjährige Boardies sollten doch mal von ihren pauschalitäten Abstand halten.

Ohne komplette Tests ist dieser Fehler nicht eingrenzbar, da zuviele Faktoren ein Problem darstellen könnten.
 
Zuletzt bearbeitet:
Fujiyama schrieb:
Konsumerhardware ala Asus Board wundert mich das nicht, oft taugen die nicht für den Dauerbetrieb.
Vollkommen banane. Insbesondere das Wörtchen "oft" macht unmissverständlich klar, dass es sich um reines Geschwafel handelt.

proud2b schrieb:
Ich tippe auf die Spannungsversorgung.
Das wäre auch mein Tipp, bzw. nächster Versuch.

An RAM-Timing/Spannung drehen wird es mMn eher nicht bringen, denn bei Problemen an dieser Stelle gäbe nur mit geringer Wahrscheinlichkeit immer gleich einen harten Crash sondern hin und wieder vorher andere, im Log sichtbare Fehler, z.B. abgeschossene Programme oder ECC-Fehler (falls das Board sie registrieren+aufzeichnen kann).

Ich vermute eher, beim Crash bleibt die CPU mangels genug Strom stehen. Das kann sowohl in Form von "Ich rechne ganz wild, brauche viel Strom, bekomme nicht genug, insb. möglicherweise nicht schnell genug" als auch in Form von "Ich idle rum, Spannung ist absichtlich abgesenkt, aber es ist zu wenig zum Überleben" passieren. Dann würde ein besseres (=nicht defektes) Netzteil helfen. Vielleicht vorher mal testweise das CPU-Powermanagement weitgehend deaktivieren (ich habe null Ahnung, was es da bei Ryzen konkret gibt), denn dadurch hat es das Netzteil einfacher, die CPU wunschgemäß zu versorgen.

Oder die CPU ist kaputt. Oder das Board. Kann man beides nicht ausschließen. Da hilft nur testweises austauschen.
 
Zuletzt bearbeitet:
Hallo zusammen,

was mir noch in den Sinn kommt, was man prüfen bzw. probieren könnte, ohne irgendwas zu tauschen:

Ist das Paket "Amd64-microcode" installiert?

Eventuell werden dadurch auch noch Prozessorprobleme behoben. Könnte man probieren, wenn nicht bereits installiert.

Gruß

Grag
 
mensch183 schrieb:
Oder die CPU ist kaputt. Oder das Board. Kann man beides nicht ausschließen. Da hilft nur testweises austauschen.

CPU wurde schon durch AMD ausgetauscht bezüglich des Seg Fault Problem. Das System war aber schon mit der alten CPU instabil. Das Netzteil kann ich ja mal mit mein Corsair tauschen, wenn ich den neuen PC zusammen bau. Die Stromsparmechanismen werde ich auch noch Testweise ausschalten. Da ich aber erst am Wochenende wieder zu Hause bin kann ich da erst entsprechend dann was machen


@Grag

amd64-microcode ist tatsächlich nicht installiert, habe ich nun mal gemacht. :)


Edit: Um das Thema abzuschließen falls das hier mal jemand liest. Das Mainboard hatte ich nun umgetauscht aber danach war es immer noch zu abgestürzt gekommen aber diesmal ging die Resettaste noch (also ein anderer Typ von Crash).

Ich hab dann im Bios die C-State Option deaktiviert und seitdem ist der Server nicht ein mal gecrasht! Läuft nun seit fast 2 Monate so. Leider zieht er durch die Deaktivierung der C-States um die 10 Watt mehr.
 
Zuletzt bearbeitet:
Skaro schrieb:
Ich hab dann im Bios die C-State Option deaktiviert und seitdem ist der Server nicht ein mal gecrasht!
Es gibt da ein bekanntes Problem mit Ryzen und C6
https://bugzilla.kernel.org/show_bug.cgi?id=196683

Meist hilft ein Kernel mit RCU_NOCB_CPU und rcu_nocbs=... Bootparameter. Das würde wohl auch mehr Strom sparen als C-States komplett abzuschalten.
 
  • Gefällt mir
Reaktionen: Skaro
Zurück
Oben