Ryzen 7 und MSI B350M VDH-Pro: nach ein paar Stunden Total-Absturz

alex99988

Cadet 3rd Year
Registriert
Juli 2017
Beiträge
60
Hallo,

habe mir einen neuen PC zusammengestellt, der soweit problemlos startet und läuft. Allerdings stürzt er nach einigen Stunden Betrieb (kein Zocken, sondern headless-Server) ab:
  • Gehäuselüfter drehen
  • GraKa Lüfter dreht
  • EZ Debug LED leuchtet (CPU)
  • CPU Lüfter ist aus
Habe mir vom Verkäufer das neueste Bios aufspielen lassen (und wegen dem Problem auch schon per Jumper resettet), d.h. die CPU war schon montiert, habe nur den boxed-Lüfter drauf (hat Abstandshalter, kann nicht zu fest sein), 8-pin Connector ist angesteckt, Netzteil be quiet 500W. Der Rechner braucht im Betrieb < 100W. Die RAM-Riegel (2x16GB) stehen auf der Kompat-Liste von MSI.

Was kann ich tun, habe als Kleingewerbe bestellt, weiß jetzt nicht, ob ich das zurück schicken kann :mad:
Habt ihr noch Tipps?

Schöne Grüße,
Alex
 
Bei quiet, Neuware?
Speicher per memcheck getestet? mal ne Nacht laufen lassen?
Ich schätze Mal, dass der Speicher einen Weg hat.
Am besten diesem erstmal.nur mit 2133 Nhz ansteuern, wenn es dann immer noch nicht läuft, memcheck mit 2133 MhZ Ramtakt.
 
Danke für eure Antworten!

> Bei quiet, Neuware?
Ja, alles neu bis auf GraKa.

> Speicher per memcheck getestet?
Memtest läuft gerade, lasse ihn über Nacht laufen, bisher keine Fehler.

> Boxed Lüfter, wie warm wird die CPU nach einer Stunde Nutzung?
Danke für den Link, werde wohl oder übel mal Windows installieren, um das Tool laufen zu lassen (is ja eigentlich ne Linuxkiste ohne grafische Obfl.)

Ich sage dann Bescheid.

Schöne Grüße,
Alex
 
Also memtest v7.4 bringt nach einiger Zeit tatsächlich viele Fehler (> 8000 bei Test 3 auf CPU1, memtest lief die letzten zwei Tage).

- kann ein RAM Fehler die CPU Debug LED auf dem Mainboard zum leuchten bringen?
- ist memtest hier eigentlich zuverlässig? Habe irgendwo gelesen, dass memtest auch schon mal 100%ig defekte Riegel als nicht defekt getestet hat
 
Ok danke für Info.
Es ist nur so: memtest macht ja standardmäßig 4 Durchgänge. Die ersten zwei/drei Durchgänge sind z.B. fehlerlos. Beim vierten Durchgang hat jetzt der RAM laut memtest plötzlich Fehler. Daher meine Befürchtung, dass beim vierten Durchgang nicht der RAM Fehler hat, sondern die Kommunikation zw. CPU1 und RAM wegen eines CPU Problems "abreißt" und memtest nun den RAM für fehlerhaft hält.
Könnte das sein?
 
Man macht eben diese mehrere Durchgänge damit der Arbeitsspeicher stark ausgelastet wird und dann die Fehler unter Druck auftreten.
 
Tja ich dreh langsam durch... habe memtest86 noch 2x durchlaufen lassen, diesmal keine Fehler...
Habe jetzt extra noch schnell Win10 installiert und habe einen Stresstest (Prime95) laufen lassen: alle 8 Kerne seit über einer Stunde am Anschlag, Temperatur konstant bei 66°C, also keine Hitze Probleme. Eins ist mir aufgefallen: CPU Kern 0-3 laufen auf 3199MHz, die Kerne 4-7 nur auf 1549MHz. Ist das normal? Langsam weiß ich nicht mehr weiter, es scheint dann doch an Linux/Citrix Xenserver zu liegen...
 
Hi

das deutet darauf hin das die Spannungswandler deines Boards zu warm werden?
Wie gut ist den die entlüftung deines gehäuses, wenn du dauerlast fahren möchtest bitte für ausreichend entlüftung sorgen.
Es kann aber auch ein auslese fehler sein mit was hast du dir den die Frequenzen angeschaut?

lg
 
Zuletzt bearbeitet:
Tausch doch bitte erst mal deinen RAM aus und teste dann erneut, bevor Du jetzt irgendwas anderes probierst. Du hast ein konkretes Fehlerbild weigerst dich aber danach zu handeln ...
 
@Silver Server:
> Das gleiche gilt für den Zuverlässigkeitsverlauf?
Was ist das, wo finde ich das?



@mente:
> das deutet darauf hin das die Spannungswandler deines Boards zu warm werden?
kann man das auslesen?

> Wie gut ist den die entlüftung deines gehäuses, wenn du dauerlast fahren möchtest bitte für ausreichend entlüftung sorgen.
Gehäuse momentan offen, eigentlich keine Dauerlast, sondern ein Server der viel idled.

> Es kann aber auch ein auslese fehler sein mit was hast du dir den die Frequenzen angeschaut?
Welche Frequenzen meinst du? Habe nichts verändert/overclocked, möchte nicht das performateste System, sondern ein stabiles. Im Bios ist alles auf default, also "auto"



@Y-Chromosome:
> Tausch doch bitte erst mal deinen RAM aus und teste dann erneut, bevor Du jetzt irgendwas anderes probierst. Du hast ein konkretes Fehlerbild weigerst dich aber danach zu handeln ...
Das ist nicht so einfach: müsste den RAM ja einschicken mit RMA und trallalala, und der Distributor wird sich auch bedanken, wenn er den RAM testet und dann keinen Fehler feststellt. Möchte da schon sicher sein, weil sooo konkret finde ich das Fehlerbild nicht, da nach dem ersten memtest _alle_ anderen Tests (mehrmals memtest, tagelanger Stresstest unter Win10, Prime95 in versch. Modi...) keinen Absturz und keinen einzigen RAM Fehler gemeldet haben.

@Ned Flanders:
500 Watt be quiet! Pure Power 10 CM Modular 80+ Silver
2x Intel EXPI9301CTBLK PCIe x1 LAN Adapter
AMD Ryzen 7 1700 8x 3.00GHz So.AM4 BOX
MSI B350M PRO-VDH AMD B350 So.AM4 Dual Channel DDR4 mATX Retail
32GB (2x 16384MB) Corsair Vengeance LPX schwarz DDR4-2666 DIMM CL16-18-18-35 Dual Kit
2x 120x120x25mm be quiet! Pure Wings 2 1500 U/min 19 dB(A) schwarz

Dazu ne gebrauchte G100 Graka (brauche keine Grafik, nur console)

#############################################

Jetzt ist mir noch etwas aufgefallen, vlt. liegt hier der Hund begraben. Dazu nochmal den Verlauf dieser never ending story:
- Habe ursprünglich Xenserver 7.2 von Citrix im UEFI-Modus installiert. Alles gut soweit, hat mehrmals problemlos rebooted. Im Bios gab es dann eine Bootoption "UEFI: XenServer". Habe dann zwei Linux VMs und eine Windows VM importiert und alles ließ sich booten etc. Der Server und VMs sind gelaufen. Alles paletti, heimgefahren. Nach ein paar Stunden war der Server down. Wieder in die Arbeit, Gehäuselüfter laufen, CPU Lüfter tot, Mainboard zeigt CPU Debug LED. Ich dachte, ok Mist abgestürzt, möchte neu booten, er sagt "Missing OS", im Bios keine "UEFI: XenServer" Option mehr, nur noch "UEFI: UEFI HardDisk", ein Booten nicht möglich. Da dachte ich, dass der Absturz mir vlt. das OS zerschossen hat, warum auch immer. Xen 6.0, 6.2, und inzw. 7.2 läuft übrigens auf meiner anderen, 8 Jahre alten Hardware problemlos.

- also nochmal Xen von CD im UEFI Modus auf der gleichen Platte installiert, keine Probleme, wieder mehrmals gebootet. Wieder die VMs importiert, alles hochgefahren und gut wars. Paar Stunden später wieder tot, CPU Debug LED.
- nun habe ich angefangen mit mehrfachen memtest usw. Beim ersten Test eben die ganzen Fehler, alle weiteren Tests, wie oben beschrieben, alles ohne weitere Fehler/Abstürze.
- danach habe ich für Prime95 und CPU-Z usw. Win10 auf einer _anderen_ Platte installiert (Xen Platte war abgesteckt!), habe damit ohne ein einziges Problem nun tagelang Prime und Temperatur-Tools (war bei max. 68°C) laufen lassen und die Screenshots gemacht. Kein Absturz, nichts.
- so und nun habe ich die Xen-Platte wieder angesteckt und siehe da: "Missing OS", im Bios wieder keine "UEFI: XenServer" Option mehr, kein Booten möglich.

Heißt also irgendwie für mich: Platte in Sack, wobei ich da nicht sicher bin, sondern eher UEFI Problem mit Xenserver oder wie seht ihr das? Immerhin ist der Rechner jetzt tagelang unter Win10 im Stress ohne Probleme gelaufen, das was übrigbleibt ist "Missing OS"

Und es bleibt noch die Frage, warum dann das MB immer die CPU Fehler LED anzeigt, kann sowas von der Platte ausgelöst werden?


P.S.: es gibt seit ein paar Tagen ein neues Bios mit upgedatetem AGESA Code. Das hab' ich jetzt mal draufgeschoben, werde am Dienstag nochmal Xen installieren und schauen obs läuft. Könnte es ein Mainboard/UEFI Problem sein? Würde nämlich schon gerne die alte Platte benutzen (die ja bisher noch nie Probleme machte).

Schöne Grüße,
Alex


CPU-Z Screenshots:
cpu.PNG caches.PNG mb.PNG ram.PNG spd_slot_2.PNG spd_slot_4.PNG graka.PNG
 
Zuletzt bearbeitet:
Dein Prozessor ist übertaktet. Nimm die Übertaktung raus. lasse den Prozessor mit dem Normaltakt 3GHz laufen, dann wird der Fehler weg sein?!
 
Aber wer tut das? Ich habe wirklich nichts verändert, das sind die Bios Defaults , hier wird auch 3000MHz angezeigt:
bios.png
 
Auf Deinem ersten Bild mit der CPU sind knapp 3800Mhz zu sehen. Standard läuft Deine CPU mit 3000Mhz. und auf deinem neuen Bild ist, wenn man dies richtig erkennen kann Turbo Boost eingeschaltet. Steht auf Auto.
 
Du meinst "Core Performance Boost", genau da wo der Cursor steht :rolleyes:. Das hab ich jetzt mal disabled, CPU-Z zeigt nun brave 2998MHz an. Habe auch noch "AMD Cool'n'quiet" ausgeschaltet, da ich gerade gelesen habe, das manche Linuxe mit den ACPI Funktionen nicht klar kommen. Jetzt werd ich mal die VMs importieren, mal sehen obs dann läuft...

Fällt dir zufällig noch was zum dem "verschwindenden" OS im UEFI Modus ein?
 
Hi,

ok er ist jetzt mal ca. eine Woche ohne Absturz im Idle gelaufen - halleluja...
Ich habe ihn am Sonntag in Produktivbetrieb genommen, mal sehen, aber es schaut bisher gut aus :-)

Vielen, vielen Dank für eure Hilfe und Tipps, insbesondere an Silver Server für deine Unermüdlichkeit!

Schöne Grüße,
Alex

P.S.: das mit dem > "verschwindenden" OS im UEFI Modus < lass' ich jetzt mal gut sein, ich bin froh das er läuft und habe auch mehrmals gebootet. Sollte das OS wieder mal "verschwinden" ist es nicht so schlimm, da ich ja VM Backups habe.
 
Zurück
Oben