Error-Logs rund um die GPU und Freezes im Idle

Mickey Cohen

Commander
Registriert
Mai 2015
Beiträge
2.821
Hallo,

habe folgendes Problem: ab und zu friert mein bildschirm ein, ohne neustart. das passiert immer, wenn grad wenig bis keine last an der gpu anliegt. ich habe mehrere indizien, die gegen meine graka sprechen, aber für eine verurteilung reicht es noch nicht ;)

ich möchte einen möglichst genauen Error-Log unter Windows 10 erstellen, der natürlich noch lesbar ist, wenn ich die kiste hard resette.

der windows event-viewer zeigt mir unter umständen (s.u.) nix an.

gibts da programme? kann man über den amd-treiber was mitloggen lassen?

Zum System:
Windows 10 2020 H2
Sapphire Nitro Radeon RX 590 8GB 8G G5


Die ganze Geeschichte in Kurzfassung:

PC1 mit besagter Sapphire RX 590 stürzt so im Schnitt 2x die Woche ab, und zwar immer dann, wenn wenig last auf der GPU liegt (offener Browser, Libreoffice oder bloß Desktop im Idle).
Symptom: Bild friert ein, PC startet neu, Windows Event-Viewer Bugcheck-Code 278 => irgendwas mit der GPU

PC2 mit einer MSI R9 380 läuft problemlos.

Habe also die Sapphire RX 590 und die MSI R9 380 ausgetauscht. In PC1 läuft jetzt die MSI R9 380, in PC2 die Sapphire RX 590.

Seitdem lass ich zu "Diagnose"-zwecken die PCs eigentlich immer laufen. Sie laufen jetzt also viel länger, was die Absturzwahrscheinlichkeit mMn. deutlich erhöhen sollte.

1. Woche:
  • kein Fehler bei PC1
  • kein Fehler bei PC 2
2. Woche:
  • Wieder Absturz von PC1 (diesmal mit der MSI R9 380), selbes Fehlerbild: Bild friert ein, PC startet neu, Windows Event-Viewer Bugcheck-Code: 278 => irgendwas mit der GPU
  • Jetzt auch 2x Absturz von PC2 (mit der Sapphire RX 590), allerdings leicht anderes Fehlerbild: Bild friert zwar ein, aber kein Neustart. Windows-Event-Viewer spuckt keinen Bugcheck-Code aus.

Wollen die mich verarschen???

Meine einzige Erklärung ist, dass es am MoBo (zB. dessen PCIe-Slot) von PC1 liegt (das AsRock B450 Pro4) und die Abstürze von PC2 an der neuen maus liegen, die ich seitdem angeschlossen habe. hab sie jetzt mal abgesteckt und lass den PC einfach mal laufen, mal sehn...

Temperaturen sind OK. Übertaktet ist nichts. RAM wurde bei beiden PCs mit Memtest geprüft. Alle Stecker an den Grakas sind angeschlossen. Das Problem bei PC1 besteht seit einem halben Jahr. Mehrere Treiber wurden probiert.

PC1:
Ryzen 2700X, AsRock B450 Pro4, 32 GB Crucial BallistiX DDR4-3200 @ 2933, Corsair RMx 650W 2018, Samsung Evo 970 500 GB M.2 PCIe System-SSD, Windows 10 Pro 2020 H2.

PC2:
Ryzen 1600, Gygabyte AB350-Gaming, 16GB Crucial BallistiX DDR4-2666, BeQuiet PurePower L7 530W 2012, Samsung PM961 256 GB M.2 PCIe System-SSD, Windows 10 Pro x64 2020 H2.

Irgendwer noch ne Idee, wie ich den Fehler endlich festnageln kann?



Danke :)
 
Zuletzt bearbeitet:
Beide Boards mit aktuellem Bios? Windows mal frisch installiert?
 
  • Gefällt mir
Reaktionen: Mickey Cohen
sry, hab ich doch das wichtigste vergessen :mussweg:

wurde nachgeholt ;)
 
Habe meinen Post entsprechend verändert. Danke.

Um Softwarefehler auszuschließen, würde ich Windows auf beiden Systemen clean neu installieren und in dem Zuge sämtliche Treiber auf den aktuellsten Stand bringen - insbesondere für die GPU.

Wie verhält es sich denn mit den Temperaturen der GPU?
 
  • Gefällt mir
Reaktionen: Mickey Cohen
Ja, Windows wurde mal neu Installiert.

Das Problem von PC1 tritt auch unter Fedora Linux 32 auf, da friert das Bild dann auch ein und ich muss die Kiste hard resetten. Kenn mich da aber mit den Error-Logs noch weniger aus, deswegen kann ich da nicht sagen, obs wirklich an der GPU liegt.

UEFI-Versionen sind die jeweils neuesten für meine CPUs. es gibt neuere, allerdings raten die Hersteller jeweils davon ab, diese zu Flashen, wenn man keinen Ryzen 3000 auf den Boards betreiben möchte. Die changelogs von den UEFIs listen auch keine BUG-Fixes auf, die für mein Problem relevant werden könnten.

Ich würde mich gerne erst mal auf PC 1 konzentrieren, da da mMn. das Hauproblem liegt. PC2 läuft mit der MSI R9 380 ja anständig.

Es geht mMn. also eigentlich nur um die Komponenten Sapphire RX 590 und AsRock B450 Pro4.
Das Netzteil Corsair RMx 650W 2018) schließe ich mal aus: erstens ist es ein hochwertiges markennetzteil, das noch nicht so alt ist und 2. lief PC2 (bis ich die Teile von PC1 gekauft habe) mit dem Corsair auch problemlos.

Der RAM (32 GB Crucial DDR4-3200) läuft untertaktet und hat auch Memtest x86 im DOS Modus gut absolviert.

CPU-Defekt? unwahrscheinlich, da nicht übertaktet und CPUs erstens relativ selten defekt sind und zweitens, warum sollte sich das ausgerechnet IMMER in Bugcheck-Code 278 äußern? wäre eigentlich nur der fall, wenn der integrierte PCIe 3.0 Controller der CPU hinüber wäre, aber sowas hab ich auch noch nie gehört. Vor allem, warum nie unter last? einzige erklärung: im idle wird die pci-link-frequenz gesenkt und der controller kommt vll. mit den frequenzwechseln nicht klar, quasi ein wackelkontakt.

Kann natürlich auch sein, dass die Sapphire UND das AsRock einen weg haben...

wie gesagt, temps sind absolut OK, um die 40° GPU-Temp in den Szenarien, in denen PC1 abstürzt.

TAGELANG GTA V, Furmark, alles kein Problem. Aber wenn ich surfe oder arbeite sitze ich quasi auf dem schleudersitz, weil das ding jederzeit einfrieren kann...


oder liegt das an meiner erwartungshaltung? ist es normal, dass PCs so ca. ein-, zweimal die woche abstürzen?
 
Zuletzt bearbeitet:
CPU Defekt ist auszuschließen. Wenn eher ein Defekt der GPU(s) oder ein Probleme mit dem Ram. Du verwendest aber relativ "Problematische" Boards die qualitativ beide nicht das Gelbe vom Ei sind. Dazu unten mehr.

Schalte mal die XMP Profile aus und lass den Ram mal ohne das OC laufen und schaue was passiert. Warum hast DU den Ballistix nicht auf 3200 MHZ gesetzt? Das sollte selbst das weniger gute ASRock B450 Pro schaffen - wobei ASRock Boards generell zickig sind. Das Gigabyte AB350 Gaming hat generell so seine Probleme mit überhitzenden VRMs....das Board war generell problematisch. Bei PC 1 würde ich im ersten Step vermuten, dass hier der RAM respektive das Ram OC per XMP Profil Probleme macht.

Hast Du eine Chance beide Grafikkarten in einem dritten System zu testen um deren Defektfreiheit zu verifizieren? Wie alt sind denn die Netzteile?

Generell sollte ein PC 24/7 stabil laufen - ob mit Last oder ohne. Das ist aber, vor Allem mit dem qualitativ weniger guten Gigabyte Board - wegen eben der wirklich miesen VRM Kühlung - relativ schwer.
 
Zuletzt bearbeitet:
das BeQiuet Pure Power L7 530W ist 8 Jahre alt (2012 gekauft). Das Corsair RMx 650W ist 2 Jahre alt (2018) gekauft.

habe den RAM deswegen nicht auf 3200 gesetzt, weil der Controller vom Ryzen 2700X offiziell eben nur 2933 mitmacht. Aber ist eine gute idee, ich setz den jetzt mal runter und schau, was sich tut.

Dass die beiden Boards absolute Nulpen sind, hab ich mittlerweile leider auch rausgefunden :( xD

Die beiden PCs sind leider meine einzigen Desktops, die dafür zur Verfügung stehn.

Andere Frage: kann man ein Gigabyte B450 Aorus Pro nehmen? ist leider das einzige Ryzen 2000 kompatible board, das 1. keinen X570 chipsatz hat und 2. die PCIe-Lanes so aufgeteilt hat, dass beim EInsatz von 2 M.2 PCIe SSDs gleichzeitig (wie ich sie habe) nicht völlig beknackt andere lanes deaktiviert. (Asus kappt dann den ersten PCIe slot auf 8x, MSI deaktiviert fast alle PCIe x1 Slots, AsRock kommt mir nicht mehr ins Haus, das B450 Pro ist auch was andere sachen angeht ne absolute katastrophe)
es soll ja asus b550 boards geben, die inoffiziell ryzen 2000 unterstützen, aber ich will ein stabiles system.
 
Das Board macht aber 3200 MHZ mit. Daher immer das XMP Profil mit den Specs des Rams nutzen, sofern das Board das mitmacht. Bei B450 laufen 3200 MHZ eigentlich immer. Teils sogar, je nach Board, mehr. Ich würde hier aber die Probleme klar bei Problemen mit dem Ram OC sehen respektive mit den Boards selber. B350 hatte mit 3200 MHZ oft mit älteren UEFIs Probleme - die Specs der Boards haben dort aber 3200 MHZ auch als Maximum gesehen. Mein Strix B350-F schafft 3200 MHZ über XMP Profil ohne Probleme.

Ich würde das MSI B450 Tomahawk nehmen als aktuell bestes B450 Board am Markt. B550 kommt mit Deinen beiden CPUs leider nicht in Frage. Bei B450 hast Du aber generell Begrenzungen was die PCI-E Lanes angeht. Ist X470 da nicht die bessere Option? Ich würde aktuell generell eh nur MSI und Asus empfehlen - ab 100 Euro Plus auch gerne Gigabyte.

ASRock ist in der unteren Preisklasse oft, wegen Problemen mit dem UEFI, richtig problematisch. Ich denke, dass hier das Board zusammen mit dem Ram OC/XMP Profil eben Probleme macht. Daher schalte das XMP Profil mal auf 3200 MHZ in PC1 oder aus und schaue wies dann läuft.

Mein Fazit ist aber, dass Du zwei recht problematische Boards betreibst - wobei ich das Gigabyte, eben wegen der SEHR miserablen VRM-Lösung, als problematischer ansehe als das ASRock. Selbst PCGH hat vom AB350 von Gigabyte abgeraten. Und die empfehlen ja leider oft jeden Mist.

Das BeQUiet Netzteil würde ich aus Altersgründen austauschen. Das könnte mittlerweile einigen Lastwechseln nicht mehr Herr werden nach der langen Zeit. Du setzt ja zwei recht stromhungrige Karten ein.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Mickey Cohen
Stehen im Zuverlässigkeitsverlauf keine Fehler drin?
 
  • Gefällt mir
Reaktionen: Mickey Cohen
sry, aber was meinst du mit zuverlässigkeitsverlauf?
 
Zuverlässigkeitsverlauf:
So kommst du dahin:
Systemsteuerung → Alle Steuerungselemente → Sicherheit und Wartung → Wartung → Zuverlässigkeitsverlauf anzeigen

Bei mir sind ein paar Fehler drin ( rote Kreise mit X und gelbe Dreiecke mit Ausrufezeichen ) da ich Windows neu installiert habe ind noch nicht alles eingerichtet war.

1605467397655.png


Unter Technische Details stehen nähere Angaben über den Fehler. Diese Informationen kann man zu suche über google verwenden, da solche Fehler ja immer mal wieder auftauchen, gibt es sehr wahrscheinlich schon Lösungen. Bei meinem Beispiel habe ich ONE Drive komplett gelöscht und alles davon entfernt. Wiedas am besten funktioniert habe ich auch über Tante Google erfahren.

1605467690246.png
 
Zurück
Oben