Zufällige Abstürze unabhängig von Auslastung - Grafikkarte (6800XT) schuld?

Ratlos83

Lt. Commander
Registriert
Aug. 2019
Beiträge
2.035
1. Nenne uns bitte deine aktuelle Hardware:
(Bitte tatsächlich hier auflisten und nicht auf Signatur verweisen, da diese von einigen nicht gesehen wird und Hardware sich ändert)
  • Prozessor (CPU): 3700X
  • Arbeitsspeicher (RAM): 32GB Crucial Ballistix 3200/CL16 (Micron E-Die) @3733/CL16 optimierte Timings
  • Mainboard: MSI X470 Gaming Plus Agesa Combo Pi 1.2.0.0
  • Netzteil: 600W Pure Power 11
  • Gehäuse: Define R6
  • Grafikkarte: 6800XT (Ref-Design von XFX) undervoltet und OC mit Referenz-PL; Adrenaline 21.4.1
  • HDD / SSD: Crucial P2 und mehrere SSD

2. Beschreibe dein Problem. Je genauer und besser du dein Problem beschreibst, desto besser kann dir geholfen werden(zusätzliche Bilder könnten z.b. hilfreich sein):
Ich habe völlig zufällige Abstürze (mal Gaming, meist bei der Büroarbeit - aber das ist halt auch der größte Teil der Zeit, wo der PC läuft - passiert meist einmal am Tag und der Rechner läuft sehr viel und ich kann meistens problemlos auch mal 2Stunden am Stück zocken), bei denen entweder das Bild einfriert und nur noch Kalt-Reboot hilft oder der Rechner selbst rebootet. Danach kommt immer die Fehlermeldung "Default Radeon Wattman Settings have been restored due to an unexpected system failure".

Die erste Frage wäre, ob das darauf hinweist, dass der Fehler bei der Grafikkarte zu suchen ist oder ob das nur heißt, dass der Reboot dazu führt, dass die Radeon-Software sich zurücksetzt, ohne dass der Fehler aber an der Grafikkarte gelegen haben muss.

Ich habe natürlich auch erst mein RAM-OC im Verdacht gehabt. Aber zum einen habe ich da nun noch mehrfach lange Karhu Memtest drüber laufen lassen (über 10.000%) und da gibt es keine Fehler, zum anderen kenne ich das übliche Verhalten bei instabilem RAM: Windows-Betrieb oder Office sind unproblematisch, erst wenn der RAM beim Gaming gefordert ist, gibt es Fehler und die äußern sich üblicherweise in einem CTD ohne Fehlermeldung, nicht in einem Freeze.


3. Welche Schritte hast du bereits unternommen/versucht, um das Problem zu lösen und was hat es gebracht?
Ich habe an anderer Stelle schonmal den Hinweis bekommen, ich glaube von @Tornavida , dass es ein komplettes Neuaufsetzen der Grafiktreiber gebraucht habe, um das Problem zu lösen inkl. temporärem Ausstellen von rBAR und allem möglichem anderen.

Ich habe jetzt auch für den 21.4.1-Treiber nochmal komplett mit DDU aus dem abgesicherten Modus neu aufgesetzt, aber leider besteht das Problem weiterhin.

Ich habe einen anderen Verdacht: Die Karte ist overclocked und undervoltet. Auch wenn das alles mit Benchmarks als stabil getestet ist, würde ich dort am ehesten das Problem vermuten - ohne zu wissen, wie ich es lösen soll, denn die Benchmarks (Timespy etc.) laufen ja durch, ich sehe nicht, wie ich damit die Stabilität in Bezug auf mein Problem testen kann. Ich habe auch das Gefühl, dass es besonders häufig relativ kurz nach einer Gaming-Session, also nach einer (fast) Vollauslastung passiert. Deshalb habe ich mich gefragt, ob da eventuell irgendwie die Spannungssprünge o.ä. nicht passen. Weiterhin habe ich ein extremes "Low-Power-Profil" für Pro Evolution Soccer (weil der Framelimiter da nicht funktioniert), auch damit ist es schon mehrfach abgeschmiert.

Oder vielleicht doch das Netzteil, das auch ohne Auslastung irgendwelche Spannungspeaks nicht verkraftet?

Ich hänge die beiden Profile mal an und freue mich über Input.

Normal.JPG

Low Energy.JPG

Ergänzung ()

Edit: Achso - ehe das jetzt als erster Vorschlag kommt: Ich habe die Grafikkarte auch schon einfach auf Default gesetzt und meine, dass dann der Fehler auch aufgetreten ist. Ich werde das aber jetzt noch einmal tun und Rückmeldung geben.
 
Verstehe deine verwunderung nicht.
Du betreibst OC und UV bei der GPU. Der Treiber meldet "regelmäßig" ein problem und du suchst woanders als bei der GPU?
Das ist als wenn dein Automotor an mangelnder schmierung verreckt und du anstatt das Ölproblem anzugehen den Gurtstraffer überprüftst.

Jede GPU ist anders. Eine lässt sich besser OC oder UV und eine andere eben schlechter. OC und UV ist immer Betrieb außerhalb der Spezifikation. Das kann gut gehen, muss aber nicht.
 
  • Gefällt mir
Reaktionen: Fuchiii und Viking69
Andy4 schrieb:
Lass den Ram mal wieder normal laufen und nicht bei @3733/CL16)
Gibt es Gründe für die Annahme, dass der Karhu Ramtest für die Feststellung der Stabilität nicht zuverlässig ist? Bin ja oben extra auf den Punkt eingegangen.
Ergänzung ()

Tulol schrieb:
Der Treiber meldet "regelmäßig" ein problem und du suchst woanders als bei der GPU?
Deshalb ja meine Frage, wie die Fehlermeldung richtig zu interpretieren ist, denn da steht nur was von einem allgemeinen "system failure". Ich meine mich erinnern zu können, dass der Radeon Treiber letztlich in die WinRegistry eingreift und vielleicht wird das ja zurückgesetzt, obwohl der Fehler ganz woanders liegt.
Ergänzung ()

Tulol schrieb:
Jede GPU ist anders. Eine lässt sich besser OC oder UV und eine andere eben schlechter. OC und UV ist immer Betrieb außerhalb der Spezifikation. Das kann gut gehen, muss aber nicht.
Ich mache das seit mittlerweile 3 AMD-Generationen und so ein Verhalten (Benchmarks und Gaming-Auslastung völlig stabil, dafür Abstürze in Office) habe ich noch nicht erlebt und macht für mich aus technischer Sicht erstmal auch keinen Sinn.

Dass es bei Office/Internet-Nutzung passiert, spricht nach meinem Verständnis auch sehr eindeutig gegen den RAM als Ursache, der ist ja nicht ansatzweise ausgelastet.
 
Zuletzt bearbeitet:
Wie du auch schon selbst festgestellt hast, wäre es am sinnvollsten, erst mal zu testen, ob die Fehler ohne OC/UV (natürlich das auch mal beim RAM rausnehmen) auch auftreten. Wenn nicht, liegt es wohl daran.
Ratlos83 schrieb:
Ich habe die Grafikkarte auch schon einfach auf Default gesetzt und meine, dass dann der Fehler auch aufgetreten ist. Ich werde das aber jetzt noch einmal tun und Rückmeldung geben.
 
wie ist die Stromverkabelung Netzteil<>6800XT ?
ein 600W PP11 könnte recht knapp sein bei einer 6800XT
Ist das Netzteil ein CM oder mit festen Kabeln ?
 
Tulol schrieb:
und du suchst woanders als bei der GPU?
Und das ist angesichts meiner obigen Ausführungen schon eine merkwürdige Unterstellung. Ich habe doch dargelegt, dass ich das Problem bei der GPU vermute und bin auf den RAM nur eingegangen, weil sonst die erste Empfehlung ist "RAM OC nicht stabil" (kann ich natürlich nicht ausschließen, aber meines Wissens sollte der Karhu-Test hierfür eigentlich die Gewähr sein).

Und ich kann meine Frage nur nochmal wiederholen:
Ratlos83 schrieb:
Die erste Frage wäre, ob das darauf hinweist, dass der Fehler bei der Grafikkarte zu suchen ist oder ob das nur heißt, dass der Reboot dazu führt, dass die Radeon-Software sich zurücksetzt, ohne dass der Fehler aber an der Grafikkarte gelegen haben muss.
Das würde mich nämlich aus technischer Sicht einfach interessieren und daran hängt ja auch die Frage ob man irgendwo im System oder nur bei der GPU ansetzen sollte.
Ergänzung ()

Denniss schrieb:
ein 600W PP11 könnte recht knapp sein bei einer 6800XT
Ist das Netzteil ein CM oder mit festen Kabeln ?
feste Kabel, hängt an zwei unterschiedlichen Strängen.

Und wenn es zu knapp wäre, müsste es dann nicht bei Vollauslastung ein Problem geben (vermutlich einfach einen Reboot ohne Freeze)? Das passiert definitiv nicht.
Ergänzung ()

Jetzt fällt mir noch was auf: Was ist denn eigentlich die Werkseinstellung - ich kann da "Voreinstellung/Automatisch/Manuell" auswählen. Wenn ich "zurücksetzen" wähle, nimmt er "automatisch", darunter gibt es noch mehrere Profile (Energiesenkung, Übertaktung....). Müsste es nicht "Voreinstellung" sein?
 
Zuletzt bearbeitet:
Ratlos83 schrieb:
meines Wissens sollte der Karhu-Test hierfür eigentlich die Gewähr sein
Den einen Test, der das mit 100% Sicherheit garantieren kann, gibt es leider nicht. Also teste eben auch mal ohne RAM-OC, wenn der Fehler dann verschwindet, weißt du, woran es liegt. RAM reagiert übrigens auf die Temperatur, wenn beim Gaming die Grafikkarte das Gehäuse aufheizt wird der wahrscheinlich deutlich wärmer als während Karhu.
 
Nochmal, das Problem tritt eher nicht bei Gaming auf und zu meinem Wissen zum Effekt instabilen RAMs habe ich ja schon was geschrieben. Aber OK , werde das im Hinterkopf behalten.
 
Wurde ja schon mehrfach vieles genannt, ich würde auch einfach mal alles auf Basis Specs setzen und so schauen.

Ich selber habe auch eine RX 6800XT (Sapphire Nitro+) mit Treiberversion 21.2.3 (hab keinen Grund gesehen upzugraden) und ich kann mich über Abstürze nicht beklagen.
 
Was spricht gegen den Versuch den RAM auf 3200er DOCP-Settings zu fahren und in Erfahrung zu bringen, ob hier das Problem zu suchen ist? Es kostet kein Geld und ist innerhalb weniger Handgriffe umgesetzt.

Im Anschluss und bei unverändertem Fehlerbild kannst du dich immernoch systematisch an die Optimierung der GPU setzen.
 
  • Gefällt mir
Reaktionen: amorosa
Ratlos83 schrieb:
kann ich natürlich nicht ausschließen, aber meines Wissens sollte der Karhu-Test hierfür eigentlich die Gewähr sein
Karhu ist ein guter Anhaltspunkt, aber ein paar Wochen Alltags-Betrieb gehören auch zum Stabilitätstest.
Fehler treten auch im Idle oder bei Lastwechseln auf.
 
  • Gefällt mir
Reaktionen: Ratlos83
Lass doch mal Hardwareinfo nebenher laufen und schau ob es dir Fehler ausgibt.
Ansonsten würde ich auf das Netzteil tippen. Das sich die Radeon Software zurücksetzt nach einem Systemabsturz ist normal und hat nichts mit der GPU zu tun.
 
  • Gefällt mir
Reaktionen: Ratlos83
Gebe ich dein Setup zum Beispiel in den Netzteil Kalkulator von be quiet ein komme ich bei 750w raus. Mutig es mit dem 600er am Limit laufen zu lassen. Hat mich persönlich schon ein totes Netzteil + vernichtetes Mainboard gekostet.
 
  • Gefällt mir
Reaktionen: Ratlos83
Die Netzteilrechner geben auch gerne mal etwas überdimensionierte Empfehlungen, um auf der sicheren Seite zu sein. Bei der Referenz RX 6800 XT kann man mit Lastspitzen von 400W rechnen, das sollte das Netzteil des TE noch gerade so schaffen. Außerdem deutet das Fehlerbild auch nicht auf das Netzteil hin, da sollte es dann unter Last zur Abschaltung kommen und das lässt sich auch einfach reproduzieren.
 
  • Gefällt mir
Reaktionen: Ratlos83
Danke erstmal an alle für die Hinweise, insbesondere an @Haenger für die Einschätzung zur Verlässlichkeit von Karhu und @Bruder_Joe für die Bestätigung meiner Vermutung, dass die Fehlermeldung nicht zwangsläufig mit der GPU zu tun haben muss.

Ansonsten sind die Empfehlungen (denn Antworten auf meine konkreten Fragen habe ich leider erst zuletzt bekommen) ehrlich gesagt ein bißchen wie erwartet. Mir ist auch klar, dass mein Problem mit dem OC/UV von RAM und GPU zusammenhängen kann. Aber die GPU lief die ersten Wochen mit diesem OC/UV problemlos (und tut es ja unter Belastung aktuell auch, abgesehen von den völlig zufälligen Abstürzen). Das RAM-OC ist halt nach meinem besten Wissen stabil, dass da durchschnittlich ein Absturz pro Tag rauskommt (meist im Idle) ist für mich erstmal nicht logisch, aber laut der Aussage von @Haenger wohl doch möglich.

Meine Wahrnehmung ist: Ich habe vor zwei Monaten ein neues BIOS geflasht um rBar nutzen zu können und gleichzeitig von 16 auf 32GB RAM geupgradet inkl. Kompletttausch der Module (Flare X auf Ballistix) und anschließendem händischen RAM-OC und Wiedereinstellen des GPU UV/OC. Seitdem, würde ich sagen, habe ich das Problem der gelegentlichen Abstürze. Insofern kann ich schwer differenzieren, welche dieser Änderungen evtl. schuld ist.

Ich finde leider den Thread nicht mehr wieder, wo ich schon vor einiger Zeit, ich meine von @Tornavida , den Hinweis auf eine mögliche Lösung bekommen habe. Aufgrund der Tatsache, dass er das gleiche Problem hatte und es bei ihm letztlich irgendwie mit dem Treiber zusammenhing (er war letztlich fünf Schritte zurückgegangen (kann mich erinnern, dass erstmal rBar deaktiviert wurde) und hatte gefühlt alles nochmal neu aufgesetzt), habe ich vermutet, dass bei mir das gleiche Problem der Grund sein könnte. Ich wollte aber erstmal nicht den aufwändigen Weg gehen. Vielleicht kann @Tornavida mal kurz Rückmeldung geben, ob ich mich richtig erinnere und was gegebenfalls sein Lösungsvorschlag war - finde die Unterhaltung, wie gesagt, nicht wieder.

Zu guter letzt möchte ich ungern einfach alles UV/OC rausnehmen, das ist ja auch Zeit und Arbeit und nach allen möglichen "synthetischen" Tests ja auch stabil und wenn ich es raus nehme und das Problem ist weg, was hat mir das dann geholfen? Weder weiß ich, welches der beiden (GPU/RAM) nun die Ursache war, noch sehe ich das als Lösung, denn was soll daraus folgen: Wieder bei Null anfangen oder OC einfach lassen?

Insofern werde ich jetzt erstmal die GPU auf Werkseinstellungen laufen lassen und, wenn es bei den Abstürzen bleibt, anschließend das RAM-OC rausnehmen.

Deshalb möchte ich nochmal fragen: Was ist denn eigentlich die Werkseinstellung - ich kann da "Voreinstellung/Automatisch/Manuell" auswählen. Wenn ich "zurücksetzen" im Treiber wähle, nimmt er "automatisch", darunter gibt es noch mehrere Profile (Energiesenkung, Übertaktung....). Müsste es nicht "Voreinstellung" sein?

Und zum Schluss noch an @Bruder_Joe : Das mit dem Netzteil ist mir wohl bewusst und so eine Sache, wie von Dir beschrieben, natürlich sau ärgerlich. Aber kann ich bei einem Pure Power nicht davon ausgehen, dass die vorhandenen Schutzmechanismen so etwas verhindern? Meine Vermutung wäre ehrlich gesagt, dass ein überfordertes Netzteil eben abschaltet und ich einen Reboot bekomme und zwar üblicherweise bei Vollauslastung und das ist, ich kann es nur noch einmal betonen, ja nicht mein Problem. Und ob dieser Kalkulator nicht einfach die Herstellerangaben von AMD (die ja 750W empfehlen) übernimmt, da wäre ich mir nicht so sicher. Hat ja @SJAFNWEIF grad auch im Prinzip gesagt.
 
Die Standardeinstellung ist Voreinstellung/Ausgewogen.
Bevor du alles OC/UV rausnimmst speichere es dir doch einfach als Profil im Bios, dann kannst du es später einfach wieder laden.
Ich habe bezüglich HWI halt die Erfahrung gemacht und das auch in einem Forum hier gelesen, dass ein so hoher IF nur augenscheinlich stabil läuft, jedoch im Hintergrund WHEA Fehler erzeugt, egal ob zum Beispiel der AIDA Cache/Ram Test ohne Fehler läuft. Ob das auch zu einem Absturz führt kann ich nicht sagen, deshalb würde ich das noch im Auge behalten.

Bezüglich des Netzteil Kalkulators, nein, die Effizienz eines Netzteils ist bei 80% am höchsten und nicht bei 100% und der Kalkulator gibt ja unterschiedliche Ergebnisse aus, wenn du die Anzahl der Festplatten oder so änderst, also das ist nicht steif nach der GPU ausgerichtet, da werden ja mehrere Sachen abgefragt, auch OC.

Ich habe auch ein 600W Netzteil aus dem alten Rechner übernommen, lief seit Februar stabil, aber bei mehreren Stunden Teillast AIDA Cache/Ram Stabi Test zum Beispiel bekomme ich einen Neustart, beim spielen nie! Bei dem Test liegt keine Vollast an, auch wenn da 100% bei der CPU steht, die Temperatur ist recht niedrig dabei..
Denke das NT ist auf dem Weg sich zu verabschieden oder schafft irgendwelche Peaks, die aber nicht unbedingt mit Volllast zu tun haben nicht, so wie du auch bei dir vermutest..
Mein neues NT kommt nächste Woche, dann schaue ich weiter.
 
Zuletzt bearbeitet:
Bruder_Joe schrieb:
WHEA Fehler erzeugt, egal ob zum Beispiel der AIDA Cache/Ram Test ohne Fehler läuft.
Betrifft meines Wissens nur Ryzen 5000 und ist da auch, glaube ich, über BIOS-Updates mittlerweile teilweise gelöst. Und bei mir läuft der IF von 3733 seit Jahren ohne Probleme, nur vorher eben mit anderen RAM-Modulen.
Ergänzung ()

OK, sehe, dass das theoretisch auch bei Ryzen 3000 ein Problem sein könnte, danke für den Hinweis.
Ergänzung ()

Das überprüfe ich mich HWInfo? Habe mich damit noch nie beschäftigt.
 
Zuletzt bearbeitet:
Zurück
Oben