WHEA-Bluescreens - 3080 defekt?

7eNd

Lt. Commander
Registriert
Nov. 2007
Beiträge
1.425
Hallo Leute,

habe leider unter Last ein instabiles System. Ich vermute ein GPU-Problem, vielleicht könnt ihr mir das bestätigen/widerlegen?
Der PC steht zwar schon seit Dezember 2020 hier, aber da ich nur selten sehr aufwändige Spiele spiele, ist das wohl bisher untergangen.

1. Nenne uns bitte deine aktuelle Hardware:
(Bitte tatsächlich hier auflisten und nicht auf Signatur verweisen, da diese von einigen nicht gesehen wird und Hardware sich ändert)
  • Prozessor (CPU): AMD Ryzen 5800X
  • Arbeitsspeicher (RAM): G.Skill - Trident Z RGB 32GB DDR4-4000 (F4-4000C16D-32GTZR) betrieben auf 3600MHz
  • Mainboard: ASUS ROG X570-E Gaming (BIOS v3603 vom 19.03.21)
  • Netzteil: Corsair HX1000
  • Gehäuse: Fractal Design Define 7
  • Grafikkarte: Gigabyte RTX 3080 Vision OC
  • HDD / SSD: Samsung 970 EVO, Samsung 860 EVO
  • Weitere Hardware, die offensichtlich mit dem Problem zu tun hat(Monitormodell, Kühlung usw.):
    Samsung C49RG90 (5120x1440 100Hz), CPU wird zurzeit luftgekühlt (EKL Brocken 3)
    Für das Netzteil wurde vom Corsair-Onlineshop ein gesleevtes Cable-Kit gekauft - die GPU ist mit zwei 8pin-Einzelkabeln versorgt.

2. Beschreibe dein Problem. Je genauer und besser du dein Problem beschreibst, desto besser kann dir geholfen werden(zusätzliche Bilder könnten z.b. hilfreich sein):
Beim Ausführen von rechenaufwendigen Programmen regelmäßige BSODs. Kann 30 Minuten, aber auch nur ein paar Minuten dauern.
Es ist immer der WHEA - Uncorrectable Error, verursacht durch ntoskrnl.exe und PSHED.dll

Lange Zeit habe ich das Problem bei Zen 3 vermutet. Ist zwar noch nicht ganz ausgeschlossen, aber ich verdächtige mittlerweile immer mehr die RTX 3080.
Als ich den PC im Dezember 2020 frisch zusammengebaut habe, hatte ich das Problem auch schon. Schnell vermutete ich das Problem bei der CPU, denn wenn ich im BIOS die CPU-Spannungen ein wenig anhob (per Offset +0,15V) und den RAM auf 3600Mhz stellte, lief es gleich viel stabiler. Beispielsweise konnte ich stunden- und tagelang WoW spielen, aber auch mehrere Abende mit Assassins Creed Odyssey verbringen. Ganz selten gab es Bluescreens in AC, die konnte ich jedoch verschmerzen.

Da das Internet voller Threads war, die sich mit instabilen Ryzen 5000 befassten, beschloss ich also, auf neue, stabilere BIOS- und AGESA-Versionen zu warten. Da ich in den letzten Monaten nichts Anspruchsvolleres spielte als WoW, hatte sich mir das Problem seitdem nicht mehr gestellt. Gelegentliche, nicht allzu lange Far Cry 5-Sessions führten auch nur selten zu Bluescreens.

Gestern habe ich mir Resident Evil 8 geholt und schon nach 30 Minuten ereilte mich der erste BSOD.
ich beschloss daher, heute Nägel mit Köpfen zu machen.

3. Welche Schritte hast du bereits unternommen/versucht, um das Problem zu lösen und was hat es gebracht?

Ich habe mir das aktuellste (nicht BETA-)BIOS für mein Mainboard (3603) sowie Chipset- und Grafiktreiber (466.27) geladen. Habe sogar das Grafikkarten-BIOS geflasht und rBAR aktiviert. Ich habe alles auf Stock/Auto gestellt + XMP/C.O.P.D aus und den Resi 8 - Versuch gewagt.
Leider wieder nach ca. 10 Minuten der WHEA-Bluescreen, von der Intensität mit einem Jumpscare gleichzusetzen. ;)

  • Prime95 geladen.
Small FFTs (CPU-Stresstest): 30 Minuten, 0 Fehler.
In-place Large FFTs (RAM-Stresstest): 30 Minuten, 0 Fehler.
CPU-Temperaturen waren während der Tests bei ca. 70-80 Grad.

  • FurMark geladen.
5120x1440, 2xMSAA, Post-Effects on: 4 Minuten -> Bluescreen.
Die Grafikkartentemperatur war bei ca. 65-70 Grad.
-> kann ein Absturz in Furmark auch auf die CPU zurückführbar sein oder ist die GPU hier hauptverdächtig?

  • GIGABYTE Aorus Engine heruntergeladen (MSI Afterburner für Arme)
Grafikkarte heruntergetaktet. Power Target -60%, Memory -500Mhz, GPU -200Mhz
Erneuter Resi 8 Test: WHEA-Bluescreen nach 5 Minuten. Hier habe ich die VRAM-Temperatur gerade mit GPU-Z kontrolliert, war ca. bei 85 Grad.
Beim Neustart ist der Rechner noch vor dem Desktop wieder mit einem WHEA-Bluescreen abgeschmiert.

Habe ihn dann mal aus- und nach 5 Minuten wieder eingeschalten. Funzte wieder.
Ich bin jetzt hier seit einer Stunde ohne Abstürze am Recherchieren, das Problem tritt also offensichtlich nur unter hoher System-, bzw. GPU-Last auf.


Da gefühlt die Abstürze in immer kürzeren Abständen auftreten (in letzterem Falle sogar ohne Last, also direkt beim Booten), könnte ich mir ein Temperaturproblem vorstellen.
Bei der 3080 sind ja die VRAMs, welche auf der Rückseite der Platine sitzen, temperaturtechnisch ein Problemkind. Wobei bei meinem letzten Absturz diese laut GPU-Z nur auf etwa 85 Grad waren.

Nächstes Wochenende kommt ein Kollege mit seiner Gigabyte 3080 Gaming OC, deren VRAMs er zusätzlich noch mit Cooling Pads ausgestattet hat, zu mir und wir testen seine Karte mal in meinem Rechner (und umgekehrt, meine in seinem Rechner). Bis dahin wollte ich noch alles ausprobieren, was mir einfällt.
Wenn sich jedoch herausstellt, dass die 3080 vom Kollegen in meinem System stabil läuft, werde ich wohl das erste Mal mit dem Gigabyte-Support in Kontakt treten müssen.

--> Habt ihr aber evtl. noch Ideen, was ich bis dahin machen könnte, um den Fehler weiter einzugrenzen? Oder soll ich einfach ein Kreuz machen und direkt den Support kontaktieren?



Über Feedback, Kritik, Tipps, Vorschläge, freue ich mich.
Danke schonmal fürs Lesen und beste Grüße
Tend
 
Zuletzt bearbeitet:
@7eNd WHEA Fehler sind eher untypisch für Grafikkartenprobleme, da sich die Windows Hardware Error Architecture nicht sonderlich mit Grafikausgabe beschäftigt. Und das Internet ist nicht umsonst voll von Fehlern bezüglich Ryzen gewesen, bzw. ist es teilweise immer noch.

Die PSHED.DLL ist eine Systemerweiterung zum Behandeln von Hardwarefehlern. Ist nicht ungewöhnlich dass sie auftaucht. Schau mal wie niedrig du deinen RAM einstellen kannst, stell ihn so ein und schau ob die BSODs weiterhin auftauchen. Oder noch besser: Komplett BIOS/UEFI Defaults laden und nichts anpassen. Und dann damit testen.

Noch eine Sache die du machen kannst: Die Crashdumps in c:\windows\minidump zippen, hochladen und dann hier verlinken. Einige User hier können diese Dateien analysieren und dir anhand dieser Analyse weitere Hinweise zur Problemfindung geben.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: 7eNd, nr-Thunder und Nero1
@DocWindows Hallo und danke schonmal für die schnelle Korrektur meiner Gedankengänge :D Vielleicht verfolge ich mit der Grafikkarte ja wirklich den falschen Verdächtigen. Der FurMark-Absturz war für mich irgendwie sehr bezeichnend.

Ich werde das mit dem BIOS auf Default später probieren - habe direkt nach meinen Treiber- und BIOS-Updates alles erstmal auf Stock belassen, aber mittlerweile den RAM wieder auf 3600 hochgedreht - und auch einen Dump hochladen.

EDIT: Ich habe noch einen Ryzen 2700X herumliegen. Würde sich lohnen, den mal einzubauen und zu testen, oder?
EDIT2: Da sich der Thread sehr schnell von GPU-Problem zu CPU-Problem gewandelt hat, bitte ich um Verzeihung für die falsche Unterforum-Wahl 😅

Danke und beste Grüße
 
Ich tippe auf die RAM-settings bzw. die Spannungen. Bei mir waren die WHEA erst weg nachdem ich mit den Spannungen gearbeitet hatte. Checke mal CLDO VDDP, VDDG CCD und VDDG IOD, stehen die auf Auto? Ich denke die RAM-OC-community hier auf CB oder hier auf Discord kann da helfen.
 
  • Gefällt mir
Reaktionen: 7eNd
Also ich nutze eine 3080FE mit 0,8V/1800Mhz und unverändetem Powerlimit und VRAM.
Bei 0.775V/1750Mhz ist mir Cyberpunk immer wieder abgeschmiert, mit 0,8V/1800Mhz z.b. läuft es.
Temperatur ist die GPU immer unter 74°C und VRAM <90°C.

@7eNd Die 3080 hat keinen VRAM auf der Rückseite, nur die 3090 hat welchen. Da man aber zum Testen und Messen den Kühler dran haben muss, misst man die Temperatur mit einer Thermalkamera auf der Rückseite.
Bei der FE speziell gibt es einen Hotspot zwischen einem VRAM Chip und der Spannungsversorgung.

Aber laufen tut die Karte bis der VRAM 110°C erreicht, erst dann taktet die runter und kann auch zusammenbrechen. Bei der GPU taktet diese ab 83°C runter.

Als kleinter Tipp setze NICHT das Power Target bei den 3000er runter, das verträgt die Karte nicht gut und dadurch kommt es zu Instabilitäten und auch zum Crash.

Probier einfach mal im Afterburner 0,850V und 1900Mhz aus. Aber lasse die Finger von dem Powerlimit und VRAM. Stelle dazu die Kurve so ein das sie eine gerade Linie ab dem Punkt 0,850V/1900Mhz darstellt.
 
  • Gefällt mir
Reaktionen: 7eNd und Neubauten
Guten Abend,

ich habe mich noch ein bisschen mit dem Rechner beschäftigt. Danke für all euren Input!

Wie von @DocWindows vorgeschlagen, habe ich den RAM testweise noch weiter heruntergesetzt. Läuft jetzt erstmal auf 2933MHz CL22-21-21-49 (laut CPU-Z)

@der Unzensierte ja die CLDO VDDP, VDDG CCD und VDDG IOD stehen noch auf Auto. Werde mich die Tage mal durch den Thread und Discord lesen, finde das Ganze ohnehin sehr interessant. Zurzeit habe ich nur die SOC- und DRAM-Spannungen im BIOS angefasst/festgelegt.

@theGucky habe mal die Gigabyte Aorus Software deinstalliert und MSI Afterburner geladen. Ich habe die Kurve jetzt so eingestellt, wie von dir empfohlen (0,850V bei 1900MHz).

Nun zu meinem Experiment: Ich habe interessehalber (da ich ja Temperaturprobleme vermute) die Graka-Lüfter auf 100% laufen lassen und Furmark gestartet (2560x1440, 2xMSAA) und währenddessen die Temperaturen in GPU-Z beobachtet. Der GPU-Core stieg auf ca. 65 Grad und blieb da. Der VRAM stieg langsam bis auf 96 Grad an und verblieb dann auch da.
So lief der Furmark knappe 30 Minuten durch, bis ich ihn manuell beendete.

Habe Furmark abgedreht, die Graka-Lüfter wieder auf Automatisch und dem Rechner 10 Minuten Cooldown gegönnt. Dann habe ich Furmark wieder gestartet.
GPU-Core stieg innerhalb 2-3 Minuten auf ca. 80 Grad an, der VRAM kletterte auf 106 Grad. Als die Lüfter dann endlich richtig Gas gaben, stabilisierten sich die Werte nach ca. 4:30min auf 75 respektive 102 Grad. Kurz darauf: WHEA-Bluescreen.

Bin ich wirklich der Einzige, der es merkwürdig findet, dass der Furmark bei 100% Lüftung 25+ Minuten durchläuft und ohne nichtmal 5 Minuten?
Ich gehe jetzt mal mit 100% Lüftern Resi 8 spielen und berichte dann.
 
Naja meine 3080FE hat eine automatische Lüfterkurve bei der die Lüfter erst ab 60°C GPU Temp überhaupt angehen und dann ist die ganze Karte 60°C nicht nur die GPU.
Meine Custom Lüfterkurve fängt bei 1000RPM an, weil bei Custom Kurven kann man die Lüfter nicht ausstellen, und hört bei 70°C und 50-60% auf, was ca 1700RPM sind.

Deine Karte ist ja eigentlich größer als meine und müsste bessere Temperaturen haben.
Möglicherweise bekommt die aber nicht genug Frischluft von außen oder die Wärme wird nicht richtig weggeleitet. Ich selber habe ein Define R6 und daher weiß ich, das das Gehäuse eine schlechte Belüftung hat.
(Habe deshalb 4 Noctua Lüfter verbaut und deren RPM angehoben)
Versuche mal ohne seitliche Gehäusewand die Karte zu betreiben und schaue ob die Temperaturen besser werden.

Ich gehe bei dir echt davon aus, das der VRAM wenn der zu heiß wird abstürzt. Könnte an einer schlechte Verlötung liegen...dagegen machen kannste risikofrei eigentlich nix...
 
@theGucky Danke erneut für deine Infos!

Werde mich morgen mit der Lüfterkurve befassen. Ich habe ja normalerweise kein Problem damit, wenn die Temperaturen mal etwas höher sind. Bluescreens machen aber nicht ganz so viel Spaß 😁

Das mit der schlechten Verlötung bzw. generell einem VRAM-Problem mag ich nicht ausschließen, da es irgendwie ganz gut zu den Symptomen passen würde.
Die Seitenwand des Define 7 ist heute während all meiner Tests offen gewesen - den Luftstrom habe ich mit 4 Noctua NF-F12, geregelt durch das Mainboard, bereits ein wenig verbessert.

Offenbar ist die Gigabyte Vision 3080 ein Hitzkopf. Mein Kollege, der die VRAMs seiner 3080 mit Cooling Pads ausgestattet hat, meinte, die wären so unglücklich positioniert, dass die Lüfter es hier sehr schwer haben. Die Pads haben ihm aber 10-15 Grad kühlere VRAMs beschert. Ich habe jedenfalls entschieden, auch welche zu kaufen und zu verbauen.

Zu meiner nächtlichen Gaming-Session: es ist nicht Resi 8 geworden, sondern Cyberpunk. Um die Graka dafür ein wenig mehr zu belasten, habe ich DLSS deaktiviert und die Grafik ganz hoch gestellt. Da ein Stresstest wie FurMark eine konstante Maximallast für die Grafikkarte bedeutet, blieben die Temperaturen beim Zocken weit unter den Werten von FurMark. Der VRAM ging nicht über 100 Grad, auch nicht, als ich nach einer Stunde die Lüfter wieder auf Automatik stellte. So konnte ich jetzt etwa 2-2,5 Stunden problemlos zocken (0,850V auf der Graka, RAM auch noch auf 2933MHz)

Jedoch: beim Beenden von Cyberpunk kam er dann, der Bluescreen^^
Den zugehörigen Dump habe ich, wie von DocWindows vorgeschlagen, diesem Post beigefügt. Es würde mich freuen, wenn ein Wissender kurz drüberschauen und den Verdacht des Hardwareproblems bestätigen mag.

Gute Nacht
 

Anhänge

  • 050921-8062-01.zip
    470 KB · Aufrufe: 247
ntoskrnl.exe ist halt das Windowshirn und PSHED.dll ist sowas wie Hardwareüberwachung. PSHED zeigt also auf Hardwarefehler hin, aber sonst nichts genaueres.
WHEA_UNCORRECTABLE_ERROR sagt auch das es ein Hardwarefehler war.

Ist es Temperatur abhängig, kann man nur versuchen die Temperatur zu senken. Die GPU bleibt aber natürlich weiterhin defekt....
Oder die Karte einschicken an den Hersteller bzw Händler. Das derzeit locker einen Monat oder mehr dauern kann >_<.
 
Ich habe auch die GIGABYTE RTX 3080 VISION OC und habe keinerlei Probleme mit den VRAM Temperaturen ohne Pads. Was auch an dem Airflow in meinem Gehäuse liegen könnte. Es müssen bei dir nicht die VRAM Temperaturen sein, WHEA kann eigentlich alles sein, auch Netzteil.
 
Hallo Leute,

Kleines Update von mir!
Das Problem ist gelöst. TLDR: Es lag an der CPU.

Nachdem mein Kollege seine 3080 zu mir mitgenommen hat und die Bluescreens weiterhin auftraten, habe ich mir kurzerhand einen Ryzen 5900X besorgt und der läuft seit Anfang an wunderbar, ohne irgendwelche Probleme oder BIOS-Spannungs-Anpassungen. Auch die GPU-Lüfterkurven habe ich testweise mal auf Standard zurückgesetzt, damit alles auf Stock-Einstellungen läuft.

Habe heute den ganzen Tag gezockt. Mittags habe ich dann noch das D.O.C.P-Profil aktiviert, läuft bis jetzt ohne Probleme oder irgendeinen Absturz.

Werde nun ein RMA-Ticket bei AMD eröffnen, in der Hoffnung, dass er ausgetauscht wird, und den 5800X zwischenzeitlich in meinen Zweit-PC einbauen, um dort die Vortests von AMD durchzuführen.

@Skeye ich bin kurz nach Zusammenbau des Rechners tatsächlich auch vom Netzteil ausgegangen. Ich hatte ein 7 Jahre altes Corsair HX750i und vermutete, die Spannungsspitzen der 3080 würden das nicht mehr ganz so frische Netzteil in die Knie zwingen. Da das Problem nach dem Upgrade aber immer noch bestand, konnte ich dies aber erstmal ausschließen.

Danke für euer Feedback und die Lösungsvorschläge!
Besten Gruß
 
Zuletzt bearbeitet:
Zurück
Oben