Gigabyte 4090 Waterforce Extrem stirbt (wahrscheinlich)

Brimbamborum

Lt. Commander
Registriert
Feb. 2008
Beiträge
1.952
[Bitte fülle den folgenden Fragebogen unbedingt vollständig aus, damit andere Nutzer dir effizient helfen können. Danke! :)]

1. Nenne uns bitte deine aktuelle Hardware:
(Bitte tatsächlich hier auflisten und nicht auf Signatur verweisen, da diese von einigen nicht gesehen wird und Hardware sich ändert)
  • Prozessor (CPU): AMD 5800X3D
  • Arbeitsspeicher (RAM): 4x8GB Patriot 3733MHz
  • Mainboard: Gigabyte Aorus Master
  • Netzteil: FSP Hydro Ti PRO 1000W, PC-Netzteil
  • Gehäuse: Fractal Define 7XL
  • Grafikkarte: Gigabyte 4090 Waterforce Extrem
  • HDD / SSD: WD Black SN 850X
  • Weitere Hardware, die offensichtlich mit dem Problem zu tun hat (Monitormodell, Kühlung usw.): ...
  • Wird ein sog. "PCIe Riserkabel" genutzt? Nein

2. Beschreibe dein Problem. Je genauer und besser du dein Problem beschreibst, desto besser kann dir geholfen werden (zusätzliche Bilder könnten z. B. hilfreich sein):
Zuerst bleibt der Cursor stecken, dann bewegen sich auch Animationen nicht mehr, der Bildschirm wird schwarz. Nach ein paar Sekunden stoppt auch Audioausgabe wie Foobar2000. In der Zeit schreibt Windows das Mini-Dump. Dann rebootet das System automatisch.

Es waren bis jetzt immer Teil- oder Niedriglastszenarien. Also browsen mit Firefox oder eben ein einfaches Fullscreen 2D Spiel. Zuerst aufgetreten ist es einmal vor ca. zwei Monaten und gestern zweimal. Heute bereits viermal.

Ich hatte vor ca. 12 Monaten das Problem mit dem Stromstecker im Idle, bei dem das System auch schwarz wurde, aber alle Lüfter auf Volllast gingen. Häufiges Problem, das ich mit dem Tausch des Netzteils von Enermax + nVidia-Adapter auf FSP lösen konnte. Der Fehler jetzt ist deutlich anders.

3. Welche Schritte hast du bereits unternommen/versucht, um das Problem zu lösen und was hat es gebracht?
Da es zuerst immer mit dem FF aufgetreten ist, habe ich eine ältere FF-Version genommen, das half nicht. Dann schmierte der Rechner mit einem zwar geöffnetem FF ab, der aber nur verkleinert im Hintergrund lief. Und dann ganz ohne FF mit einem Casual Weihnachts 2D Spiel (Kinder zu Besuch). Treiber war zuerst ein knapp drei Monate alter 585.xy(?), den ich eben noch vor dem letzten Absturz auf den 591.59 aktualisiert habe. Alle Treiber sollten soweit ich weiß aktuell sein. Ebenso Windows. Umgebaut habe ich nichts an dem Rechner seit dem Tausch des Netzteils.

Da der Rechner nicht auf Last lief, glaube ich nicht an ein Wärmeproblem. Das wäre aber noch das Beste, da ich mit Tausch von Paste oder Pads etwas machen könnte. OC ist momentan nichts außer dem RAM, der mit XMP läuft.

Wie würdet ihr es weiter analysieren? Ich werde erst einmal die Stromsparmechanismen von Windows abschalten.

GPU-Z 251222 1315.gif
HWInfo 20251222 1320.png

Auswertung Mini Dump mit WinDBG zeigt deutlich auf ein Problem der Grafikkarte:
VIDEO_TDR_FAILURE (116)
Attempt to reset the display driver and recover from timeout failed.
Arguments:
Arg1: ffffc981c1a0f1d0, Optional pointer to internal TDR recovery context (TDR_RECOVERY_CONTEXT).
Arg2: fffff80321a0d140, The pointer into responsible device driver module (e.g. owner tag).
Arg3: ffffffffc000009a, Optional error code (NTSTATUS) of the last failed operation.
Arg4: 0000000000000004, Optional internal context dependent data.

Debugging Details:
------------------

Unable to load image nvlddmkm.sys, Win32 error 0n2
*** WARNING: Unable to verify timestamp for nvlddmkm.sys

KEY_VALUES_STRING: 1

Key : Analysis.CPU.mSec
Value: 1640

Key : Analysis.Elapsed.mSec
Value: 3888

Key : Analysis.IO.Other.Mb
Value: 0

Key : Analysis.IO.Read.Mb
Value: 1

Key : Analysis.IO.Write.Mb
Value: 0

Key : Analysis.Init.CPU.mSec
Value: 515

Key : Analysis.Init.Elapsed.mSec
Value: 19321

Key : Analysis.Memory.CommitPeak.Mb
Value: 99

Key : Analysis.Version.DbgEng
Value: 10.0.29482.1003

Key : Analysis.Version.Description
Value: 10.2509.29.03 amd64fre

Key : Analysis.Version.Ext
Value: 1.2509.29.3

Key : Bugcheck.Code.LegacyAPI
Value: 0x116

Key : Bugcheck.Code.TargetModel
Value: 0x116

Key : Dump.Attributes.AsUlong
Value: 0x21008

Key : Dump.Attributes.DiagDataWrittenToHeader
Value: 1

Key : Dump.Attributes.ErrorCode
Value: 0x0

Key : Dump.Attributes.KernelGeneratedTriageDump
Value: 1

Key : Dump.Attributes.LastLine
Value: Dump completed successfully.

Key : Dump.Attributes.ProgressPercentage
Value: 0

Key : Failure.Bucket
Value: 0x116_IMAGE_nvlddmkm.sys

Key : Failure.Exception.IP.Address
Value: 0xfffff80321a0d140

Key : Failure.Exception.IP.Module
Value: nvlddmkm

Key : Failure.Exception.IP.Offset
Value: 0x19ad140

Key : Failure.Hash
Value: {c89bfe8c-ed39-f658-ef27-f2898997fdbd}

Key : Faulting.IP.Type
Value: Paged

Key : WER.System.BIOSRevision
Value: 5.17.0.0


BUGCHECK_CODE: 116

BUGCHECK_P1: ffffc981c1a0f1d0

BUGCHECK_P2: fffff80321a0d140

BUGCHECK_P3: ffffffffc000009a

BUGCHECK_P4: 4

FILE_IN_CAB: 122225-8718-02.dmp

DUMP_FILE_ATTRIBUTES: 0x21008
Kernel Generated Triage Dump

FAULTING_THREAD: ffffc981b7cfa040

VIDEO_TDR_CONTEXT: dt dxgkrnl!_TDR_RECOVERY_CONTEXT ffffc981c1a0f1d0
Symbol dxgkrnl!_TDR_RECOVERY_CONTEXT not found.

PROCESS_OBJECT: 0000000000000004

BLACKBOXBSD: 1 (!blackboxbsd)


BLACKBOXNTFS: 1 (!blackboxntfs)


BLACKBOXPNP: 1 (!blackboxpnp)


BLACKBOXWINLOGON: 1 (!blackboxwinlogon)


CUSTOMER_CRASH_COUNT: 2

PROCESS_NAME: System

IP_IN_PAGED_CODE:
nvlddmkm+19ad140
fffff803`21a0d140 488b05393881ff mov rax,qword ptr [nvlddmkm+0x11c0980 (fffff803`21220980)]

STACK_TEXT:
ffffc704`46ca7888 fffff803`077f6d7d : 00000000`00000116 ffffc981`c1a0f1d0 fffff803`21a0d140 ffffffff`c000009a : nt!KeBugCheckEx
ffffc704`46ca7890 fffff803`07a697c6 : fffff803`21a0d140 ffffc981`b63d0010 00000000`00000004 ffffc981`c1a0f1d0 : dxgkrnl!TdrBugcheckOnTimeout+0x101
ffffc704`46ca78d0 fffff803`07805ac6 : 00000000`00000000 00000000`00002000 00000000`00000004 00000000`00000004 : dxgkrnl!ADAPTER_RENDER::Reset+0x232
ffffc704`46ca7900 fffff803`0783e645 : ffffc981`00000100 00000000`00000000 ffffc704`00000000 00000000`00000000 : dxgkrnl!DXGADAPTER::Reset+0x59a
ffffc704`46ca7990 fffff803`0783e7a2 : ffffc981`a3acb260 ffffc981`9c6bcea0 00000000`00000000 ffffc981`a2b26200 : dxgkrnl!TdrResetFromTimeout+0x15
ffffc704`46ca79c0 fffff803`75b4453b : ffffc981`b7cfa040 ffffc981`9c720bf0 fffff803`76241b00 ffffc981`9c720bf0 : dxgkrnl!TdrResetFromTimeoutWorkItem+0x22
ffffc704`46ca7a00 fffff803`75c8b77a : ffffc981`b7cfa040 ffffc981`b7cfa040 fffff803`75b44080 ffffc981`9c720bf0 : nt!ExpWorkerThread+0x4bb
ffffc704`46ca7bb0 fffff803`75ea31b4 : ffffa200`969c1180 ffffc981`b7cfa040 fffff803`75c8b720 00680074`00200066 : nt!PspSystemThreadStartup+0x5a
ffffc704`46ca7c00 00000000`00000000 : ffffc704`46ca8000 ffffc704`46ca1000 00000000`00000000 00000000`00000000 : nt!KiStartSystemThread+0x34


SYMBOL_NAME: nvlddmkm+19ad140

MODULE_NAME: nvlddmkm

IMAGE_NAME: nvlddmkm.sys

STACK_COMMAND: .process /r /p 0xffffc9819c6ed040; .thread 0xffffc981b7cfa040 ; kb

FAILURE_BUCKET_ID: 0x116_IMAGE_nvlddmkm.sys

OSPLATFORM_TYPE: x64

OSNAME: Windows 10

FAILURE_ID_HASH: {c89bfe8c-ed39-f658-ef27-f2898997fdbd}

Followup: MachineOwner
---------
 
Brimbamborum schrieb:
Da es zuerst immer mit dem FF aufgetreten ist, habe ich eine ältere FF-Version genommen, das half nicht.
Hardwarebeschleunigung im Browser deaktivieren.

Ansonsten auch mal folgendes versuchen:
  • BIOS Update
  • GPU heruntertakten
  • Notfalls GPU auf Maximale Leistung im Nvidia Treiber setzen (verbraucht mehr Strom im Idle!)
(habe auch mit TDRs zu tun die damals nur im Browser auftraten -> ohne Hardwarebeschleunigung kein Problem mehr -> siehe hier)

Edit: Teste erstmal den RAM vorab (wie in den anderen Kommentaren erwähnt), bevor du von einer GPU-Instabilität ausgehst.
 
Zuletzt bearbeitet:
XMP mal abschalten. 3733Mhz ist ja nicht ohne bei 4 RAM Modulen.
 
  • Gefällt mir
Reaktionen: Europa, dualcore_nooby, spfccmtftt89 und 2 andere
Ich würde in folgender Reihenfolge:
  1. Memtest für die RAM + VRAM
  2. Load-Test (Thermisch) für CPU / GPU und mal schauen was Hotspot und VRM und Memory-Temps machen, nicht nur stabilität sondern auch schauen ob man im verschleißbereich ist
  3. IO-Stabilität prüfen, nicht dass das Mainboard n Schuss hat
  4. Netzteil ausschließen
 
hast du die graka schon ausgetauscht? oder warum ist im screenshot eine ganz andere 4090 gelistet?

-andy-
 
  • Gefällt mir
Reaktionen: JumpingCat, Clark79 und MadDog
Tjoar - hättest nich einfach ein HOF OC Labs BIOS drauf gespielt, wäre das vielleicht anders.

Oder liegts am viel zu hohen Ramtakt von 3733 mit Vollbestückung beim 5800X3D.

Soviele offene Fragen...
 
Vollbestückung 3733 Mt beim 5800x3D das läuft doch sicher nur in Gear 2 mal Screenshot von CpuZ Memory Tab posten Bitte.
 
Würde mich auch nicht direkt auf die Grafikkarte konzentrieren und auch einen instabilen System ausschließen wollen. Daher sehe ich die Tests mit dem Arbeitsspeicher richtig und auch mal das System mit Linux auszutesten. Statt Linux könnte man auch Windows auf einer anderen SSD installieren, um einfach auch ein Software- bzw. Treiber Problem ausschließen zu können.

In solch einem Fall habe ich ehe Backups vom System erstellt und dann mache ich einfach Windows platt. Nach dem Test lässt sich mein Windows aus dem Backup wiederherstellen.
 
  • Gefällt mir
Reaktionen: Azghul0815
Ich würde auch erstmal den RAM anvisieren.
Ansonsten, wer den RAM so hoch pusht, der optimiert vermutlich auch bei der Grafikkarte. Hier irgendwelches UV/OC aktiv? Bei der CPU ebenso? Es ist halt tatsächlich so, dass sich Instabilitäten beim Undervolten gerne und vor allem in Teil- bzw. Niedriglastsequenzen zeigen, weil man hier viel häufiger ein Umschalten zwischen quasi keiner Last und viel Last hat.
 
  • Gefällt mir
Reaktionen: LiniXXus
Das sehe ich auch wie @kachiri, da auch OC bzw. UV sich verschlechtern kann.

Es gibt hierzu auch eine Elektromigration, wo gewisse Spannungen irgendwann nicht mehr ganz ausreichen und das System instabil werden kann. Insbesondere, wenn das System von Anfang an nie 100 % stabil gewesen ist. Deshalb ist es wichtig, mit solch einem Problem alles, was mit OC oder UV zu tun hat, herauszunehmen.

Arbeitsspeicher gehören hier auch mit dazu.
Weil hiermit der Controller auf der CPU mit übertaktet wird.
 
Im Mainboard-Bios evtl. mal "PSU Idle Control" und/oder "Dummy Load" aktivieren.
 
Wo bin ich hier schrieb:
Hardwarebeschleunigung im Browser deaktivieren.

Ansonsten auch mal folgendes versuchen:
  • BIOS Update
  • GPU heruntertakten
  • Notfalls GPU auf Maximale Leistung im Nvidia Treiber setzen (verbraucht mehr Strom im Idle!)
(habe auch mit TDRs zu tun die damals nur im Browser auftraten -> ohne Hardwarebeschleunigung kein Problem mehr -> siehe hier)

Edit: Teste erstmal den RAM vorab (wie in den anderen Kommentaren erwähnt), bevor du von einer GPU-Instabilität ausgehst.
Was meines Erachtens gegen RAM spricht, dass das System noch einige Zeit weiterläuft. Wenn ich RAM optimiere und die Timings anziehe (was bei dem System problemlos ging, als ich es am Anfang ausgetestet habe), dann steht der Rechner auf einen Schlag und man kommt nur mit Hard Reset wieder raus.
AndyMutz schrieb:
hast du die graka schon ausgetauscht? oder warum ist im screenshot eine ganz andere 4090 gelistet?

-andy-
Keine Ahnung, warum das da steht. Es ist das BIOS drauf, was damals mitgeliefert wurde. Ich habe gerade mit nvFlash das BIOS gezogen und es mit dem BIOS der Waterforce von der GPU-Z Datenbank verglichen und sie sind nicht gleich. Leider gibt es dort kein BIOS der Galax. Wenn man sich die Specs ansieht, dann ist der Boosttakt der Galax +4%, der Waterforce +2%. Auch CPU-Z zeigt Galaxy an. Merkwürdig.

Momentan läuft das System mit der einzigen Änderung stabil, das Energiestatus auf "Beste Leistung" steht. Ich warte etwas ab, setze es dann zurück und probiere einige der andere Sachen aus.
Luftgucker schrieb:
XMP mal abschalten. 3733Mhz ist ja nicht ohne bei 4 RAM Modulen.
3866 mag das System nicht, aber an den Timings kann ich noch ordentlich drehen, wenn ich im Benchmarkmodus bin. Die 3733 waren immer komplett stabil, mit 3DMark Stresstest und Co. getestet. Alterung ist natürlich möglich.
Weasel0815 schrieb:
Vollbestückung 3733 Mt beim 5800x3D das läuft doch sicher nur in Gear 2 mal Screenshot von CpuZ Memory Tab posten Bitte.
CPU-Z 251222 1727.png
 
Im Lastwechsel entstehen bestimmte Lastspitzen und auch die Spannung driftet, sobald Last anliegt, stark ab. Mit OC und UV kommen hierzu deshalb bestimmte LLC Stufen dazu, was dieses Driften etwas abfangen soll. Im Lastwechsel wird sich daher eher eine Instabilität zeigen, als mit einer hohen dauerhaften Last. Aus diesem Grund kann auch eine Instabilität sich erst mit dem normal Betrieb zeigen und nicht zwingend mit einem Stresstest. Denn mit einem Stresstest liegt eine dauerhafte, hohe Last an.

Das bezieht sich auch mit auf die Arbeitsspeicher und dem Controller auf der CPU.
Arbeitsspeicher werden auch mit bestimmten hohen Temperaturen instabil.
 
  • Gefällt mir
Reaktionen: JumpingCat
Brimbamborum schrieb:
Was meines Erachtens gegen RAM spricht, dass das System noch einige Zeit weiterläuft.

Wenn du ein stabiles System willst, dann drehe alle mit OC und UV zurück.

Brimbamborum schrieb:
Die 3733 waren immer komplett stabil, mit 3DMark Stresstest und Co. getestet.

Wie kannst du das sicherstellen? Hast du alle möglichen Kombinationen an Daten über die Busse dabei geteset oder nur die gleichen Muster? Ein Stresstesst deckt nicht alle Szenarien ab.

Instabil kann sich in der Praxis auch so äußern das der Fehler erst nach längerer Zeit unter realer Last Auftritt.

Es gibt schon Gründe wieso man "immer" leicht übertakten kann. Das ist die Sicherheitsmarge der Hersteller damit die Bauteile halt nicht nur zu 99,99% stabil laufen sondern da noch ein paar 9er dazu kommen.
 
  • Gefällt mir
Reaktionen: Azghul0815 und LiniXXus
Eine Stabilität kann auch nicht ausgetestet werden, immer nur eine Instabilität. Es gibt gewisse Lastzustände, wo ein System stabil bleiben kann. Solange solch ein Lastzustand nicht überschritten wird, kann auch alles bestens laufen. Nur gibt es mit der Zeit auch eine Elektromigration, also das Altern der Elektronik und dann benötigt eine Hardware ggf. irgendwann noch mehr Spannung oder es muss Leistung reduziert werden.
 
  • Gefällt mir
Reaktionen: Backfisch und Azghul0815
Der Speichercontroller läuft auch nur mit halbem Takt.
 
Zurück
Oben