GTX 1080 Fehlerursache + Reparatur

tomacco

Lt. Commander
Registriert
Nov. 2012
Beiträge
1.380
Hallo zusammen,

tl;dr:
GPU verursacht crashes in zwei unterschiedlichen PCs. Monatelang crash wenn idle für ca 3 Minuten, nun auch wenn kein idle ist (z.B. Browser, Spiele). Davor in Spielen und unter Last der einzige Fall wo KEIN crash entstand.
Wie grenze ich die Fehlerursache weiter ein? Was kann/soll ich bei einem solchen Fehlerbild messen? Mir stehen Labornetzteil, Oszilloskop und Multimeter zur Verfügung. Falls ich damit eine defekte Komponente rausmessen könnte, IC oder Mosfet, würde ich die gerne dann tauschen.

Hardware:
  • Prozessor (CPU): i5 8600k @ Noctua NHD15
  • Arbeitsspeicher (RAM): 16gb corsair vengeance 3200mhz xmp
  • Mainboard: Asus Z370-F 2801 Bios
  • Netzteil: Be Quiet Straight Power 600W
  • Gehäuse: Fractal Meshify C
  • Grafikkarte: ASUS ROG Strix GeForce GTX 1080 Advanced ~80°C load
  • HDD / SSD: Corsair MP510 (OS, Smart 96%) , Samsung SSD 850 EVO (Smart 93%), Adata Gammix S10 128gb (ausgebaut)
  • Windows 10 Home Build 19045.5854
CPU leichtes OC allcore 4,8ghz @1,328V und RAM xmp. Wurde entfernt nach ersten crashes. CPU war leider schlechter batch und hat vergleichsweise viel Spannung für diesen Takt benötigt.

Zum Problem:
Über mehrere Monate hinweg ist mir mein Computer immer gecrasht, wenn er im idle ist ab ca. 2-3 Minuten. Monitor darf nicht aus sein, irgendeine Animation/Video/Spiel muss laufen, damit nicht crasht. Wenn er crasht, dann wird der Monitor einfach schwarz und die Lüfter drehen auf 100%. Entweder muss ich hard resetten oder nach ca. 10 Minunten rebootet er von selbst. Die Windows Ereignisanzeige lieferte keine hilfreiche Info, außer dass der PC ungeplant ausgeschalten wurde. Nvidia globale Einstellungen war auf maximale Leistung eingestellt.

Seit letzter Woche crasht er nun auch, wenn er nicht im idle ist. Anfangs nur nach ca. 30 Minuten Multiplayer Match in Age of Empires 2 DE, später dann auch im laufenden Windows Betrieb. Im Gegensatz zu den idle crashes gab es hier auch einen BSOD whea_uncorrectable_error. Nach dem BSOD kamen dann folgende Fehlerbilder:
  • Er hat bei der Bios Ladeanimation aufgehört
  • Hat keine der SSDs gefunden oder hat nur die Sata ssd gefunden
  • Es kommt eine Fehlermeldung des Windows Boots Managers: Status 0x00000e9 An unexpected I/O error has occured.
Wenn man die SSD dann bisschen ein und aussteckt, dann war es wieder gefixt. Was den BSOD betrifft, hat er nur bei den ersten zwei crashes ein Log im Minidump erstellt, danach gabs zwar den BSOD, aber wurde keine Zeit gelassen, dass er ein dump erstellen konnte. Mit Windbg habe ich mir die dumps in Windows/Minidump angeschaut:
  • IMAGE_NAME: nvlddmkm.sys
  • FAILURE_BUCKET_ID: 0x133_ISR_nvlddmkm!unknown_function
Treiber Neuinstallation mit DDU im abgesicherten Modus und deaktivierter Windows Autotreiber Funktion sowie manuelle Neuinstallation haben das Problem nicht behoben. Ich habe die Grafikkarte ausgebaut und in einen komplett anderen PC verfrachtet. Dort bereits im Browserbetrieb nach 5-10 Minuten gecrasht. Es wurde kein Minidump erstellt, kein BSOD, keine Ereignisanzeige. Schwarzer Bildschirm und Lüfter drehen hoch.

Eine weitere Sache ist mir auch aufgefallen, in meiner alten Wohnung als auch in der aktuellen, hat das Netzteil sporadisch (1 mal im Monat) die Sicherung ausgelöst, wenn man den Schalter umlegt. Ist wohl ein Problem vom Kondensator Strom, wenn man die Phase vom Netz im Maximum erwischt? Habe halt den Schalter immer umgelegt jeden Tag, wenn ich fertig war. Wird ja davon abgeraten - sollte sich wenn aber nur negativ auf das Netzteil auswirken, weil ich unnötige viele Ladezyklen mit hohen Strömen auf den Kondensator ballern, die GPU sieht ja davon eigentlich nix?

3. Welche Schritte hast du bereits unternommen/versucht, um das Problem zu lösen und was hat es gebracht?
Nach dem Ausbau der GPU, i5 8600 mit iGPU betrieben und Age of Empires gespielt, siehe da - kein crash.

Ich weiß, eine neue RTX 5060 o.Ä. wäre jetzt nicht die Welt preislich, dennoch würde ich gerne falls möglich Zeit investieren und reparieren. Es gibt auch Seiten, die auf die Reparatur von GPU dediziert sind. Ich tue mich aber ein wenig schwer, eine Anleitung für dieses konkrete Fehlerbild zu finden? An sich bootet sie ja und zeigt auch Bild, es gibt auch keine Artefakte. Und bis vor kurzem war es ja eben so, dass genau unter Last der Fall war, wo KEIN crash enstand.

Vielleicht hat ja jemand eine Idee, was für Komponenten würde man sich denn genauer anschauen, wenn eine GPU im idle gern crasht?
 
bevor du das ding reparierst was mindestens allein für die Fehlersuche plus fix hin und rückversand ca 100€ werden, kauf dir eine gebrauchte bei Kleinanzeigen. Eine 2070 (Super) ist mit glück für bisschen mehr als die 100€ schon zu bekommen. Moderner ( RTX) wäre sie auch und sparsamer ... rate die davon ab reparieren zu lassen
 
  • Gefällt mir
Reaktionen: TomH22 und JoeDante
Wie alt ist denn dein Straight Power Netzteil und welche Serie ist das ?
Wenn die Sicherung schon fliegt scheint doch da was nicht richtig zu sein.....

PC mal ohne OC betreiben um das auszuschließen.
 
tomacco schrieb:
was für Komponenten würde man sich denn genauer anschauen, wenn eine GPU im idle gern crasht?
tomacco schrieb:
Falls ich damit eine defekte Komponente rausmessen könnte, IC oder Mosfet, würde ich die gerne dann tauschen.
Naja ... relativ simpel. Du musst nur wissen, welche Spannung/Widerstand wo anliegen muss. Und dann weißt du ja, wenn was nicht passt.
Aber ... wenn du das nicht weißt, ist das Vorhaben sofort sinnlos. Entweder du fragst nvidia nach dem exakten Schaltplan mit den zugehörigen Werten ... oder du holst dir eine baugleiche, intakte 1080 und vergleichst defekt mit heile. Dann weißt du auch, wo der Fehler ist.
Aber ... du merkst selber, das ist relativ sinnlos, oder? Das macht nur Sinn, wenn du in Zukunft mehrere reparieren willst.
Ergänzung ()

tomacco schrieb:
in meiner alten Wohnung als auch in der aktuellen, hat das Netzteil sporadisch (1 mal im Monat) die Sicherung ausgelöst,
Ist bei mir seit 14 Jahren so. Der Sicherungskasten ist zu alt, neue Sicherungen sind träger. Soll der Vermieter aktualisieren, aber nunja...
 
  • Gefällt mir
Reaktionen: JoeDante und Aduasen
Klingt nach langsamem Tod der Karte.

Kannst du mal versuchen Speicher und Chip ein wenig mehr Spannung zu geben?
 
  • Gefällt mir
Reaktionen: JoeDante
R4ID schrieb:
Wie alt ist denn dein Straight Power Netzteil und welche Serie ist das ?
Wenn die Sicherung schon fliegt scheint doch da was nicht richtig zu sein.....

PC mal ohne OC betreiben um das auszuschließen.
Januar 2018. OC ist abgestellt, leider trotzdem Probleme.

Smily schrieb:
Ist bei mir seit 14 Jahren so. Der Sicherungskasten ist zu alt, neue Sicherungen sind träger. Soll der Vermieter aktualisieren, aber nunja...
Ah okay, ist natürlich nervig.. Also momentan sind da B16er bei mir verbaut, werden da im Neubau mittlerweile auch einfach welche mit höheren Bemessungsstrom oder anderer Charakteristik als C16 oder so verbaut?

https://www.tomshardware.com/reviews/be-quiet-straight-power-11-550w-platinum/2

Ist jetzt nicht mehr das aktuellste, aber bis zu 93A inrush current ist schon ne Hausnummer.

Smily schrieb:
Naja ... relativ simpel. Du musst nur wissen, welche Spannung/Widerstand wo anliegen muss. Und dann weißt du ja, wenn was nicht passt.
Aber ... wenn du das nicht weißt, ist das Vorhaben sofort sinnlos. Entweder du fragst nvidia nach dem exakten Schaltplan mit den zugehörigen Werten ... oder du holst dir eine baugleiche, intakte 1080 und vergleichst defekt mit heile. Dann weißt du auch, wo der Fehler ist.
Aber ... du merkst selber, das ist relativ sinnlos, oder? Das macht nur Sinn, wenn du in Zukunft mehrere reparieren willst.
Ja, hatte jetzt nicht vor mehr als diese zu reparieren.. Hatte nur mal vor ewigkeiten eine Geforce GT 6800 mit Artefakten behilfsmäßig im Ofen reflowed und die ging dann für ein weiteres Jahr. Wie gesagt, manche Fehlerbilder deuten ja auf bestimmte Komponenten, z.B. bei Artefakten ja oft der Grafikspeicher. Und nachdem sie eh kaputt ist hätt ich ja nicht mehr zu verlieren es zu versuchen - aber wie du sagst, wenn man mangels Schaltplan nicht mal weiß wo anzufangen ist, wird es natürlich schwierig.
 
Hi, also das Fehlerbild klingt nach eingetrockneter WLP.
Wie ist denn die Temperatur (vor allem Hotspot) bei der GPU ?
 
Wie lange idled der PC mit einem anderen Betriebssystem? Frisches Win11 oder Linux?
"Whea uncorrectable error" ist eigentlich CPU OC... Trat der seitdem du stock CPU und stock Ram fährst wieder auf?
 
Liest sich für mich ebenfalls wie ein langsamer Tod der Karte; gerade auch wenn sie in einem anderen Rechner crashed. Das deutet mit dem von Dir geschilderten Verhalten auf zu wenig Spannung und/oder zu viel Takt der GPU hin, denn genau dann machen Grafikkarten genau das, was Du beschreibst (habe ich im Selbstversuch im Rahmen von UV/OC feststellen können). Vermutlich braucht sie zum stabilen Betrieb inzwischen einfach mehr Strom weil sie gealtert ist.

Versuch doch mal wenn Du die Möglichkeit hast eine andere GK einzubauen. Ansonsten schließe ich mich an:
Nicht reparieren, sondern als Defekt bei Kleinanzeigen rein und eine neue beschaffen.
 
Also hatte die gtx 1080 in einem PC mit pentium g4600 und stock Ram getestet, da ist er nach ca. 5 Minunten im Windows gecrasht. Habe eben wieder in meinen PC mit 8600k auch stock eingebaut, hier crasht er mittlerweile direkt nach der Anmeldung. Bin daher schon gar nicht mehr dazu gekommen Spannung zu erhöhen oder Temperaturen zu messen.

Aber gut, klingt dann echt bisschen nach einem fruchtlosen Unterfangen.
Was meint ihr, dem 8600k noch mal eine neue GPU besorgen oder denkt ihr ist die Zeit schon reif für eine Neuanschaffung? Hauptsächlich gaming in wqhd/uwqhd.
 
Wurde der Kühler bereits einmal demontiert und die Paste erneuert?
Wie sehen die Temperaturen aus?

Ich vermute mal, dass die Karte die gewählten Taktraten mit der vom BIOS Gesetzen Spannung nicht schafft.
Würde daher den Takt unter Last mal etwas absenken (z.b. mit Afterburner).
 
tomacco schrieb:
Also hatte die gtx 1080 in einem PC mit pentium g4600 und stock Ram getestet, da ist er nach ca. 5 Minunten im Windows gecrasht. Habe eben wieder in meinen PC mit 8600k auch stock eingebaut, hier crasht er mittlerweile direkt nach der Anmeldung. Bin daher schon gar nicht mehr dazu gekommen Spannung zu erhöhen oder Temperaturen zu messen.

Aber gut, klingt dann echt bisschen nach einem fruchtlosen Unterfangen.
Was meint ihr, dem 8600k noch mal eine neue GPU besorgen oder denkt ihr ist die Zeit schon reif für eine Neuanschaffung? Hauptsächlich gaming in wqhd/uwqhd.
Neu wird sich vermutlich stark lohnen, das kann echt ein Gamechanger sein.
Ich bin von einer 5600X auf einen 7800X3D gegangen und hatte in Farcrty New Dawn ein Plus von 85%, Ghost Recon Wildlands war gut 50% schneller.
Das sind aber auch Spiele, die sehr stark CPU-lastig sind und daher extrem profitieren. Bei anderen Spielen habe ich wesentlich weniger bekommen, aber im Schnitt noch 15%.
Aber auch die Plattform AM5 bringt nochmal einiges an Schub; sofern man AMD haben möchte. Aber Intel kann man nicht guten Gewissens empfehlen wenn der User nicht gerade ein professional Usecase hat.
 
Ich habe jetzt die Paste erneuert, bei dem Einbau blieb sie diesmal auch lang genug stabil, dass ich am MSI Afterburner starten konnte und ins Spiel gehen konnte. Aber wie gesagt, die Karte verhält sich seit Monaten sehr sporadisch, das muss nichts bedeuten.

Ich habe jetzt Kingdom Come Delieverance laufen lassen, bis die Temperaturen nicht mehr gestiegen sind.

CPU: 60
GPU: 78
GPU Hotspot: 89

1748865712822.png

Ich bin mir jetzt auch echt nicht sicher ob das was ich hier eingestellt hab richtig ist. Also hat so geklappt. Aber hätte ich einfach Core clock und Memory clock runterstellen sollen und Power limit + Templimit auf 100 belassen oder?

Also wenn Alterung das Problem ist und das die ganze Geschichte wieder stabiler laufen lässt, heißt dass das in der V/F Kurve bei niedrigen clocks die Spannung zu niedrig war und er deswegen im idle crasht und in Games hat die Spannung (bis vor kurzem) ausgereicht für den clock?
Ergänzung ()

Ähnliche Probleme hatte ich beim i5 8600k, wo das OC über die Zeit nicht mehr stabil lief und er mir in Games abgeschmiert ist, da bin ich dann halt entsprechend mit Takt runter oder Spannung hoch, bis es in Cinebench wieder lief ohne crash.

Mit Gpu tweaking habe ich leider keine Erfahrung? Wo muss ich was Ändern, damit das ganze stabiler läuft?
 
Immerhin hast Du sie wieder ans Laufen gebracht. Aber was direkt auf den ersten Blick auffällt:
Das Powerlimit bei 120% ballert schon ordentlich Strom in Deine Karte rein. Thermische Alterung betrifft nicht nur die Wärmeleitpaste, sondern auch alle anderen Materialien mit mehr oder weniger starker Auswirkung. Ich würde hier mal den Regler auf 100% zurück fahren.
Außerdem: Zwei Stromanschlüsse liefern zusammen 300 Watt, bei 120% liegst Du bei 327,6 Watt. Das ist immer noch innerhalb der PCIe Norm was übers Board kommen kann, aber so richtig wohl würde ich mich dabei nicht fühlen.
Die Mem-Clock und GPU-Clock würde ich ehrlich gesagt bei 0 belassen und schauen ob es stabiler wird.
 
Pheenox schrieb:
Das Powerlimit bei 120% ballert schon ordentlich Strom in Deine Karte rein.

Hängt auch vom gewählten Spiel ab.

tomacco schrieb:
Ähnliche Probleme hatte ich beim i5 8600k, wo das OC über die Zeit nicht mehr stabil lief und er mir in Games abgeschmiert ist, da bin ich dann halt entsprechend mit Takt runter oder Spannung hoch, bis es in Cinebench wieder lief ohne crash.

Soll heißen, die CPU würde mit Stock-Settings noch laufen, sodass man sie nicht ersetzen braucht.

Die Grafikkarte würde ich dann wohl ersetzen. Bei dem Restwert solcher Karten lohnen sich Reparaturdienstleistungen auch nicht mehr.
 
Was soll denn diese Taktreduzierungen bei Speicher und GPU? Lass das doch. Ich würd da gar nichts einstellen, ausser das Powertarget eher reduzieren auf 75 oder 80%. Das kostet nur ganz wenig Leistung, aber spartb enorm Strom und vor allem Wärme ein. SO eine alte Karte willst du nicht mehr stressen wenns nicht unbedingt sein muss. Hoffentlich läuft sie jetzt dauerhaft wieder.
 
Also wie gesagt, die Karte überlegt sich jede Woche neu wie sie sich verhalten soll. Bis vor kurzem hatte es sich ja so verschlimmert, dass ich nicht mehr über den Windows Login screen gekommen bin, im 8600k PC als auch im Pentium PC. Seit gestern keine idle crashes mehr, 3h Gaming session in Rainbow six siege, Repo und Kingdom come delieverance kein Problem. Dafür aber sporadisch vertikale Linien - ich denke die macht echt nicht mehr lange mit. Wären das crashes unter Last, wäre das ja eine Sache, aber den Fall mit idle crashes oder Age of Empires als relativ anspruchsloser Titel als Problem und andere Spiele problemlos hatte ich noch nie. Hätt ja gesagt, kann ja sein dass das ein spielspezifisches Problem wäre, aber dann würd er ja im anderen PC nicht crashen mit genau der GPU im idle.

Aber naja, ich verwende die jetzt weiter bis entgültig nicht mehr geht (exklusive Age of empires) und hol dann irgendeine Gebrauchte übergangsweise. Hatte ja schon gehofft, die 1080 würde noch bis zur nächsten Gen reichen.
 
Zurück
Oben