Nvidia RTX 3090Ti "crasht" bei intensiver Belastung (mehr als 70%TDP)

nils_heidorn

Cadet 1st Year
Registriert
Feb. 2025
Beiträge
13
Hallo,
ich hoffe ich habe alles richtig ausgefüllt, sonst bitte gleich meckern und ich gelobe Besserung. Ist mein erster Post hier :-)

Generell hat die GPU seit dem ich sie gebraucht gekauft habe IMMER SCHON diese Zicken, ich nutze sie in einem eGPU Dock um einen Handheld Gaming PC auch mal mit besserer Performance oder für KI zu nutzen.
Aber auch in einem normalen PC hatte ich sie zum Test drin, siehe auch unten.
Auch beim Vorbesitzer, der sie wiederum auch schon mit Zicken gekauft hat war das schon so. Daher hatte ich sie auch günstig gekauft, habe ja auch schnell einen Performance mindernden Workaround gefunden, siehe unten.
Vorbesitzer hatte sie auch "repastet". Wie gut kann ich nicht sagen, bin da ein Noob, die Temperaturen scheinen mir okay, auch hier: siehe unten aber auch Bedenken das ich keine Ahnung habe :-)


Hier das Formular und meine Infos dazu:

1. Nenne uns bitte deine aktuelle Hardware:
(Bitte tatsächlich hier auflisten und nicht auf Signatur verweisen, da diese von einigen nicht gesehen wird und Hardware sich ändert)
  • Prozessor (CPU):AMD 8840U
  • Arbeitsspeicher (RAM): 64GByte
  • Mainboard: OneXPlayer X1 proprietär
  • Netzteil: 800w AOOSTAR (Netzteil des Docks, versorgt nur die GPU)
  • Gehäuse: AOOSTAR AG02
  • Grafikkarte: Nvidia Manli RTX3090Ti Gallardo 24GByte
  • HDD / SSD: 4TB SSD
  • Verbindung via Oculink oder Thunderbolt 3 oder USB4, identisches Problem trat aber auch mit einem ADT Oculink + Thermaltake 850W Netzteil auf und auch ganz früher normal im PCIe Slot eines Gaming PC's ebenfalls mit dem Thermaltake 850W.

2. Beschreibe dein Problem. Je genauer und besser du dein Problem beschreibst, desto besser kann dir geholfen werden (zusätzliche Bilder könnten z. B. hilfreich sein):
Wenn man die GPU voll belastet z.B. mit FurMark oder 3DMark Stresstest ohne irgendwelche Modifikationen (BIOS, MSI Afterburner, etc. PP), dann friert das Bild nach kurzer Zeit (ca. 30s - 2min) ein. Manchmal mit reboot des PC's, manchmal stürzt nur die App ab und man kann es nochmal versuchen :-)

3. Welche Schritte hast du bereits unternommen/versucht, um das Problem zu lösen und was hat es gebracht?
Ich habe bisher auf ein "repaste" verzichtet (Neue Pads & PTM liegt hier schon) weil ich mich nicht recht traue und weil ich aus anderen Postings hier vermute das es nicht das Problem ist. Außerdem hatte der Vorbesitzer versichert es gemacht zu haben.
Warum denke ich das das nicht das Problem ist?
--> Temperaturverlauf aufgezeichnet mit GPU-Z:
Im Vollast Fall gehen die Temperaturen auf:
-GPU Temperatur: 80°
-Hot Spot: 95°
-Speicher: 80°
Die 3 Versorgungsspannungen sind über die ganze Zeit bis zum crash laut GPU-Z bei 11,9V, scheint mir noch ein akzeptabler Wert zu sein, aber was weiß ich schon, ich weiß nicht wann eine RTX 3090Ti ein "brown out" hat.
Auf jeden Fall sind Leistungsaufnahmen & Spannungen der 3 Eingänge symmetrisch, ich denke eine schlechte Verkabelung würde dann bei einem oder zweien der Eingänge eine verminderte Leistung oder andere Spannung zeigen. Richtig?
Hatte es ja auch mit 2 "leicht" überdimensionierten (da nur die GPU dranhängt, sonst wäre es sicher eher knapp) Marken Netzteilen probiert.

Nachdem was ich hier so für diese Karten gelesen habe (bitte korrigiert mich, bin offensichtlich ein NOOB) ist eine max Temp von 95° "okay", habe auch woanders 105° gesehen, auch das delta von 15° scheint im Rahmen zu sein. 10° wären besser aber 15° wohl "im Rahmen".

Was ich zur Lösung probiert habe:
-Ein kompatibles BIOS einer anderen Marke geflasht: KEIN UNTERSCHIED
-TDP auf 70% begrenzt: FUNKTIONIERT
--> Ich kann auch eine Stunde belasten, Leistungsaufnahme dann ca. 330W statt 450W, Temperaturen alle ca. 15° weniger als im crash Fall, die 3 Spannungen bei 12,0V.
-Undervolting mit Zielfrequenz 1900MHz bei 880mV: FUNKTIONIERT,
--> Ich kann auch eine Stunde belasten, Leistungsaufnahme dann ca. 300W statt 450W, Temperaturen alle ca. 18° weniger als im crash Fall, die 3 Spannungen bei 12,0V.

Natürlich ist die Performance in beiden Fällen drastisch reduziert.

Nun bin ich unsicher:
Ist das ein zu akzeptierender Defekt, kann ein repaste trotz der (anscheinend) moderaten Temperaturen etwas bringen?



Mit anderen Worten:

Hiiiilfeee ;-)

Nils
 
Zuletzt bearbeitet:
Wenn es kein Temperaturproblem ist und danach sieht es ja nicht aus bringt auch kein Repaste irgendwas. Fehlerbilder bei "echten" Temperaturproblemen sehen auch meist anders aus. M.M.n. ist das eher ein Fehlerbild das für eine ehemalige Mining-Karte oder extremes OC spricht, einfach durch Dauerlast am Limit schnell gealterte Bauteile die jetzt einfach nicht mehr das verkraften was sie ursprünglich verkraften sollten.

Macht die Karte im Normalbetrieb auch Zicken oder nur bei unrealistischen Belastungen wie Furmark o.Ä.? Wenn im normalen Betrieb alles funktioniert würde ich mir erstmal überhaupt keine Gedanken machen, Du spielst ja nicht den ganzen Tag Furmark (oder doch?).

Achja, "akzeptable Defekte" gibt es nicht, entweder ist etwas defekt oder nicht ;)

MfG
 
  • Gefällt mir
Reaktionen: dodolein
ich würde hier : Netzteil: 800w AOOSTAR (Netzteil des Docks, versorgt nur die GPU) nach der Ursache suchen !!
 
  • Gefällt mir
Reaktionen: dodolein
Graphixx schrieb:
eine ehemalige Mining-Karte oder extremes OC spricht, einfach durch Dauerlast am Limit schnell gealterte Bauteile
Wer nicht völlig auf den Kopf gefallen ist betreibt eine GPU auch beim Mining nicht an der K0tzgrenze. Im Gegenteil, der Sweespot der Effizienz liegt deutlich darunter.

Ich würde am zweifelhaften Netzteil ansetzen oder erstmal am Kabel.
 
Hallo!
Ich kommentiere mal die Antworten, Danke auf jeden Fall für die "Anteilnahme" :-)

Graphixx schrieb:
...
Macht die Karte im Normalbetrieb auch Zicken oder nur bei unrealistischen Belastungen wie Furmark o.Ä.? Wenn im normalen Betrieb alles funktioniert würde ich mir erstmal überhaupt keine Gedanken machen, Du spielst ja nicht den ganzen Tag Furmark (oder doch?).

Achja, "akzeptable Defekte" gibt es nicht, entweder ist etwas defekt oder nicht ;)

MfG
Im Normalbetrieb (also z.B. Hogwarts Legacy" braucht es dann schon auch mal 15m oder so bis es knallt. ABER es knallt :-)
Die FurMark & so dienen mir zum test meiner simplen Gegenmaßnahmen und zum anglotzen von GPU-Z.

Wenn ich eben die TDP Begrenzung oder das Undervolten aktiviere geht es natürlich völlig fehlerfrei auch beim Spielen.
Das gleiche gilt für KI Arbeit (Stablediffusion / ComfyUI) --> Es crash. Hier sehr viel fixer da die GPU dann doch nahe an 100% ausgelastet wird. Auch hier hilft mein "Fix" vollumfänglich.


Mit Akzeptabel meine ich: Es gibt einen funktionierenden Workaround.
Maxysch schrieb:
Hast du es mit einem anderen Netzteil probiert?

EDIT: und :
frames p. joule schrieb:
Wer nicht völlig auf den Kopf gefallen ist betreibt eine GPU auch beim Mining nicht an der K0tzgrenze. Im Gegenteil, der Sweespot der Effizienz liegt deutlich darunter.

Ich würde am zweifelhaften Netzteil ansetzen oder erstmal am Kabel.


Ja!
Wie gesagt habe ich davor ein anderes (weniger "elegantes" ADT Oculink Dock mit einem "normalen" Netzteil dran.
(Und das gleiche Netzteil auch in normalem PC Gehäuse und Karte in PCIe)

Das war ein Thermaltake 850W GF1 ARGB 80+Gold, das sollte hoffentlich okay sein.
ABER auch das AOOSTAR Dock mit dem neueren 800W hat eine gute "Reputation.

Da der Fehler sich im Ausmaß gleich verhalten hat nehme ich also nicht an das das Netzteil ein Problem darstellt.
(Naja und da auch der Vorbesitzer ähnliches berichtete)




Generell ist mein Ziel herauszufinden ob ich etwas dran machen (lassen) kann, oder ob Euch tests / Analysen einfallen die das Problem weiter einzugrenzen um dann zu entscheiden ob da noch "etwas geht".

ich habe sie vor 1 Jahr für 250 Eu bekommen, das ist für eine 70% 3090Ti auch okay denke ich :-)


Danke!

Nils
 
nils_heidorn schrieb:
Dann scheint wohl GA102 Chip einen defekt(Abnutzung) zu haben und läuft nicht mehr stabil.
 
  • Gefällt mir
Reaktionen: nils_heidorn
Morgen,

wenn schon in der normalen Ansicht der Abfall auf unter 12Volt zu erkennen ist, dann wird es ein Stromproblem sein, denn die Lastspritzen in ns Bereich sind da wesentlich größer und damit auch der nicht geloggte Abfall der Spannung.
Dass die dauerhaft anliege hohe Belastung dann noch dazu führt dass mit de Zeit (Sekunden -> Minuten bei dir) Prozentual gesehen größer werden ist auch noch sei ein Ding.

Deine Netzteile haben nur eine 12V Schiene und ist nach ATX2.4 sowie "bis zu" 6 Jahre alt, dass kann schon das Problem sein.

LG
Key
 
  • Gefällt mir
Reaktionen: nils_heidorn und Maxysch
@Key3 Hallo!
Aber ist denn das Thermaltake nicht eigentlich schon ein "besseres" Netzteil?
(Und behauptet wird das auch von dem AOOSTAR intergriertem...)
Da auch mein Vorbesitzer mit wieder einem anderen Netzteil darüber klagte erscheint es mir unwahrscheinlich das Art und Ausmaß des Fehlers immer gleich wäre...

?!?!

Natürlich höre ich das lieber als "Ist vom Mining ausgelutscht, vergiss es", aber es klingt so unwahrscheinlich?!?Welches Netzteil würde man als Gegenprobe denn nehmen?
Wahrscheinlich eines das teuerer ist als die GPU? :-)

Hmmm
 
Mehr als diese beiden Komponenten wirst du als "Noob" ja auch nicht tauschen können. Bzw mehr Hinweise kann ich nicht geben.

Dass die Karte nur mit 70% TDP stabil läuft ist deshalb zwar ärgerlich, aber immerhin verlierst du nicht allzuviel Leistung. Würde sagen 10-15%, was verschmerzbar ist.
 
  • Gefällt mir
Reaktionen: nils_heidorn
nils_heidorn schrieb:
Welches Netzteil würde man als Gegenprobe denn nehmen?
Ein modernes ATX3.0/3.1 Netzteil mit 750W+ um sicher zu gehen.
 
  • Gefällt mir
Reaktionen: nils_heidorn
frames p. joule schrieb:
Mehr als diese beiden Komponenten wirst du als "Noob" ja auch nicht tauschen können. Bzw mehr Hinweise kann ich nicht geben.

Dass die Karte nur mit 70% TDP stabil läuft ist deshalb zwar ärgerlich, aber immerhin verlierst du nicht allzuviel Leistung. Würde sagen 10-15%, was verschmerzbar ist.
Sorry, "beide Komponenten": Netzteil & Kabel?
--> Hast Du denn bei dem Netzteil einen Vorschlag? (Realistisch werde ich das eher nicht machen, aber ich kann mich ja bei Bekannten umhören was die so haben).
Kabel: Der dreischwänzige GPU zu 3 c PCIe Teil, ja? Oder gibt es auch Misstrauen bei PCIe auf Netzteil PCIe Kabel?
Wahrscheinlich ist "ordentlich Kontaktspray überall drauf" auch nie verkehrt, oder?
--> Und: wären die Probleme so groß das man die mit einem Ohmmeter sehen kann?

ANDERSEITS sind wie Werte ja bei allen drei Strängen gleich, bei einem Kabelproblem wäre ja wahrscheinlich ein "Kanal" verdächtig.
Ach: Knifflig :-)

Ja, die Einbuße ist natürlich verschmerzbar.
Hast Du einen Tip ob Du eher undervolting oder her stumpfes "auf XX%" TDP Begrenzen machen würdest?


Danke Danke Danke,

Nils
 
nils_heidorn schrieb:
Ist das ein zu akzeptierender Defekt
Musst du wissen. Wenn sie mit deiner Lösung läuft, dir die Leistung reicht und du zufrieden bist mit den 250€ vor einem Jahr (spontan empfinde ich das als guten Preis) dann ja.
Ich würde da nicht weiter rumdoktern und mich über den guten Preis freuen
 
  • Gefällt mir
Reaktionen: nils_heidorn
@RedPanda05 Ja, darauf läuft es wahrscheinlich hinaus.
Ich kann kein neues / gutes Netzteil kaufen um vielleicht zu beweisen das das drei andere vorher nicht gut genug waren.
Und ich bin icht der Typ sowas zu kaufen mit 90% Chance es zurückzugeben, sowas mag ich nicht.
(Halte es für zu unwahrscheinlich).
Da auch das Gekable bei "jemand anderem" mit anderem Netzteil Probleme machte halte ich den ganzen Power-Komplex eben für nicht stichhaltig genug um da "all in" zu gehen, sorry...

Ich denke mir aber nun das ich die Finger vom "repasting" lassen sollte das ja ansonsten von Noobs wie mir immer als Allheilmittel angesehen wird. Das geben die Temperaturen aber wohl eher nicht her höre ich so raus.

Also wohl Status-Quo akzeptieren.

Nochmals: eher undervolten oder eher TDP cut, ist sich ja im Effekt ähnlich aber nicht gleich, Ideen?

Grüße & Danke,
Nils
 
nils_heidorn schrieb:
Hast Du denn bei dem Netzteil einen Vorschlag? (Realistisch werde ich das eher nicht machen, aber ich kann mich ja bei Bekannten umhören was die so haben).
Da wäre FSP VITA BD 750W ATX 3.1, Enermax Marblebron II 750W ATX 3.1, MSI MPG A750GN PCIE5 750W ATX 3.1, be quiet! Pure Power 12 850W ATX 3.1, das sind ein paar Beispiele.
 
  • Gefällt mir
Reaktionen: nils_heidorn
Das Stromproblem würde ich erstmal nicht ausschliessen. Ansonsten nimm die Karte zu einem Kollegen mit und Teste es bei jemand der ein neueres Netzteil hat nach aktuellem ATX Standart. Nur so kannst du 100% ausschliessen das nicht dort das Problem liegt.

Es kann natürlich auf dem PCB auch irgendwo ein Kondensator öä. defekt sein. Da habe ich aber selber auch zu wenig Ahnung und müsste durchgemessen werden. Kann mir auch kaum vorstellen das es der GPU-Chip sein wird.

Ansonsten hast du ja eine gute Lösung gefunden mit den 70% TDP.
 
  • Gefällt mir
Reaktionen: nils_heidorn und Maxysch
Ich hatte, solange ich mich erinnern kann, nur Corsair-Netzteile, die ich als sehr wertig empfinde. Das hier gern empfohlene Pure Power hat z.B. keinen semipassiven Modus.

Hast du denn schon ein einfaches Framecap versucht? Habe immer das "Gefühl", Grafikkarten leiden am meisten bei 3000fps. Ich würde auch mal testweise sämtliche Zusatzsoftware runterwerfen und nur mit dem Control Panel, dem Inspector und Nvidia-SMI arbeiten.

https://massedcompute.com/faq-answers/?question=What software settings can I use to reduce the thermal design power (TDP) of NVIDIA data center GPUs?

https://stackoverflow.com/questions/57100015/how-do-i-run-nvidia-smi-on-windows

Good luck
 
  • Gefällt mir
Reaktionen: nils_heidorn
Ob ein Netzteil "gut oder qualitativ hochwertig" ist hat ja nichts damit zu tun, ob es für Einsatzzweck XY auch geeignet ist.
Immerhin reden wir hier nicht von einfach irgendeinem Teil Hardware sondern von einer 3090Ti Stromschleuderbelastungstestmonster 😉
 
  • Gefällt mir
Reaktionen: nils_heidorn und Maxysch
Zurück
Oben