Abstürze bei Spielen und Stresstests: RAM-Fehler bei intensiven CPU- und GPU-Anwendungen/Spielen

wortmalerei

Cadet 2nd Year
Registriert
Juni 2023
Beiträge
19
TL;DR: Neuer PC stürzt während neuerer Spiele und Stresstests ab, welche die CPU, GPU und RAM gleichzeitig beanspruchen. RAM-Tests, Temperaturüberwachung, Treiberaktualisierungen und Hardwareüberprüfungen, haben keine Grund / Besserung für die Abstürze ergeben. Sobald ich einen RAM Test direkt nach einer CPU und GPU intensiven Aufgabe laufen lasse, erhalte ich plötzlich RAM Fehler.

---

PC-Spezifikationen:
  • CPU: AMD Ryzen 9 7900 (nicht Übertaktet)
  • CPU-Kühler: Bequiet! Dark Rock Pro 4
  • GPU: ASUS TUF 4090 OC
  • Mainboard: ASUS TUF GAMING X670E-PLUS WIFI
  • RAM: G.Skill Flare X5 32GB DDR5 Kit
  • Netzteil: 1200 Watt be quiet! Straight Power 11 Platinum Modular 80+
  • Gehäuse: Fractal Design R6
  • Gehäuselüfter: 3 Einlass (2 vorne, 1 unten) und 3 Auslasslüfter (2 oben, 1 hinten)

Problem:

In den letzten Monaten stürzt mein neu zusammengebauter PC während neuerer Spiele und bestimmter Stresstests ab. Er funktioniert einwandfrei bei normalen Aufgaben wie Surfen im Web, älteren Spielen und Entwickeln, aber stürzt bei anspruchsvollen Aufgaben mit CPU, GPU und RAM ab (z.B. neuere Spiele). Abstürz heißt: Rückkehr zu Windows, danach kann ich ganz normal weiter arbeiten. Manchmal (eher selten) erfolgt auch direkt ein BSOD mit unterschiedlichen Fehlercodes begleitet, wobei ntoskrnl.exe immer als Grund genannt wird.

Die letzten Monate habe ich folgendes versucht:
  • RAM auf Standardgeschwindigkeit zurückgesetzt (d.h. EXPO entfernt)
  • Temperatur mit Hwinfo überwacht (GPU / CPU max. 75 grad während intensiver Belastung)
  • Verschiedene Stresstests durchgeführt (FurMark und Prime95 laufen problemlos über 60 Minuten, 3DMark-Stresstests stürzen manchmal ab)
  • Speziell den RAM mit Memtest86 dreimal getestet (3x4 Testläufe), keine Fehler gefunden
  • Verschiedene Windows / Nvidia-Einstellungen getestet
  • Unterschiedliche Versionen des GPU-Treibers / BIOS / Mainboard-Treibers installiert
  • Alle Software und Peripheriegeräte auf das Minimum reduziert
  • Windows 11 neu installiert und alles aktualisiert (zweimal)
  • Einem anderes Netzteil getestet
  • Die GPU mit noch vorhandener Garantie zurückgeschickt, es wurden keinen Fehler gefunden.
Heute bemerkte ich, dass nach dem Ausführen eine CPU- und GPU-intensiven OCCT Tests, ein unmittelbar anschließender Speichertest (auch mit OCCT) 3.662 Fehler in meinem RAM anzeigte. (Davor hatte ich immer 0 Fehler) Ich habe die Kombi (GPU / CPU Test + anschließen RAM Test) mehre Male wiederholt und jedes mal erhalte ich tausende von RAM Fehlern… Wenn ich jedoch kurze Zeit warte (und der PC abkühlt) zeigt Memtest86 oder OCCT-RAM Test wieder 0 Fehler an.

Das Problem scheint also mit CPU- und GPU Belastung zusammenzuhängen, die zu anschließenden Speicherabstürzen führen (vermutlich wg. der Temperaturen ?, da mein System ansonsten sehr stabil ist)

Die Temperaturwerte (lt. Hwinfo) stabilisieren sich während der CPU und GPU intensiven OCCT Tests bei:
  • CPU: 66°C
  • MB-Chipsatz: 65°C
  • GPU: 75°C
  • RAM / SPD-Hub-Temperatur: 49°C
Die Temperaturen sind meines Wissens nach okay.

So glücklich ich auch darüber bin, einen Hinweis auf die Ursache des Problems zu haben, so ratlos bin ich nun, was ich damit machen soll:
  • Liege ich richtig in der Annahme, dass es (trotz der gemessenen Temperaturwerte die im Limit sind(?)) ein Überhitzung des RAM vermutlich das Problem ist ? oder könnte das Problem etwas völlig anderes sein?
  • Reicht es aus den RAM zu kühlen, z.B. mit einem kleinen Lüfter Innen im Gehäuse ?
  • Ist mein RAM nun fehlerhaft oder nicht, d.h. benötigte ich neuen RAM?
  • Bessere Gehäusekühlung? (Das Öffnen des Gehäuses hat nichts an dem Problem geändert)
  • Eine andere CPU-Kühlung ?, der CPU-Kühler, Dark Rock Pro 4, ziemlich groß ist und direkt über beiden RAM-Riegeln liegt. Möglicherweise leitet er die Hitze auf den RAM weiter (siehe Foto).

Unten befindet sich eine Zip-Datei, die 5 Dump-Dateien enthält: 3 von heute stammende BSODs, die während des OCCT-Speichertests unmittelbar nach dem OCCT-Powertest aufgetreten sind, und 2 dmp-Dateien, die während des Spielens (24./25.09.) aufgetreten sind. Außerdem anbei es ein Foto meines PC Layouts.

Besten Danke für Hinweise, Einsichten und Antworten.


PC_Layout.jpg
 

Anhänge

  • DMP_Files.zip
    3,9 MB · Aufrufe: 52
Was hier völlig fehlt, sind Angaben zum RAM und mit welchem Takt der läuft/lief.
Vielleicht mal nen Link zum RAM...
Module einzeln getestet? Und mit welchem Memtest?
 
  • Gefällt mir
Reaktionen: Snues
Hast die GPU an PCIE 1 und 3 am Netzteil angeschlossen?

1.png


Ach wobei bei nem 4-Fach Adapterkabel kann man ja fast nix falsch machen!

Macht man Speichertests nicht mit Memtest?
 
Zuletzt bearbeitet:
NOTAUS schrieb:
Was hier völlig fehlt, sind Angaben zum RAM und mit welchem Takt der läuft/lief.
Vielleicht mal nen Link zum RAM...
@NOTAUS

Danke für deiner Antwort:
Hier die Infos zum RAM:
https://www.gskill.com/product/165/396/1673491242/F5-6000J3038F16GX2-FX5


Memorytests habe ich mit aktivierten EXPO (6000 Mhz) und mit deaktiviertem EXPO (4800 Mhz) durchgeführt. Beides mit dem gleichen Ergebnis (wie oben beschrieben) wenn davor (bzw. beim Spielen währendessen) ein GPU und CPU intensive Task lief (ca 15 min) dann zeigt der Memorytest tausende von Fehlern an / crash zu Windows. Außer EXPO/XMP an/aus habe ich keine Verändernung am RAM vorgenommen.

Falls keine GPU und CPU Stress Test / Spiel ausgeführt wurde, ergeben die Memory-Tests keine Fehler.

Module einzeln getestet? Und mit welchem Memtest?
Module wurden nur gemeinsam getestet.
Wichtig für micht ist zunächst ob der RAM defekt ist oder nicht oder ob es "nur" ein Temp problem ist, da ja 0 Fehler in mehrere Tests mit beiden Sticks angezeigt wurden/werden und tausende Fehler immer in Kombination mit GPU und CPU Belastung (mehre Tests mit beiden Sticks) gefunden werden ?

Memtest:
1. Memtest86 v10.6 via usb boot - keine Fehler
2. OCCT Memory Test (Software--> https://www.ocbase.com/) keinen Fehler, wenn kein GPU/CPU Belastung gleichzeitig oder direkt davor
MemoryTest_0_errors.png



3. OCCT Memory Test (Software--> https://www.ocbase.com/) ergibt tausende RAM Fehler, wenn GPU/CPU Belastung währenddessen oder davor.

MemoryTest_3662_errors.png



Das hier sind die Test die ich ausgeführt habe, erst den Power Test (Default Settings) dann Memory Test (mit den Einstellungen wie auf dem Screenshot zu sehen).

OCCT_Tests.png


Blase007 schrieb:
RAMs einzeln belasten und auch die genutzten Steckplätze durchtauschen.
@Blase007

Hey danke für deine Antwort,
Wichtig für micht ist zunächst ob der RAM defekt ist oder nicht oder ob es "nur" ein Temp problem ist, da ja 0 Fehler in mehrere Tests mit beiden Sticks angezeigt wurden/werden und tausende Fehler immer in Kombination mit GPU und CPU Belastung (mehre Tests mit beiden Sticks) gefunden werden ?

Ich hatte vor einiger Zeit die Stick auch einzeln getestet (allerdings nicht in Steckplätze durchgetauscht), das Ergebnis war das gleiche.
Ergänzung ()

Viper1982 schrieb:
Hast die GPU an PCIE 1 und 3 am Netzteil angeschlossen?

Anhang anzeigen 1403140

Ach wobei bei nem 4-Fach Adapterkabel kann man ja fast nix falsch machen!
@Viper1982
Hey, danke für deine Antwort. GPU ist genau so angeschlossen !


Viper1982 schrieb:
Macht man Speichertests nicht mit Memtest?

Speichertests wurde mit memtest86 und mit OCCT Memory Test (Software--> https://www.ocbase.com/) durchgefüght. Die Fehler treten aber nur bei OCCT MemoryTest in Kombination mit GPU und CPU Belastung auf (siehe mein Eingangspost). Falls es an den Temperaturen liegt, kann das aber auch an der Zeit liegen, die es dauert den PC zu beenden und in memtest86 zu booten.
Details zu den Test sind auch in meine Antwort an NOTAUS zu finden.
 
Zuletzt bearbeitet:
@Drewkev
Drewkev schrieb:
Wie kam es denn bitte dazu?
War gerade im Angebot. Was ist falsch an dem Netzteil ? Meinst du das könnte der Grund für die Probleme sien

Drewkev schrieb:
Wie ist denn nun die Grafikkarte damit verkabelt?
GPU ist in PCIe1 und PCIe3 angeschlossen, wie in der Anleitung angegeben.

Drewkev schrieb:
Auch schon die RAM-Riegel einzeln in A2 getestet?
Nein muss ich noch machen.
Meine erste Verwunderung war erstmal, dass ich bisher 0 RAM fehler bei Test hatte und immer noch 0 Fehler angezeigt bekomme, wenn ich den RAM kalt teste.

Wenn ich den RAM allerdings während oder kurz nach eine längeren (10-15min) intensiven GPU/CPU belastung Teste erhalte ich immer sehr viele RAM fehler. Wie kann das sein ?
 
@Drewkev
Hab das PSU im Mai eingekauft und damals 190 € bezahlt.

Aber das PSU hat dann vermutlich nix mit dem jetzigen Problem zu tun... ?
 
wortmalerei schrieb:
Hab das PSU im Mai eingekauft und damals 190 € bezahlt.
Aua.

wortmalerei schrieb:
Aber das PSU hat dann vermutlich nix mit dem jetzigen Problem zu tun... ?
Würde ich erstmal ausschließen, weil:
wortmalerei schrieb:
GPU ist genau so angeschlossen !

wortmalerei schrieb:
Nein muss ich noch machen.
Mach das.

wortmalerei schrieb:
Wie kann das sein ?
Gute Frage, rein technisch kann ich es mir ad hoc nicht erklären, kann aber auch an der Uhrzeit liegen.

In den fünf .dmp-Files wird sich über den Explorer, 3DMark, Metro Exodus und 2x über OCCT beschwert.
 
wortmalerei schrieb:
Speziell den RAM mit Memtest86 dreimal getestet (3x4 Testläufe), keine Fehler gefunden
Meinst du das bootfähige memtest86 (wäre optimal), oder etwas auf Windows-Basis?
 
@Drewkev
Habe die Riegel jetzt einzeln getestet. Einmal beide Riegel in A2 und einmal in B2.
Das Ergebnis war für beide Slots und beide Riegel jeweils das gleiche wie zuvor auch.
Direkter RAM Test zeigt keine Fehler an, weder OCCT, noch Memtest86 (per USB boot), noch Testmem5
Ram Test direkt nach CPU, GPU intensiver Task (15+min) zeigt tausend Ram fehler an.



Als weiteren Test habe ich dem PC komplett geöffnet (Front, Top und Side-Pannels Weg) und einen Lüfter reingebastelt der mehr oder weniger auf die RAM riegel bläst. Nach dem GPU, CPU Belastungstest war die SPD-Hub-Temperatur um ca. 12°C kühler und ich hatter keinen RAM Fehler beim anschließenden RAM Test. Habe die Kombination drei mal getestet 3 mal kein Fehler.
Das spricht dann noch für die Temperatur als Grund, oder ?
D.h. am besten den CPU Kühler ersetzten, einen neuen Case oder beides ?

@eYc
eYc schrieb:
Meinst du das bootfähige memtest86 (wäre optimal), oder etwas auf Windows-Basis?
Ja das meine ich. Damit habe ich die Tests durchgeführt.


@Restart001
Restart001 schrieb:
Nach dem BIOS Update auch die Defaults im BIOS geladen und gespeichert?
Habe im BIOS bisher nur das EXPO/XMP der RAM riegel aktiviert und deaktivert und PBO deaktiviert.
Wie müss ich die Default - Settings nach einem Bios Update laden ? Einfach wiederherstellen der Default-Settings ?


Beste Grüße
 
Zuletzt bearbeitet:
wortmalerei schrieb:
Als weiteren Test habe ich dem PC komplett geöffnet (Front, Top und Side-Pannels Weg) und einen Lüfter reingebastelt der mehr oder weniger auf die RAM riegel bläst. Nach dem GPU, CPU Belastungstest war die SPD-Hub-Temperatur um ca. 12°C kühler und ich hatter keinen RAM Fehler beim anschließenden RAM Test.
Spannend, denn so schlecht ist dein Airflow gar nicht. Nimm mal den oberen Gehäuselüfter neben dem Noctua raus.
 
wortmalerei schrieb:
Nach dem GPU, CPU Belastungstest war die SPD-Hub-Temperatur um ca. 12°C kühler und ich hatter keinen RAM Fehler beim anschließenden RAM Test.
Wie war denn dann die SPD-Temperatur vorher? OCCT und HWInfos können ja auch den Verlauf anzeigen, dann siehst du ab welcher Temperatur es zu Fehlern kommt, oder kam. Zu sehen gewesen ist oben nur ca. 60°C, das dürfte unkritisch sein - aber keine Ahnung wie's beim RAM aussieht, Temp-Sensoren hat wohl erst DDR5.
 
@Drewkev
Drewkev schrieb:
Spannend, denn so schlecht ist dein Airflow gar nicht. Nimm mal den oberen Gehäuselüfter neben dem Noctua raus.
Hat leider nichts gebracht. Gleiches Verhalten wie zuvor

Ich vermute mitlerweile einfach defekte RAM Riegel, die bei etwas höheren Temperaturen instabil werden.
Werde am WE neue RAM Riegel austesten.

Da der Fehler auch bei individuellen Test mit den Riegeln je in beiden Slots auftritt... Wie groß ist denn die Wahrscheinlichkeit zwei defekte RAM Riegel zu haben ?

Kann ich irgendwie testen ob es an den RAM Riegeln oder am Motherboard selbst liegt (z.B. MemoryController, die RAM-Slot, etc.) ?

@eYc
eYc schrieb:
Wie war denn dann die SPD-Temperatur vorher? [...] Zu sehen gewesen ist oben nur ca. 60°C, das dürfte unkritisch sein - aber keine Ahnung wie's beim RAM aussieht, Temp-Sensoren hat wohl erst DDR5.
Mein RAM is DDR5. Hat aber nur SPD-Hub Temp Sensoren.

Die SPD-HubTemperatur ist im Normalfall, also ohne besondere Belastung ca 30-35C.
Wenn ich nur einen MemoryTest mache geht sie hoch auf ca 49°C, der läuft problemlos ohne Fehler durch.

Wenn ich einen MemoryTest nach einer ca. 10-15 minutigen GPU/CPU belastung mache, hat der RAM auch ca. 49° zu Beginn bleibt zumeist bei ca. 50°, springt aber manmal auch auf 55-60°.
 
Der Speichercontroller ist doch in der CPU verbaut, oder?
Kann es dann einen Hotspot auf der CPU geben? Liegt der Kühler vielleicht nicht 100% plan auf?
 
Ich grabe diesen Thread nochmals aus für alle, mit ähnlichen Problemen... hier was für mich letztendlich die Lösung brachte (TLDR:) Die CPU war defekt


Ich hatte nach den Problemen neuen RAM eingebaut. Leider brachte auch das keine Lösung. Anschließen habe ich die CPU komplett ausgebaut, neu eingesetzt, neue Kühlpaste und anderen Kühler genutzt. Auch das hat leider nichts gebracht.

Als letzte Verzweiflungstat entschied ich mich, die einzigen beiden Komponenten zu tauschen, die ich bisher noch nicht mit einer anderen neuen Komponente ausprobiert hatte: 1. CPU und 2. Mainboard. Ich habe meine CPU wg. Garantie eingeschickt. Die RMA wurde akzeptiert, da die CPU anscheinend tatsächlich fehlerhaft war *.

Ich habe also eine neue CPU (gleicher Typ) erhalten, und kaum hatte ich die CPU gewechselt sind alle Probleme zu 100% verschwunden. Ich hatte (jetzt seit ca. 3 Wochen) keinen BSOD, 0 Anwendungsabsturz oder RAM-Fehler mehr. Alle Anwendungen und Spiele laufen reibungslos! 🥳


Meine alte CPU hatte also einen Fehler im Speicherkontroller (@Blase007: Danker für den Hinweis), der sich in RAM-Fehlern manifestierte, aber nur dann, wenn die CPU/das System über einen bestimmten Temperaturpunkt hinaus ging :freak:.

* Als Anmerkung bezüglich der fehlerhaften CPU: Während meiner Hardwaretests zeigte die CPU selbst keine Fehler. Ich konnte Prime95 oder andere CPU-Tests (OCCT, Mark3d, etc.) problemlos stundenlang laufen lassen. Es war nur die Kombination aus CPU-Belastung, RAM-Belastung und meiner GPU, die mein System erwärmte (--> Gaming), welche letztendlich zu Abstürzen führte. Ich hatte meinen PC auch in einem kleinen Reparaturgeschäft. Dort wurde ein "professioneller" Hardwaretests durchgeführt, aber auch die fanden keinen CPU-Fehler... soll heißen die Art von CPU Fehler lässt sich vermutlich nicht mit einem "normal" verfügbaren CPU-Stresstest finden.
 
  • Gefällt mir
Reaktionen: eYc
Zurück
Oben