Systemabstürze PCIe-Schnittstelle (WHEA 17)

Katjes5000

Ensign
Registriert
Mai 2007
Beiträge
255
1. Nenne uns bitte deine aktuelle Hardware:
(Bitte tatsächlich hier auflisten und nicht auf Signatur verweisen, da diese von einigen nicht gesehen wird und Hardware sich ändert)
  • Prozessor (CPU): Intel Core i7-12700F
  • Arbeitsspeicher (RAM): 2x 32 GB G.Skill RipJaws V DDR4 CL16 auf 3200 MHz mit XMP ON (in A2 / B2)
  • Mainboard: Gigabyte Z690 Gaming X DDR4 (rev 1.0)
  • Netzteil: Seasonic Focus GX Modular 750W
  • Gehäuse: Fractal Design Meshify C Compact
  • Grafikkarte: Gigabyte GeForce RTX 2060S (direkt auf MB, kein Riser)
  • HDD / SSD: Samsung 970 Evo Plus M.2 (1 TB und 2 TB)
  • PCIe-Soundkarte: ESI 1010e

2. Beschreibe dein Problem. Je genauer und besser du dein Problem beschreibst, desto besser kann dir geholfen werden (zusätzliche Bilder könnten z. B. hilfreich sein):
Hallo zusammen,

ich habe seit Anfang dieser Woche wahllose System-Freezes. Keine Blue/Black Screens. Es kann sein, dass das nach 10 Minuten passiert oder erst nach über 2 Stunden. Eben hatte ich es auch direkt zur Anmeldung bei Windows. Unabhängig davon, ob Last anliegt oder Idle. Manchmal schafft das System dann einen Neustart, aber auch nicht immer. Ansonsten verhält sich das ganze System vollkommen normal.

In der Ereignisanzeige konnte ich einen kritischen Fehler auf nvlddmkm mit der Event-ID 0 ausmachen, der mich auf die Grafikkarte aufmerksam machte. Viel mehr stand da leider nicht. Über eine Warnung in der Ereignisanzeige kam ich auf die PCI-Express-Schnittstelle, die auch mittlerweile zu Tausenden die Ereignisanzeige verstopfen, sodass ich die Absturzfehler gar nicht mehr einsehen kann.

1715348038452.png


Der Absturz kommt sicher dann zustande, wenn besagter Hardwarefehler nicht korrigiert werden kann. Ich konnte das Problem über den Gerätenamen auf das Systemgerät Intel PCI Express Root Port #5 – 7ABC eingrenzen. Im Geräte-Manager ist aber nichts auffällig.

1715348056217.png


Das steht in der Zuverlässigkeitsüberwachung von heute:
1715348067250.png


Bei allen Hardwarefehlern steht identisch folgendes:
1715348084045.png


3. Welche Schritte hast du bereits unternommen/versucht, um das Problem zu lösen und was hat es gebracht?
  • Alle mir verfügbaren Windows Updates installiert
  • BIOS-Update (F29) und Defaults geladen
  • Intel ME-Update (2233.3.26.0)
  • Intel Serial I/O-Update (30.100.2221.20)
  • CMOS-Reset
  • XMP deaktiviert
  • Grafikkarten-Treiber aktualisiert (552.44)
  • Auf älteren Grafikkarten-Treiber zurückgesetzt (552.12)
  • Grafikkarte getauscht (1050 TI)
  • Soundkarte ausgebaut
  • Energiesparmodus auf Höchstleistung (war es ohnehin schon)
  • Erweiterte Energieeinstellung > PCI Express > Verbindungszustand-Energieverwaltung: AUS (war es ohnehin schon)
  • Edit: Firmware der NVMe geprüft (sind auf neuestem Stand)
  • Edit: Energiesparmodus auf Ausbalanciert gesetzt
Seit all meinen Versuchen habe ich das Gefühl, dass sich das Ganze auch intensiviert hat, aber das mal nur in den Raum gestellt. Das System lief in dieser Konfiguration (abgesehen vom Windows-Versionsstand) seit 1,5 Jahren stabil und es wurde nichts hardwareseitig verändert.

Hat jemand von euch eine Idee, was ich noch versuchen kann? Ich habe gerade keine Ideen mehr, wie ich das weiter eingrenzen könnte. Ich bin sehr dankbar über jede Hilfe, weil es doch sehr nervig ist ☹

Falls noch was fehlt, was zur Aufklärung notwendig ist, einfach kurz schreiben.

Liebe Grüße!
 
Zuletzt bearbeitet:
LiveKernelEvent 141 geht immmer Richtung GPU, oftmals liegt es auch an der Stromversorgung dieser.
Ergänzung ()

Katjes5000 schrieb:
  • Energiesparmodus auf Höchstleistung (war es ohnehin schon)
  • Erweiterte Energieeinstellung > PCI Express > Verbindungszustand-Energieverwaltung: AUS (war es ohnehin schon)
Setzt das alles mal auf Standard.
Und Höchstleistung ist nicht Standard sondern Ausbalanciert - was auch am besten so ist.
Höchstleistung sollte eher Höchstverbrauch heißen.

Da wurde wohl Windows tuning betrieben, händisch oder mit Tools
 
Zuletzt bearbeitet:
Hi :)
Versuche mal diesen Vorschlag

  • Eingabeaufforderung ( als Administator ) starten
  • und diesen Befehl dort eingeben bcdedit /set pciexpress forcedisable
danach PC neu starten

P.S. prüfe auch nach ob es für deine Samsung NVMe Firmware Updates gibt
https://tuhlteim.de/samsung-ssd-firmware-update
 
Firefly2023 schrieb:
Komplette Neuinstallation gmacht?? Inplace-Update geht auch.

Neuinstallation würde ich wirklich gerne vermeiden (wer nicht...?). Inplace Upgrade bereite ich gerade mal vor. Ich habe da jedoch die Sorge, dass das System während der Installation abstürzt :/

Drewkev schrieb:
Also auch keine .dmp-Dateien unter C:\Windows\Minidump?

Hängt ein Monitor am Mainboard?
Den Pfad kannte ich noch gar nicht. Ja, da sind *.dmp drin. In der aktuellsten Datei finde ich das:
1715349982979.png

Oder muss ich nach was anderem schauen?

Es ist kein Monitor am Mainboard angeschlossen.

Nickel schrieb:
LiveKernelEvent 141 geht immmer Richtung GPU, oftmals liegt es auch an der Stromversorgung dieser.
Ergänzung ()


Setzt das alles mal auf Standard.
Und Höchstleistung ist nicht Standard sondern Ausbalanciert - was auch am besten so ist.
Höchstleistung sollte eher Höchstverbrauch heißen.

Da wurde wohl Windows tuning betrieben, händisch oder mit Tools

Ja, das hatte ich auch gelesen. Ich habe eben noch einmal die Verkabelung geprüft, aber das sitzt alles, wie es soll.

Die Energieoptionen habe ich auf Ausbalanciert gesetzt. Das PCI-Setting steht dort auf mittel.
Edit: Das hat keine Veränderung nach einem Neustart gebracht. Zumindest legen die WHEA-Warnungen in der Ereignisanzeige direkt wieder los.

Windows-Tuning würde ich von meiner Seite ausschließen. Von den üblichen Verdächtigen halte ich generell Abstand und ich habe in den letzten Tagen nichts bewusst geändert.

McFly76 schrieb:
Hi :)
Versuche mal diesen Vorschlag

  • Eingabeaufforderung ( als Administator ) starten
  • und diesen Befehl dort eingeben bcdedit /set pciexpress forcedisable
danach PC neu starten

P.S. prüfe auch nach ob es für deine Samsung NVMe Firmware Updates gibt
https://tuhlteim.de/samsung-ssd-firmware-update
Den Befehl habe ich bei vorheriger Recherche auch entdeckt. Ich bin nur etwas unsicher, was der genau tut. Microsoft beschreibt das mit "Verwenden Sie die erzwungene Option, um die erweiterten PCI Express-Funktionen außer Kraft zu setzen und ältere PCI Express-Verhalten zu verwenden."
Hört sich weniger so an, als wenn ich das möchte ;)

Die NVMe sind auf aktuellstem Firmware-Stand:
1715351088727.png
 
Klar, siehe anbei.
 

Anhänge

  • 051024-12796-01.zip
    499,5 KB · Aufrufe: 21
Es gab Mainboards bzw Chipsätze, da waren die korrigierten PCIe Root (WHEA 17) nur ein BUG, kosmetisch und konnte man ignorieren.
Wurde später von den MB Hersteller mit Bioss Updates gefixt.
Gar nicht mal lange her, betraf aber wohl AMDs soweit ich mich erinnere.
Evtl. mal ein Bios Update machen.
 
Zuletzt bearbeitet:
CMOS resetten, alle Laufwerke und Zusatzgeräte/-karten abklemmen/abstecken. Nicht gebrauchte Zweit-/TrashSSD/-HDD anklemmen, Windows frisch neu installieren, Treiber nur über Windows-Updates installieren lassen, erstmal keine extra Treiberpakte installieren. Auch schon während der Installation prüfen, obs Hänger, Freezes etc. gibt. Wenns dann mit dieser Minimalkonfig schon Probleme gibt, ist ein Hardwareschaden nicht auszuschließen.

Wenn ich die Fehler richtig deute, ist wohl nur die Grafikkarte betroffen? Oder evt. auch eine NVMe-SSD? Dann wär Kandidat Nr. 1 die CPU bzw. der CPU-Sockel/-Pins und Kandidat Nr. 2 das Mainbaord, vor allem der PCIe-X16-Slot wo eben die Grafikkarte drin steckt. Gegentest könnte man hier durchführen, in dem man die Graka in den 2. x16-Slot steckt.
 
Klingt für mich nach CPU oder Mainboard. Die Grafikkarte hast du ja schon getauscht. Vielleicht mal die CPU neu reinstecken und schauen dass die Schrauben vom Board nicht zu fest angezogen sind. Am besten neu zusammenbauen.
 
qiller schrieb:
Auch schon während der Installation prüfen, obs Hänger, Freezes etc. gibt.
Neuinstall ist immer je nach Problem ein guter Test.
Gibt's da schon Probleme ist hardwaremäßig was im Busch.
Ergänzung ()

qiller schrieb:
Wenn ich die Fehler richtig deute, ist wohl nur die Grafikkarte betroffen?
GPU/Treiber ist beim LiveKernelEvent -141 immer mit im Spiel, muss aber kein defekt sein.
 
SYMBOL_NAME: nvlddmkm+1494a70

MODULE_NAME: nvlddmkm

IMAGE_NAME: nvlddmkm.sys

STACK_COMMAND: .cxr; .ecxr ; kb

FAILURE_BUCKET_ID: 0x116_IMAGE_nvlddmkm.sys

OSPLATFORM_TYPE: x64

OSNAME: Windows 10
Der Fehler ist bei der Grafikkarte zu suchen.
 
Der Stopp Fehler wurde ausgelöst durch den Grafikkartentreiber nvlddmkm.sys . So steht es in der Dumpfile
 
Jop, schon klar. Das heißt aber noch lange nicht, dass die Grafikkarte schuld ist. Mein erster Gedanke wäre auch die Grafikkarte gewesen, aber da der TE diese schon getauscht hatte und denselben Fehler bekommt, wird es sicherlich was anderes sein. Außerdem zeigt der WHEA 17 ja doch noch in eine andere Richtung. Durchaus möglich, dass der Fehler im Dump nur ein Folgefehler ist bzw. derjenige ist, der letztendlich zum BSOD führte.
 
  • Gefällt mir
Reaktionen: Nickel
Hallo zusammen,

erst einmal danke für alle weiteren Tipps und Hinweise.

Mir ist noch aufgefallen, dass ich die PCIe-Soundkarte nur ausgebaut, nicht aber den Treiber dazu deinstalliert habe. Da bin ich drauf gekommen, nachdem nach einem weiteren Absturz und entsprechendem Reboot der Treiber ebendieser Soundkarte nicht geladen war, die Ereignisanzeige dann aber frei von jedweden WHEA-Fehlern war.

qiller schrieb:
Jop, schon klar. Das heißt aber noch lange nicht, dass die Grafikkarte schuld ist. Mein erster Gedanke wäre auch die Grafikkarte gewesen, aber da der TE diese schon getauscht hatte und denselben Fehler bekommt, wird es sicherlich was anderes sein. Außerdem zeigt der WHEA 17 ja doch noch in eine andere Richtung. Durchaus möglich, dass der Fehler im Dump nur ein Folgefehler ist bzw. derjenige ist, der letztendlich zum BSOD führte.
Ich denke nun auch, dass der GPU-Treiber als Folgefehler abgestürzt ist und den eigentlichen Systemabsturz verursacht.

Das grundsätzliche Problem scheint identifiziert. Einzig die Erklärung, warum das nun plötzlich ein Problem ist, bleibt für mich im Raum stehen. Klar, die Soundkarte ist recht betagt und der "aktuellste" Treiber von 09/2015 für die Windows 10-Kompatibilität, aber es lief 1,5 Jahre absolut unproblematisch. Fühlt sich nach einem Windows-Update-Problem mit nachfolgender Inkompatibilität an - oder was sagt ihr?

Ich probiere mich hier weiter dran, da die eigentliche Absturzursache mMn gefunden scheint. Im schlimmsten Fall muss ich Geld für ein aktuelleres Interface in die Hand nehmen :/

Sollte ich noch nennenswerte Erkenntnisse sammeln, teile ich die gerne mit euch.
Danke noch einmal an alle!
 
Katjes5000 schrieb:
Mir ist noch aufgefallen, dass ich die PCIe-Soundkarte nur ausgebaut, nicht aber den Treiber dazu deinstalliert habe.
Der Treiber kann nichts mehr anrichten wenn die Hardware nicht mehr verbaut ist.
Windows lädt diesen erst gar nicht mehr.
 
Zurück
Oben