oftmalige Systemabstürze - Windows10 Home

erich56

Lt. Commander
Registriert
Dez. 2014
Beiträge
1.144
bei meinem - zugegeben alten - PC Fujitsu P2560 habe ich seit längerer Zeit immer wieder, in unregelmäßigen Abständen, Bluescreens. Egal ob ich grad drauf was arbeite oder auch nicht - sprich, die Abstürze kommen auch ohne jegliches Zutun. Das Gerät fährt unmittelbar nach dem Absturz selbständig wieder hoch.
Im tool "who crashes" - siehe Screenshot - wird hauptsächlich auf den Grafiktreiber hingewiesen - ich arbeite mit der Onbord Grafik des Intel Chips G41. Ich hatte schon versucht, den Treiber zu aktualisieren, bekomme jedoch die Meldung, daß es sich bei dem Treiber 8.15.10.2702 um den aktuellsten Treiber handelt. Und tatsächlich ist im Internet kein neuerer auffindbar.
Weiters lege ich hier einen Screenshot des tools "blue screen view"bei.
Leider bin ich zu wenig Fachmann, um aus diesen beiden tools völlig klare und eindeutige Schlüsse ziehen zu können, außer daß ich erkenne, daß auf den Grafiktreiber hingewiesen wird, aber offenbar nicht nur.

Wie gesagt, ich bin mir bewußt, daß das Gerät alt ist und die beste Variante vermutlich wäre, es einfach zu verschrotten. Selbst um einige hundert Eure bekäme ich wohl einen weit besseren Ersatz. Aber irgendwie hat das ganze in mir jetzt "Jagdinstinkte" geweckt, dahingehend, welche Möglichkeiten es vielleicht doch gäbe, das Problem zu lösen.
Hätte jemand dahingehende Tipps für mich?
 

Anhänge

  • Blue Screen View.JPG
    Blue Screen View.JPG
    170,9 KB · Aufrufe: 203
  • Who crashed.JPG
    Who crashed.JPG
    326,7 KB · Aufrufe: 208
Stürzt ab, fährt wieder hoch, die Grafikkarte wird bekrittelt… Vamutlich recht unterschiedliche BSODs.

Ich tippe da auf das Netzteil. Und die GraKa fällt als ›letzter Mann an der Spritze‹ auf, mehr auch nicht.
Außer (und die beiden sind oft das Duo Infernale) sie bringt das Netzteil und damit das System aus dem Tritt.

CN8
 
cumulonimbus8 schrieb:
Ich tippe da auf das Netzteil
das Netzteil wurde vor ca. 5 Jahren getauscht. Muß jetzt nix heißen ich weiß. Manche Netzteile (auch bei einigen meiner anderen PCs) halten schon 10 Jahre, andererseits hört man wieder von defekten Netzteilen nach nur 3 Jahren.
 
Je nach Montags-Gurke eines Markenherstellers ist das Ding nach 3 Tagen hinüber.

Ich tippe einfach, wenn du irgendwas da noch auuf Verdacht tauschen willst ist das Netzteil der billigste Anfang.

CN8
 
Frage an die Netzteil-Spezialisten hier -
könnte folgendes Verhalten ein (weiteres) Indiz für ein defektes Netzteil sein: nachdem der PC einige Zeit (zB. über Nacht) ausgeschaltet war, dauert es nach dem Einschalten oft einige Stunden, bis das Problem erstmals auftritt. Danach werden die Intervalle jedoch kürzer, manchmal liegen zwischen den Crashes nur mehrere Minuten.
Mal 'ne theoretische Annahme von mir: das Netzteil ist nach dem Einschalten noch für einige Zeit "frisch", und "ermüdet" nach einiger Zeit, mit den beschriebenen Folgen.
Klingt das plausibel und würde dies die Annahme bezüglich Netztteil-Defekt stützen?
 
erich56 schrieb:
in unregelmäßigen Abständen, Bluescreens
Die Informationen zum blue screen befinden sich im Ordner
C:/Windows/Minidump
Die letzten fünf Files auf den Desktop kopieren.
Mit rar oder zip verpacken
Hier im Forum hoch laden.
 
PROCESS_NAME: dwm.exe

MISALIGNED_IP:
dxgkrnl!SignalSynchronizationObjectInternal+f72
fffff807`0a5cbe82 1f ???

STACK_TEXT:
fffff905`38492670 fffff807`0a5c8212 : 00000034`520ff0d0 00000000`00000000 00000000`00000000 00000034`520fef80 : dxgkrnl!SignalSynchronizationObjectInternal+0xf72
fffff905`38492a90 fffff807`0740aab5 : 00000000`00000001 ffffe40f`c0e2c080 00000202`be1d3c08 00000000`00000020 : dxgkrnl!DxgkSignalSynchronizationObjectFromGpu2+0x652
fffff905`38492c00 00007ffa`1f605ac4 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiSystemServiceCopyEnd+0x25
00000034`520ff048 00000000`00000000 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : 0x00007ffa`1f605ac4


SYMBOL_NAME: dxgkrnl!SignalSynchronizationObjectInternal+f72

IMAGE_NAME: hardware

IMAGE_VERSION: 10.0.19041.2075

STACK_COMMAND: .cxr 0xfffff90538491c70 ; kb

MODULE_NAME: hardware

FAILURE_BUCKET_ID: IP_MISALIGNED_dxgkrnl.sys

OS_VERSION: 10.0.19041.1
Für mich geht das Problem in Richtung Grafikkarte. Zum einen taucht immer wieder das Programm dwm. exe auf. DWM Desktop Window Manager
Zum anderen wird der Treiber dxkrnl genannt. das ist ein Treiber der von der Grafikkarte genutzt wird. Da gibt es Probleme mit der Synchronisation des Grafikkartensignals.
 
Silver Server schrieb:
das hätte auch ich schon vermutet. Es ist nämlich auch so, daß während des Betriebs manchmal (selten, aber doch) der Monitor für eine Sekunde oder kürzer schwarz wird, und das Bild dann gleich wieder da ist. Und manchmal wird er eben auch schwarz, es kommt der Bluescreen (mit immer anderen Problemhinweisen ganz unten), und der PC fährt runter und gleich wieder hoch.

Nur ist es halt so, daß ich die Onbord-Grafik nutze - und somit kaum Möglichkeiten habe, hier was zu ändern. Außer ich stecke eine Grafikkarte rein. Bis vor ca. 1 Jahr hatte ich den PC mit Grafikkarten betrieben, insgesamt 3 unterschiedliche über die Jahre - bis dann plötzlich keine einzige mehr funktioniert hat in diesem PC - was vielleicht doch auf ein Stromversorgungsproblem hinweisen könnte ???
 
Bei den vielen Bluescreens würde ich als erstes kurz den Speicher testen (memtest86+, sind passende und kompatible Speicherriegel eingebaut, auf den richtigen Slots, und sitzen auch fest inkl. Verriegelung).
 
Und ich würde vor wie nach am Netzteil ansetzen.

Der lange ruhige Verkauf und dann immer kürzere Intervalle »sind nicht RAM«. Und das NT reißt auch die GraKa mit in die Tiefe - nur zeichnet WIN keine NT-Treiber auf weils die nicht gibt…

CN8
 
@cumulonimbus8 Wie genau würde das Netzteil einen misaligned instruction pointer verursachen, sodass die CPU ein multi-byte NOP nicht korrekt dekodiert? (generell eine ernst gemeinte Frage, wenn jemand eine gute Erklärung hat, auch gerne per PN)

092622-12656-01.dmp
Code:
nt!KiExceptionDispatch+0x12c
nt!KiInvalidOpcodeFault+0x329 (TrapFrame @ fffff905`384924e0)
dxgkrnl!SignalSynchronizationObjectInternal+0xf72
Code:
0: kd> u dxgkrnl!SignalSynchronizationObjectInternal+0xf72 L1
dxgkrnl!SignalSynchronizationObjectInternal+0xf72:
fffff807`0a5cbe82 1f              ???
Code:
0: kd> u dxgkrnl!SignalSynchronizationObjectInternal+0xf71 L1
dxgkrnl!SignalSynchronizationObjectInternal+0xf71:
fffff807`0a5cbe81 0f1f4000        nop     dword ptr [rax]

Intel Instruction Set Reference Vol. 2B 4-169 (PDF):
The multi-byte form of NOP is available on processors with model encoding:
• CPUID.01H.EAX[Bytes 11:8] = 0110B or 1111B
Code:
0: kd> !sysinfo registers
CPUID        0h -        dh 756e6547h 6c65746eh 49656e69h "....GenuntelineI"
                -        dh 756e6547h 6c65746eh 49656e69h "....GenuntelineI"
CPUID        1h -    1067ah    40800h  c08e3fdh bfebfbffh "z..............."
Python:
>>> bin(0x1067a)[-12:-8]
'0110'
 
Zuletzt bearbeitet:
Teste den Speicher (Netzteil wirst du heute wohl keines mehr kriegen ;) ), und dann tausch' das Netzteil.
 
eYc schrieb:
Teste den Speicher
soweit ich mich an den letzten Speichertest bei diesem Gerät erinnern kann, dauert dieser im vollen Durchlauf einige Stunden.
Daher wird folgendes passieren: ich starte den Test, mit viel Glück bekomme ich in kurzer Zeit eine Speicher-Fehlermeldung angezeigt - dann wäre die Sache wohl klar - oder mit weniger Glück stürzt das System nach nicht langer Zeit ab - dann wäre die Sache aber weniger klar, denn dann kann ich raten: war's der Speicher, war's das Netzteil, oder ganz was anderes.

Abgesehen hoffe ich, demnächst eine Antwort vom Kollegen eweu zu bekommen, was seine Analyse des 092622-12656-01.dmp eigentlich genau aussagt.
 
erich56 schrieb:
mit weniger Glück stürzt das System nach nicht langer Zeit ab - dann wäre die Sache aber weniger klar, denn dann kann ich raten: war's der Speicher, war's das Netzteil, oder ganz was anderes.
Sollte der Test abstürzen, ohne dass vorher Fehlermeldungen angezeigt werden, ist der RAM wahrscheinlich nicht defekt. Aber du hast ja sicher, wie die meisten anderen auch, zwei oder mehr DIMMs, die du dann einzeln testen (und somit vergleichen) kannst. Dabei stellst du dann auch gleich sicher, dass der oder die Speicherriegel alle richtig fest sitzen, und verriegelt sind. Ein Wackelkontakt in lockerem Slot, oder oxidierte Kontaktflächen, reicht schon für'n Absturz.
 
  • Gefällt mir
Reaktionen: eweu und erich56
TLDR: Wird vermutlich ein Treiberproblem sein.

Du hast ja eingangs schon richtig erkannt, dass viele Bugchecks in DirectX Modulen ausgelöst werden. Einige davon, von denen wir keine Dumps haben, sind quasi faulty-driver-only Bugchecks (IRQL_NOT_LESS_OR_EQUAL, DRIVER_IRQL_NOT_LESS_OR_EQUAL). Deine CPU und der Chipsatz sind von 2008, das Bios von 2010 und die neuesten Treiber von 2016, da kann es schon sein, dass beim Verwenden der aktuellen Windows 10 Version Probleme entstehen.

Weiß nicht wirklich, was man da überhaupt empfehlen könnte. Windows einmal komplett neu installieren ist eine Option, ich wäre aber nicht überrascht, falls deine Probleme dadurch nicht verschwinden.

RAM ist gut möglich, halte ich aber für bisschen unwahrscheinlicher als ein Treiberproblem. Genauso wie Netzteil, das würde sich durch andere Bugchecks und Symptomatik äußern. Memtest einmal durchlaufen zu lassen ist aber nie verkehrt und ein trotzdem ein guter Tipp.

Standardtipps wie Chkdsk /f /r und sfc /scannow kannst du auch mal versuchen.

Ich würde an deiner Stelle mal in ein Linux booten und eine Zeit lang verwenden. Die Bluescreens bekommst du ja anscheinend im Stundentakt, sollte also wirklich ein Hardwarefehler vorliegen müsstest du auch unter Linux ziemlich rasch Abstürze/kernel panics bekommen. Sollte dort aber alles wie geschmiert laufen, bekräftigt das den Verdacht auf ein Treiberproblem unter Windows.


Die folgende wall-of-text trägt nicht direkt zur Lösung bei und kannst du ignorieren, wenn dich technische Details nicht so interessieren. Ist aber für andere vielleicht ganz interessant.



#1 092622-12656-01.dmp
#2 092522-8234-01.dmp
#3 092522-7828-01.dmp
#4 092522-7906-01.dmp
#5 092522-8031-01.dmp

#5:
Rich (BBCode):
SYSTEM_SERVICE_EXCEPTION (3b)
An exception happened while executing a system service routine.
Arguments:
Arg1: 00000000c0000005, Exception code that caused the BugCheck
Arg2: ffff8919e8e7cf4a, Address of the instruction which caused the BugCheck
Arg3: ffffb48ff3a53170, Address of the context record for the exception that caused the BugCheck
Arg4: 0000000000000000, zero.
Rich (BBCode):
 # Call Site
00 nt!KeBugCheckEx
01 nt!KiBugCheckDispatch
02 nt!KiSystemServiceHandler
03 nt!RtlpExecuteHandlerForException
04 nt!RtlDispatchException
05 nt!KiDispatchException
06 nt!KiExceptionDispatch
07 nt!KiPageFault
08 win32kbase!NtDCompositionConfirmFrame
09 win32k!NtDCompositionConfirmFrame
0a nt!KiSystemServiceCopyEnd
0b 0x0
Auf dem Stacktrace sieht man, dass unmittelbar vor dem Bugcheck ein page fault ausgelöst wurde. Das allein bedeutet noch keinen Fehler, tatsächlich sind page faults Teil vom normalen Windowsbetrieb und werden unter anderem ausgelöst, falls die CPU auf Speicherseiten zugreifen möchte, die sich nicht physischen RAM (working set) befinden, sondern auf die HDD/SSD ausgelagert wurden. Der page fault handler sorgt dann dafür, dass die Speicherseite vom Sekundärspeicher wieder in den RAM geladen wird, und die CPU kann anschließend dort weitermachen, wo sie aufgehört hat.

Arg1 ist 0xc0000005, was STATUS_ACCESS_VIOLATION entspricht. Das heißt der page fault handler hat den page fault nicht beheben können, weil die Adresse ungültig ist.

Die Docs sagen dazu:
This can happen because a NULL pointer dereferenced or a random incorrect address was accessed. This in turn can be caused by memory being freed prematurely, or data structure corruption.

Rich (BBCode):
0: kd> .cxr 0xffffb48ff3a53170
rax=0000000000000000 rbx=0000000000000009 rcx=ffff8938065f78c0
rdx=0000000000000008 rsi=ffff8938007c79d0 rdi=ffff893800608a30
rip=ffff8919e8e7cf4a rsp=ffffb48ff3a53b70 rbp=ffffb48ff3a53c80
 r8=0000000000000008  r9=7fffa48b7f24ee30 r10=0000000000000000
r11=ffffb48ff3a53b00 r12=000002669be7b890 r13=00000266925e40b0
r14=ffff893800608a38 r15=0000000000000000
iopl=0         nv up ei ng nz na po nc
cs=0010  ss=0018  ds=002b  es=002b  fs=0053  gs=002b             efl=00010286
win32kbase!NtDCompositionConfirmFrame+0x22a:
ffff8919`e8e7cf4a 488b4010        mov     rax,qword ptr [rax+10h] ds:002b:00000000`00000010=????????????????
Hier wird versucht, [rax+10h] zu dereferenzieren. rax ist aber null, also eine klassische null pointer Dereferenzierung.

weiters:
In the past, this error has been linked to excessive use of the paged pool, which may occur due to user-mode graphics drivers crossing over and passing bad data to the kernel code. If you suspect this is the case, use the pool options in Driver Verifier to gather additional information.
Also oft ein Treiberproblem. Grafikkartentreiber würde auch ganz gut passen.



#4
Rich (BBCode):
KERNEL_SECURITY_CHECK_FAILURE (139)
A kernel component has corrupted a critical data structure.  The corruption
could potentially allow a malicious user to gain control of this machine.
Arguments:
Arg1: 0000000000000003, A LIST_ENTRY has been corrupted (i.e. double remove).
Arg2: ffffec88428a04b0, Address of the trap frame for the exception that caused the BugCheck
Arg3: ffffec88428a0408, Address of the exception record for the exception that caused the BugCheck
Arg4: 0000000000000000, Reserved
Rich (BBCode):
 # Call Site
00 nt!KeBugCheckEx
01 nt!KiBugCheckDispatch
02 nt!KiFastFailDispatch
03 nt!KiRaiseSecurityCheckFailure
04 nt!KiInsertTimerTable
05 nt!KiCommitThreadWait
06 nt!KeDelayExecutionThread
07 nt!MiGatherMappedPages
08 nt!MiMappedPageWriter
09 nt!PspSystemThreadStartup
0a nt!KiStartSystemThread
Hier wird ein KTIMER Objekt in die Timer Tabelle des Prozessors eingefügt, was den Bugcheck auslöst. Timer laufen auf einem hohen IRQL und werden, wie der Name sagt, von Windows verwendet, um z. B. Zeit zu messen (GetTickCount usw.).

Die Docs haben diesen Spezialfall aufgelistet:
  • A driver has corrupted a periodic KTIMER. This type of bug check typically occurs in nt!Ke* or nt!Ki* code and involves signaling a timer, or inserting or removing a timer from a timer table. The timer being manipulated may be the corrupted one, but it might be necessary to inspect the timer table with !timer (or manually walking the timer list links) to identify which timer has been corrupted. Sometimes, Driver Verifier with special pool can help track down the culprit (if the corrupted KTIMER is in a pool block that has already been freed).
Was hier genau schiefgelaufen ist, lässt sich nur mit einem kompletten Kerneldump sagen.
Code:
1: kd> !timer
fffff78000000000: Unable to get shared data
Wenn man sich auf die Docs verlässt, ist es ziemlich sicher ein Treiberproblem.



#3
Rich (BBCode):
PAGE_FAULT_IN_NONPAGED_AREA (50)
Invalid system memory was referenced.  This cannot be protected by try-except.
Typically the address is just plain bad or it is pointing at freed memory.
Arguments:
Arg1: fffffd68b2273730, memory referenced.
Arg2: 0000000000000000, X64: bit 0 set if the fault was due to a not-present PTE.
    bit 1 is set if the fault was due to a write, clear if a read.
    bit 3 is set if the processor decided the fault was due to a corrupted PTE.
    bit 4 is set if the fault was due to attempted execute of a no-execute PTE.
    - ARM64: bit 1 is set if the fault was due to a write, clear if a read.
    bit 3 is set if the fault was due to attempted execute of a no-execute PTE.
Arg3: fffffd68b15f531c, If non-zero, the instruction address which referenced the bad memory
    address.
Arg4: 0000000000000002, (reserved)
Rich (BBCode):
 # Call Site
00 nt!KeBugCheckEx
01 nt!MiSystemFault
02 nt!MmAccessFault
03 nt!KiPageFault
04 win32kbase!NtDCompositionConfirmFrame
05 win32k!NtDCompositionConfirmFrame
06 nt!KiSystemServiceCopyEnd
07 0x0
Hier ist wieder ein page fault, allerdings mit einem anderen Bugcheck. Bei #5 war der Grund die Dereferenzierung eines null pointers, hier ist die Adresse nicht direkt ungültig, aber es gibt zur virtuellen Adresse 0xfffffd68b15f531c keine korrespondierende Adresse im physischen RAM, was sich durch einen fehlenden PTE (page table entry) Eintrag bemerkbar macht ("bit 0 set if the fault was due to a not-present PTE"). PTEs beschreiben das mapping von einer virtuellen Adresse zu einer physischen Adresse.

Die Docs sagen dazu:

The PAGE_FAULT_IN_NONPAGED_AREA bug check has a value of 0x00000050. This indicates that invalid system memory has been referenced. Typically the memory address is wrong or the memory address is pointing at freed memory.

Rich (BBCode):
1: kd> .trap 0xfffff6005c2f49e0
NOTE: The trap frame does not contain all registers.
Some register values may be zeroed or incorrect.
rax=0000000000000000 rbx=0000000000000000 rcx=ffff9a80011a0180
rdx=0000000000000000 rsi=0000000000000000 rdi=0000000000000000
rip=fffffd68b15f531c rsp=fffff6005c2f4b70 rbp=fffff6005c2f4c80
 r8=0000000000000001  r9=0000000000000001 r10=fffffd2c806b90d0
r11=fffffd2c807f8f50 r12=0000000000000000 r13=0000000000000000
r14=0000000000000000 r15=0000000000000000
iopl=0         nv up ei pl zr na po nc
win32kbase!NtDCompositionConfirmFrame+0x1bc:
fffffd68`b15f531c 48ff150dc12000  call    qword ptr [win32kbase!_imp_KeEnterCriticalRegion (fffffd68`b1801430)] ds:fffffd68`b1801430=????????????????
Hier wird versucht, auf eine nicht belegte Adresse zuzugreifen (non-paged area)

Arg4 des Bugchecks ist 0x2.
0x2 - NONPAGED_BUGCHECK_NOT_PRESENT_PAGE_TABLE The address referenced does not have a valid active page table entry.

Rich (BBCode):
1: kd> r cr2
Last set context:
cr2=fffffd68b2273730
Rich (BBCode):
1: kd> !pte fffffd68b2273730
                                           VA fffffd68b2273730
PXE at FFFF984C26130FD0    PPE at FFFF984C261FAD10    PDE at FFFF984C3F5A2C88    PTE at FFFF987EB4591398
contains 0A0000010DD6C863  contains 0A0000010E70D863  contains 0000000000000000
pfn 10dd6c    ---DA--KWEV  pfn 10e70d    ---DA--KWEV  contains 0000000000000000
not valid
Die Formatierung ist hier bisschen merkwürdig, aber man sieht, dass es keinen PTE für diese Adresse gibt, deswegen kann der page fault handler auch nichts machen (deswegen "PAGE_FAULT_IN_NONPAGED_AREA").

weiters:
Bug check 0x50 can be caused by the installation of a faulty system service or faulty driver code. Antivirus software can also trigger this error, as can a corrupted NTFS volume.

It could also occur after the installation of faulty hardware or in the event of failure of installed hardware (usually related to defective RAM, be it main memory, L2 RAM cache, or video RAM).

Hier werden wieder Treiber genannt, aber auch andere Ursachen.



#2

Rich (BBCode):
SYSTEM_SERVICE_EXCEPTION (3b)
An exception happened while executing a system service routine.
Arguments:
Arg1: 00000000c0000005, Exception code that caused the BugCheck
Arg2: fffff8035677be5e, Address of the instruction which caused the BugCheck
Arg3: ffffa38fe73a2c70, Address of the context record for the exception that caused the BugCheck
Arg4: 0000000000000000, zero.

Rich (BBCode):
 # Call Site
00 nt!KeBugCheckEx
01 nt!KiBugCheckDispatch
02 nt!KiSystemServiceHandler
03 nt!RtlpExecuteHandlerForException
04 nt!RtlDispatchException
05 nt!KiDispatchException
06 nt!KiExceptionDispatch
07 nt!KiPageFault
08 dxgkrnl!SignalSynchronizationObjectInternal
09 dxgkrnl!DxgkSignalSynchronizationObjectFromGpu2
0a nt!KiSystemServiceCopyEnd
0b 0x0

Hier wieder ähnlich zu #5, jedoch bin ich mir nicht ganz sicher was hier den page fault auslöst... Das könnte tatsächlich eher auf RAM hindeuten.

Rich (BBCode):
1: kd> .trap ffffa38f`e73a34e0
NOTE: The trap frame does not contain all registers.
Some register values may be zeroed or incorrect.
rax=ffffa38fe73a3798 rbx=0000000000000000 rcx=ffffa38fe73a37a0
rdx=0000000000000000 rsi=0000000000000000 rdi=0000000000000000
rip=fffff8035677be5e rsp=ffffa38fe73a3670 rbp=ffffa38fe73a3c80
 r8=0000000000000000  r9=0000000000000000 r10=ffffa38fe73a3748
r11=0000000000000001 r12=0000000000000000 r13=0000000000000000
r14=0000000000000000 r15=0000000000000000
iopl=0         nv up ei pl zr na po nc
dxgkrnl!SignalSynchronizationObjectInternal+0xf4e:
fffff803`5677be5e 4585e4          test    r12d,r12d
Rich (BBCode):
1: kd> r cr2
Last set context:
cr2=00000000038984c6
Rich (BBCode):
1: kd> !pte 38984c6
Levels not implemented for this platform



Zu #1 hab ich ja weiter oben schon was geschrieben, hier ist der Fehlercode 0xc000001d, was STATUS_ILLEGAL_INSTRUCTION entspricht.


Rich (BBCode):
SYSTEM_SERVICE_EXCEPTION (3b)
An exception happened while executing a system service routine.
Arguments:
Arg1: 00000000c000001d, Exception code that caused the BugCheck
Arg2: fffff8070a5cbe82, Address of the instruction which caused the BugCheck
Arg3: fffff90538491c70, Address of the context record for the exception that caused the BugCheck
Arg4: 0000000000000000, zero.

Das bedeutet, der Bugcheck wurde ausgelöst, weil die CPU eine Instruktion nicht verarbeiten/dekodieren kann. In diesem Fall ist der instruction pointer bei dxgkrnl!SignalSynchronizationObjectInternal+0xf72 um 1 Byte zu weit "vorne" und liest deshalb ein multi-byte NOP (0F 1F 40 00) nicht korrekt. Ich hatte zuerst gedacht, dass die CPU aus 2008 diese Instruktion noch nicht unterstützt, aber laut Intel ist das doch der Fall (siehe Post oben).

Was das angeht bin ich auch überfragt. 2 Instruktionen weiter ist das Ziel eines conditional jump, möglicherweise kann das durch einen random Bit flip verursacht werden, aber da bin ich ehrlich überfragt.
Interessanterweise passiert das in derselben Funktion wie bei Dump #2, innerhalb von SignalSynchronizationObjectInternal. Das müsste dann schon sehr großer Zufall sein.
 
Zuletzt bearbeitet:
@eweu: vielen Dank für Deine mitternächtliche derart detaillierte und umfangreiche Beschäftigung mit meinen Dump-files :-)

ich habe heute morgen, Deinem Ratschlag folgend, zuerst mal sfc /scannow laufen lassen. Am Schluß kam die Meldung, daß einige Reparaturen durchgeführt wurden. Das aus dem Scan resultierende CBS.log liegt hier bei (CBS.7z);
mangels detaillierter Fachkenntnisse kann ich aus dem CBS.log nicht wirklich Eindeutiges herauslesen, allerdings fallen mir Textpassagen wie die folgende auf:
"2022-09-28 06:58:39, Info CSI 00000125 Warning: Overlap: Directory \??\C:\ProgramData\Microsoft\Windows\Start Menu\Programs\ is owned twice or has its security set twice
Original owner: Microsoft-Windows-shell32, version 10.0.19041.2075, arch amd64, nonSxS, pkt {l:8 b:31bf3856ad364e35}
New owner: Microsoft-Windows-shell32, version 10.0.19041.2075, arch amd64, nonSxS, pkt {l:8 b:31bf3856ad364e35}
"
Ob das irgenden ein Hinweis auf ein gravierendes Problem, insbesondere in Zusammenhang mit den dauernden Abstürzen, ist - keine Ahnung.

Danach chkdsk /f /r angeworfen, das lief eine Weile, ohne irgendwelche besonderen Meldungen.

Das Problem der Abstürze bestand nach wie vor.

Okay, also Speichertest mit Mentest 86+. Über 3 Stunden laufen lassen, mit 2 vollen + 2 begonnen Durchgang - keinerlei Probleme, wie aus der beilieg. Abbildung ersichtlich.

Draus schließe ich nun 3 Dinge:
1) die Speichermodule sind in Ordnung.
2) Das Netzteil, welches - wie aufgrund deutlich erhöhter Lüftergeräusche hörbar - über 3 Stunden auf hoher Last lief, ohne irgendeinen Absturz o.ä. zu verursachen, dürfte - wider Erwarten - wohl auch in Ordnung sein.
3) mein Problem dürfte tatsächlich software-bedingt liegen, und mit der Grafik in Zusammenhang stehen (Intel G41 Express Chipset).

Was könnte ich als nächstes tun?
im Gerätemanager die Grafikkarte deinstallieren (per "Gerät deinstallieren") und dann hoffen, daß sich der Treiber neu installiert? Der Klick auf den Button "Treiber aktualisieren" bringt sofort die Meldung, daß der aktuellste Treiber in Verwendung ist.
Die ausgiebige Suche im Internet hat überall den Treiber 8.15.10.2702 vom 11.3.2013 als den aktuellsten ausgewiesen. Irgendwas Neueres war einfach nicht zu finden. Ich habe diesen zur Sicherheit mal runtergeladen und abgespeichert (eine *.cab-Datei mit 6.161kb).
Auf Driver Space z.B. ist für das Intel G41 Express Chipset ein Treiber 6.14.10.5420 vom 23.7.2012 zu finden, 23.64MB groß. Sollte ich versuchen, diesen zu installieren?
Oder was wäre nun der nächste logische Versuch?
 

Anhänge

  • CBS.7z
    CBS.7z
    5,1 KB · Aufrufe: 145
  • Memtest86 28.9.22.jpg
    Memtest86 28.9.22.jpg
    171,2 KB · Aufrufe: 152
erich56 schrieb:
Was könnte ich als nächstes tun?
im Gerätemanager die Grafikkarte deinstallieren (per "Gerät deinstallieren") und dann hoffen, daß sich der Treiber neu installiert?
Das wäre schon mal nicht schlecht, und dann nochmal über Windows Update oder Gerätemanager suchen lassen.
Andere Möglichkeiten wären:
  • zu Windows 10 kompatible PCIe-Grafikkarte einbauen und testen
  • Windows XP/7 zum Test installieren, und schauen ob's damit, und mit den Treibern von Fujitsu, die gleichen Probleme gibt
  • aufmachen und nachsehen, ob auf dem Mainboard aufgeblähte oder geplatzte Elektrolyt-Kondensatoren zu sehen sind. Hatte letztes Jahr einen ähnlich alten HP im Büro, der immer wieder einfror, und bei dem war das wohl der Grund dafür. Das Problem trat nur auf, wenn der Windows Treiber installiert war. Im abgesicherten Modus, oder mit memtests, Live-System, HDD-Diagnosetest etc lief der stundenlang fehlerfrei.

Oder halt ein Netzteil, falls verfügbar
 
  • Gefällt mir
Reaktionen: eweu
eweu schrieb:
Wie genau würde das Netzteil einen misaligned instruction pointer verursachen, sodass die CPU ein multi-byte NOP nicht korrekt dekodiert?
Wovon lebt eine CPU? Strom. Wenn der nicht ordentlich kommt kann die CPU alles Mögliche verursachen, angeben, auswerfen…
Das ist doch das Tückische an spinnenden Netzteilen.

eweu schrieb:
Wird vermutlich ein Treiberproblem sein.
Und Treiber hängen letztlich ab von? Demselben wie die CPU.
All deine Analysen benennen nur das Ereignis das ein Problem auslöste (herbeiführte), respektive die letzte registrierbare Aktion. Aber sie zeigen nicht auf was all das konkret ausgelöst hat.
Je »bunter« die BSODs desto Hardware - alte Bauernregel. Und hier ist das Netzteil schlicht der erste Verdächtige.

CN8
 
Zurück
Oben