Schwerwiegender Hardwarefehler WHEA 18

jomaster

Lieutenant
Registriert
Dez. 2012
Beiträge
642
  • Prozessor (CPU): AMD 5800X
  • Arbeitsspeicher (RAM): G.Skill 3200 CL14
  • Mainboard: MSI B450 Carbon AC
  • Netzteil: beQuiet StraightPower 12 850W
  • Gehäuse: Eigenbau
  • Grafikkarte: Asus Vega 64
  • HDD / SSD: WD Black SN750
  • Weitere Hardware, die offensichtlich mit dem Problem zu tun hat(Monitormodell, Kühlung usw.):

Meine VMs die ich auf dem PC betreibe rauschen mir mind. 1 x am Tag wegen WHEA Error ab. Der physische Computer eher so alle 3 Tage.
Schwerwiegender Hardwarefehler.

Gemeldet von Komponente: Prozessorkern
Fehlerquelle: Machine Check Exception
Fehlertyp: Cache Hierarchy Error
Prozessor-APIC-ID: 12

Ohne Vorwarnung, BlackScreen - Reboot


3. Welche Schritte hast du bereits unternommen/versucht, um das Problem zu lösen und was hat es gebracht?

Neue gebrauchte CPU gekauft, hatte meinen 3600 gegen einen 5800 upgraden wollen und gehofft das löst die Probleme.
RAM OC komplett zurück genommen, brachte auch nichts. Aktuell läuft das XMP Profil, weils in beiden Situationen den Fehler hervorbringt.
Netzteil getauscht, da ich dachte, evtl hat das MoBo Spannungsprobleme bzw. das Netzteil nach 9 Jahren auch ne Macke bekommen bzw. mir nicht sicher war, ob 500W noch für den Prozessor langen unter last.

Mein nächsten Überlegungen wären noch Mobo bzw. RAM zu tauschen. Aber habe Angst, dass es am Ende doch die CPU war (worauf der Fehler hindeutet) und ich dann sinnlos Geld rausgehauen habe, dass ich für meinen kleinen hätte sparen könnnen. Aber zweimal Probleme mit der CPU finde ich auch merkwürdig... davor hatte ich 7 Jahre Intel und keinen Stress....

1696490679071.png
 
Am besten CPU umtauschen, hat bei gleichem Fehler am besten Abhilfe geschafft, war oft sogar die einzige Möglichkeit. (ryzen whea 18 google'n)
 
WHEA Fehler sind Fehler durch den Prozessor.

Passt der Prozessor zum Motherboard?
Prozessor übertaktet?
Wird der Prozessor zu warm?
Bios aktuell?
Chipsatztreiber neu installiert?
Prozessor defekt?
 
jomaster schrieb:
Fehlerquelle: Machine Check Exception
Fehlertyp: Cache Hierarchy Error
Typisches Problem bei Zen3, wenn die CCDs zu sehr auf Kante selektiert sind. UEFI Update (falls zu alt) kann das Problem beheben. Ansonsten gibts 2 Tests, die du machen kannst:

1. CPB (Core Performance Boost, nicht zu verwechseln mit PBO) deaktivieren. Das deaktiviert den Boost komplett, die CPU operiert nur noch bis zu ihrem maximalen Baseclock.

2. im Curve Optimizer mal +15 o. gar +20 counts (+30 ist max) für alle Kerne einstellen. Das führt dazu, dass eine höhere Kern-Spannung angelegt wird, als AMD für den Default vorgesehen hat.

Ersteres kostet dich natürlich ordentlich Performance. Zweiteres nur etwas (wahrscheinlich nur messbar). Kannst dich ja mal melden, ob eins der beiden geholfen hat.
 
  • Gefällt mir
Reaktionen: jomaster
jomaster schrieb:
Schwerwiegender Hardwarefehler.

Gemeldet von Komponente: Prozessorkern
Fehlerquelle: Machine Check Exception
Fehlertyp: Cache Hierarchy Error
Prozessor-APIC-ID: 12
Diese WHEA Fehler sind ja eigentlich ein Garantiefall, da gab es ja mal die Aussage von AMD das diese CPUs getauscht werden.

Was du mal probieren kannst, sind diese Einstellungen:

Zuerst die PCIe Lanes auf 3.0 ändern:

1696504412588.png

Bei 2 zuerst in Windows diese Einstellung vornehmen:

1696504474615.png

Danach erst im BIOS dieses ändern!

1696504566802.png


Jetzt zum RAM:

Diese Werte verwenden:
Du lässt den RAM am besten auf dem XMP Profil laufen und setzt diese Einstellungen.

1696505086720.png

Zusätzlich mal diese Einstellungen vornehmen:

1696505203378.png

1696505439800.png

Die CPU würde ich auch auf einem ECO Mode laufen lassen, am besten zuerst den 95W Eco Mode verwenden.

Zuerst hier die Einstellung ändern:

1696505611424.png

Danach unter Settings die Daten kontrollieren:

1696505694680.png


Hier kann man auch beim CO einen positiven Offset setzen.

Sollten danach immer noch WHEA 18 Fehler auftauchen musst du die CPU wohl wechseln da dann der Fehler in der CPU zu stark ist und er durch Einstellungen nicht mehr kompensiert werden kann.
 
  • Gefällt mir
Reaktionen: jomaster und qiller
Ja er hat die CPU halt gebraucht gekauft, wenn ich das richtig gelesen habe. Da ist schwierig mit Umtauschen.

Edit: Und es kostet Geld. Paar Einstellungen im UEFI durchzuprobieren kostet "nur" Zeit.
 
  • Gefällt mir
Reaktionen: jomaster und Müritzer
Danke an die Poster.
Ja das Problem ist der gebraucht Kauf. Da ist es mir Umtauschen schwierig. Nimmt inzwischen fast niemand, da viele Garantie nur für den Erstkäufer geben. Die Rechnung die ich mitbekam ist auch inzwischen eher schwer leserlich :/

Ich habe die Settings angepasst. einmal von @Müritzer und @qiller

Einzige was nicht ging war die ASPM Controll, das gibt es bei mir nicht
 
ASPM ist die Stromsparunterstützung für PCIe Geräte. Würde ich eh abgeschalten lassen, da es dadurch zu neuen (evt. aber anderen) BSOD kommen könnte. Die anderen Einstellungen von Müritzer dienen eher dazu, den XMP-Modus zu stabilisieren, denn nicht selten stellen Mainboards beim Aktivieren von XMP irgendnen Müll ein.

Ich bin eher der Schritt-für-Schritt-Fan und würde den RAM komplett mit Jedec-Setting ohne XMP und manuellem Tuning betreiben, um den RAM (und damit auch den IMC und den IF) komplett aus der Gleichung zu nehmen. Dann kann man praktisch alle Settings auf "Auto" lassen und die einzigen Anpassungen, die man machen muss, sind im PBO-Menü bzw. vor allem im Curve Optimizer (am besten auch erstmal ohne CPB zu deaktivieren, das ist nur ne Notlösung). Das testet man erstmal ausgiebig!! (evt dann nach und nach die CO-Werte anheben) und stellt sicher, dass das System auch wirklich!! keinerlei WHEA-Fehler mehr schmeißt (das kann übrigens mehrere Tage dauern, bis man das sicher weiß). Wichtig bei den Tests: Meistens kommen die Fehler nicht bei Volllast, sondern bei Wechsellast. Evt. hilft hier auch der CoreCycler weiter.

Wenn das dann tatsächlich das Problem behoben hat, kann man wieder einen Schritt vorwärts gehen und sich dem XMP-Modus widmen.
 
Zuletzt bearbeitet:
Ist leider ein bekannter Fehler bei Ryzen 5000!
Bei mir war es 2x ein defekter Ryzen 5800X, beide aus einer frühen Charge.
Erst die 2. Ersatz-CPU, also die 3. CPU die ich bei mir einbaute, lief bei mir problemlos.
Da ich die CPU über den Großhandel bezogen habe, konnte ich nicht einfach den Händler wegen Garantie/Austausch nutzen.
Habe über Wochen mit dem AMD First und Second Level Support kommuniziert, die hielten mich für blöd.
War das Erste und Letzte Mal AMD für mich....
 
qiller schrieb:
Die anderen Einstellungen von Müritzer dienen eher dazu, den XMP-Modus zu stabilisieren, denn nicht selten stellen Mainboards beim Aktivieren von XMP irgendnen Müll ein.
Nein nicht alle Einstellungen sind für die Stabilität des XMP Modus verantwortlich.
LCLK DPM ist für die Stabilität der PCIe Anschlüsse verantwortlich.
Siehe hier:
Um alles noch zu verbessern kann man die Frequenz auch noch ausloten, habe das mal versucht und festgestellt das falls eine GPU und teilweise auch das MB dieses Spulenfiepen hat mit dem festlegen auf eine genaue Frequenz dieses zu verringern ist oder sogar teilweise komplett verschwindet.
Das ausloten ist ein langwieriger Prozess da man nicht nur die LCLK DPM Frequenz ausloten muss sondern auch die der CPU und der NB/ SoC Frequenz.

Alle die markierten Einstellungen muss man ausloten.
Da bei mir kein Spulenfiepen auftritt habe ich das alles normal gelassen mit dem Frequenzausloten.

1696581919413.png


1696581408529.png


Das habe ich getestet und konnte das auch so feststellen.
Schade ist ja das keine der großen Computer Zeitschriften mal auf die ganzen Einstellungen im BIOS eingeht, da kann man nicht nur Energie sparen sondern auch das System optimal und stabil einstellen.

1696582136661.png


Diese Einstellung sollte man auf disabled stellen wenn man Probleme mit Treibern hat die im Windows Sicherheitscenter dafür sorgen das die Kernisolierung Fehler anzeigt.
Bei mir macht ein Treiber Probleme für meinem Drucker der von MS nicht eine Signatur hat. Ohne den Treiber funktioniert mein Drucker nicht und über die Treibersuche von Windows Update wird aber genau dieser Treiber auch vorgeschlagen.

Die anderen Einstellungen wie PPS Support, Spread Spectrum, Global-C-Support u.s.w. sind ja eigentlich bekannt oder sollten es sein. Die sind fast alle für die Energieversorgung zuständig.
 
Hallo @jomaster ,

mein Bruder hatte genau den gleichen Fehler, er hatte die Vega 56. Er hat sich eine neue Grafikkarte gekauft und der Fehler war weg. Wir haben viel gelesen das es bei den meisten fällen an der Grrafikkarte liegt.

Gruss
 
Zurück
Oben