Hardwarefehler aus dem nichts..

Janoe

Lt. Junior Grade
Registriert
Juni 2023
Beiträge
321
Hallo, habe vor gut 2 Wochen den Umstieg von Windows 10 auf Nobara gewagt.
Eigentlich wollte ich es nur etwas die verschiedenen Linux-Distros durchprobieren, weil ich gerade eine SSD "übrig" hatte, habe mich dann aber recht schnell umgewohnt und blieb dann erst einmal bei Nobara.

Soweit lief auch alles ganz gut. Vor einigen Tagen poppte dann einmalig beim Browsen plötzlich ein "Hardwarefehler" auf, das System lief aber weiter ganz "normal". Ich hatte mit dem System (5600x, 32GB DDR3 G.Skill, RX6600, MSI B550 A-Pro - alles auf Stock) bislang auf Windows nie auch nur das kleinste Problem. Ich habe mir den Fehler dann mal genauer angeschaut und dort folgendes im Log gefunden
[ 4265.643397] mce: [Hardware Error]: Machine check events logged
[ 4265.643400] [Hardware Error]: Corrected error, no action required.
[ 4265.643403] [Hardware Error]: CPU:1 (19:21:0) MC16_STATUS[Over|CE|-|AddrV|PCC|-|-|-|Scrub]: 0xc748019b4d52358b
[ 4265.643409] [Hardware Error]: Error Addr: 0x0000000000000000
[ 4265.643410] [Hardware Error]: IPID: 0x0000000000000000
[ 4265.643411] [Hardware Error]: Bank 16 is reserved.[ 4265.643412] [Hardware Error]: cache level: L3/GEN, tx: GEN

Liest sich jetzt für mich nach einem Problem mit der CPU.. Da mir so etwas keine Ruhe lässt habe ich mich auf Ursachenforschung begeben: Den RAM schließe ich eigentlich aus, einfach weil dieser schon mehrfach von mir alle möglichen Testszenarien durchlaufen hat (Memtest86 sowie Memtest86+ und Testmem alles lief problemlos durch). Auch Prime95 (via Corecycler) habe ich dann einige Nächte einfach mal verschiedene Settings durchlaufen lassen in der Hoffnung evtl. irgendetwas reproduzieren zu können. Doch nichts, keine Probleme. Nach langer Suche fand ich dann den Hinweis in einem Arch-WIki dass es wohl vorkommt dass Linux bei Ryzen die Voltage manchmal zu sehr absenkt. Das konnte ich jetzt leider nicht wirklich überprüfen einfach weil es auf Linux dies bzgl. einfach an Monitoring Tools zu fehlen scheint und ich deshalb keinen direkten Vergleich habe und der Fehler bisher auch nicht wieder aufkam.
Da ich mir Linux dahingehend noch wenig Erfahrung habe wäre ich dankbar für jede Hilfe wie man so ein Problem dort am besten eingrenzt.
 
Zuletzt bearbeitet:
Janoe schrieb:
Vor einigen Tagen poppte dann einmalig beim Browsen plötzlich ein "Hardwarefehler" auf
Wie war das zu sehen? Oder warst du schon andauernd im Log stöbern nach irgendwelchen Meldungen?

Wenn letzteres lasse das lieber sein, da steht so viel, das für dich nicht wirklich von Bedeutung ist. Wenn du dem nachgehen willst chekce doch mal was "MCE" ist, das scheint ja der Melder zu sein.
 
Janoe schrieb:
das System lief aber weiter ganz "normal".
Ja. Ist ja auch nix passiert. Steht sogar da: "Error corrected, no action required"

Das kann natürlich auch nur ein einmaliger Fehler gewesen sein. Wegen irgendeines äußeren Einflusses. Das scheint mir jetzt zunächst wahrscheinlicher zu sein als ein wirkliches Hardwareproblem.

Man könnte das aber natürlich trotzdem mal weiter beobachten und regelmäßig das Log dahingehend überprüfen, ob was wieder vor kommt. Falls nicht, würde ich mir erst mal keine wirklichen Sorgen drum machen.

Evtl. sollte man zusätzlich darauf achten, das man ein aktuelles BIOS hat und auch die CPU-Microcode-Patches brav eingespielt werden (möglicherweise kümmert sich Deine Linux-Distribution da sogar schon automatisch drum). Wenns da doch ein Problem gibt, werden solche Dinge ja gerne darüber korrigiert.
 
  • Gefällt mir
Reaktionen: sedot und Alexander2
Cache errors in the processor or hardware

Scheint sich jedenfalls um das zu drehen:
https://www.advancedclustering.com/act_kb/what-are-machine-check-exceptions-or-mce/

evtl auch die Prozessortemperatur mal beobachten. Sind deine Lüfter vom Board geregelt also im Bios eingestellt oder hast du unter WIndows eine Software dafür genutzt?

Wenn letzteres... die selbe Software haste ja nun nicht. Also am besten ab ins Bios und die Lüfter passen einstellen.
Ergänzung ()

bei vielen Systemen dürfte sensors installiert sein um sich Temperaturen anschauen zu können, oder Graka Daten, dann kann man die selben werte zumindest unter KDE Plasma auch in deren Taskmanager einstellen zum darstellen.

Also wenn du ein wenig danach spezifisch suchen würdest könntest du schon was finden :-)

Ram speed kannste mit dmidecode auslesen zum Beispiel und vieles anders.
 
Alexander2 schrieb:
Wie war das zu sehen? Oder warst du schon andauernd im Log stöbern nach irgendwelchen Meldungen?
Meldete sich über die vorinstallierte "Problemberichterstattung" - abrt
andy_m4 schrieb:
Evtl. sollte man zusätzlich darauf achten, das man ein aktuelles BIOS hat und auch die CPU-Microcode-Patches brav eingespielt werden (möglicherweise kümmert sich Deine Linux-Distribution da sogar schon automatisch drum). Wenns da doch ein Problem gibt, werden solche Dinge ja gerne darüber korrigiert.
Bios ist aktuell. Denke das einzige was ich an diesem Punkt tun kann ist tatsächlich warten ob es häufiger vorkommt. Sonst fällt mir auch nichts anderes mehr ein.
Alexander2 schrieb:
evtl auch die Prozessortemperatur mal beobachten. Sind deine Lüfter vom Board geregelt also im Bios eingestellt oder hast du unter WIndows eine Software dafür genutzt?
Die ist okay, die konnte ich auch auf Linux auslesen. Temperaturen sind völlig im Rahmen aktuell bei 37°. Bei Prime unter Windows erreiche ich Maximal 77°.
 
Unter original Fedora kommen Fehlermeldung des öfteren vor, ist eben bleeding edge. Das sind immer mal wieder Softwarebugs die man mit Fedora hat. Ich klick dann meist auf Bugreport senden. Und ignorier das.
 
Hmm. Aber Hardwarefehler? Was ich jetzt dazu las hat sich eben gelesen als ob das im Grunde kein Softwareproblem sein kann? Gut, ich habe jetzt nach etwas Fummelei Zenmonitor installieren können, dort habe ich gesehen, dass die Core Voltage im Idle bei Linux auf 0,93v liegt während sie bei Windows auf dem selben Sensor bei ~1.2v liegt liegt. Windows taktet aber auch höher im Idle. Werde es jetzt mal im Auge behalten und ggf. einfach mal ein Offset draufpacken und sehen was passiert.
 
Janoe schrieb:
[ 4265.643403] [Hardware Error]: CPU:1 (19:21:0) MC16_STATUS[Over|CE|-|AddrV|PCC|-|-|-|Scrub]: 0xc748019b4d52358b

Liest sich jetzt für mich nach einem Problem mit der CPU.. Da mir so etwas keine Ruhe lässt habe ich mich auf Ursachenforschung begeben: Den RAM schließe ich eigentlich aus, einfach weil dieser schon mehrfach von mir alle möglichen Testszenarien durchlaufen hat (Memtest86 sowie Memtest86+ und Testmem alles lief problemlos durch). Auch Prime95 (via Corecycler)
"Scrub" deutet auf einen Fehler beim Scrubbing, das wird sich schwerlich mit Stresstests wie memtest & Co nachstellen lassen. https://en.wikipedia.org/wiki/Data_scrubbing

Ansonsten ruhig mcelog oder rasdaemon installieren und laufen lassen.
edac-util liefert auch Infos und unter /sys/devices/system/edac findet sich auch diverses Zeug.
Ergänzung ()

andy_m4 schrieb:
Wenns da doch ein Problem gibt, werden solche Dinge ja gerne darüber korrigiert.
Bis es irgendwann nicht mehr korrigiert werden kann.
 
  • Gefällt mir
Reaktionen: Janoe und Linuxfreakgraz
foofoobar schrieb:
"Scrub" deutet auf einen Fehler beim Scrubbing,
Dank dir das ist jetzt mal ein Ansatzpunkt. Kann das auch damit zusamenhängen, dass es hier kurz vor dem Fehler einen Stromausfall gab also das System praktisch kurz ohne Strom war? Windows führte danach nämlich auch kurz Chkdsk (Habe SSDs eine mit Windows eine mit Linux) aus.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Linuxfreakgraz
Zurück
Oben