Wie viele ECC-Fehler sind üblich?

SlaterTh90

Lt. Commander
Registriert
Nov. 2014
Beiträge
1.854
Hallo,

ich bin gerade dabei einen Server zu testen. Hardware ist folgende:
  • Ryzen 7 2700x
  • 2x16GB DDR4 ECC (16GB Kingston KSM26ED8/16ME DDR4-2666 ECC DIMM CL19 Single)
  • Asrock X470D4U
  • 1x 240GB Boot-SSD
  • 2x480GB VM-SSD
  • Seasonic Focus PX-550W 80+ Platinum
Ich habe Proxmox frisch installiert und alles läuft wunderbar wie erwartet. Der RAM wird mit 2400Mhz betrieben wie laut Anleitung vorgesehen für die CPU/Mainboard/Speicher Kombination. Jedoch tauchen im Syslog immer wieder (so alle 2-3min mindestens ein mal) Meldungen auf, das ein Speicherfehler erkannt und behoben wurde:

Code:
Dec 10 21:35:26 pve kernel: mce: [Hardware Error]: Machine check events logged
Dec 10 21:35:26 pve kernel: [Hardware Error]: Corrected error, no action required.
Dec 10 21:35:26 pve kernel: [Hardware Error]: CPU:0 (17:8:2) MC16_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000000011b
Dec 10 21:35:26 pve kernel: [Hardware Error]: Error Addr: 0x0000000009178880
Dec 10 21:35:26 pve kernel: [Hardware Error]: IPID: 0x0000009600150f00, Syndrome: 0x00000a400a400103
Dec 10 21:35:26 pve kernel: [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.
Dec 10 21:35:26 pve kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#1 (csrow:3 channel:1 page:0x122f1 offset:0x80 grain:1 syndrome:0xa40)
Dec 10 21:35:26 pve kernel: [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
Die "Error Addr" variiert dabei fast immer etwas, der "Syndrome" Code ebenfalls.

Ich habe direkt mal Memtest86+ für fast 24h laufen lassen, ein Pass mit ECC aktiviert und drei Passes mit ECC deaktiviert. Alles ohne Fehler durchgelaufen. In proxmox aber wieder die selben Fehler mit der selben Häufigkeit. Ist sowas normal? Alle 2-3min ein Single-Bit Fehler kommt mir etwas sehr viel vor für gerade mal 32GB RAM. Vor allem hätte ich dann ein scheitern von Memtest erwartet, jedenfalls bei den Durchläufen ohne ECC.
 
Normal sollten gar keine ECC fehler auftauchen. Hab schon Server gesehen die nach 8 Jahren 0 ECC fehler im BIOS Protokolliert haben.
Memtest86+ ist so eine Sache. Hatte schon PCs die erst nach 6-7 Stunden und mehreren Durchläufen auf einmal Ram Probleme aufzeigten.
Normalerweise werden ECC Fehler auch im BIOS Protokolliert und sind dort einsehbar.
 
Memtest86+ ist sehr veraltet und unterstützt kein DDR4 soweit ich weiß. Bitte das normale Memtest86 nutzen.
 
MemTest86 v8.3 Free Edition Download


  • IMPORTANT: MemTest86 V8 images support only UEFI boot. On machines that don't support UEFI, MemTest86 will not boot. Please download the older V4 BIOS release of MemTest86 instead.
  • Installation and usage instructions are available on the Technical Information page
  • MemTest86 is a stand-alone program that does not require or use any operating system for execution. The version of Windows, Linux, or Mac being used is irrelevant for execution. However, you must use either Windows, Linux or Mac to create a bootable USB drive.


alle datein runterladen und auf usb stick packen
 

Anhänge

Gut ich versuch nochmal nen Pass damit (mit ECC aktiviert), muss nur erst ne ISO fürs IPMI-Interface daraus machen.
 
Akkulaus schrieb:
Memtest86+ ist sehr veraltet und unterstützt kein DDR4 soweit ich weiß. Bitte das normale Memtest86 nutzen.

Der Software ist es egal in welcher Technologiemodus die Daten gespeichert werden. Die müssen richtig sein.
Was mir irgendwie ins Auge sticht ist der eintrag
Dec 10 21:35:26 pve kernel: [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD
Sortiere mal die RAMs in eine andere Reihenfolge und schau ob dann immer noch
EDAC MC0: 1 CE on mc#0csrow#3channel#1
Auftritt. Dann ist evtl. der Cache der CPU oder der Speichercontroller defekt.
 
@wern001 Der Software ist das überhaupt nicht egal ;) Es muss schon Kompatibel sein oder kannst du sehr alte Software auf Win 10 installieren? Sollte ja der Software egal sein. Aber falsch. Es ist nicht kompatibel. Merkst du was?
 
Der Vergleich hinkt.
Das Memtest-Iso bringt ja das passende "OS" für die ausgeführte Memtestversion mit sich.
 
ECC_Error.png
ecc_test.png


Also der Test ist auch "erfolgreich" durchgelaufen, mit einem korrigierten Fehler. Von der Fehleranzahl kann das schon hinkommen auf 7 Stunden. Ich glaube ich teste trotzdem nochmal beide DIMMs einzeln.

EDIT: Hab den 10. Test nochmal gestartet und nach 3min schon 5 Fehler. Seltsam.
 
Akkulaus schrieb:
@wern001 Der Software ist das überhaupt nicht egal ;) Es muss schon Kompatibel sein oder kannst du sehr alte Software auf Win 10 installieren? Sollte ja der Software egal sein. Aber falsch. Es ist nicht kompatibel. Merkst du was?

memtest 86+ ist keine windows software. Das Teil hat ein eigenes BS
 
Also beide RAM-Sticks haben massive Probleme beim 10. Test. Ich hab jetzt mal einen Riegel aus meinem Desktop eingebaut und werde mal sehen wie der sich so schlägt. Wenn da keine Probleme auftreten wirds wohl am Speicher liegen.
 
Hier stand Mist.
 
@user_xy Das ist auch mein Desktop. Hier gehts um ein ganz anderes System (auch wenn die CPU gleich ist). Die Riegel aus dem Desktop haben kein ECC und sind bis 3200Mhz spezifiziert.
 
Ja, ich hatte mir kurz nach absenden meines Posts deinen Startpost nochmal durchgelesen und mir ist mein Fehler aufgefallen. Hab ihn dann gleich editiert doch du warst schneller mit deiner Antwort.

Dein Board unterstützt offiziell ECC und der Speicher steht auch in der QVL. Kann dies als Fehler schon mal ausgeschlossen werden.

Die normalen Ryzen CPU's sollen angeblich ja auch ECC unterstützen können. AMD hält sich aber bedeckt mit seinen Aussagen darüber. Mit den Threadripper CPU's garantiert AMD aber ECC Support.
 
Zuletzt bearbeitet:
ECC funktioniert ja, sogar ziemlich gut. Nur die Menge an Fehlern, die korrigiert werden, ist sehr sehr hoch. Das selbe Board mit Samsung ECC und R5 2600 läuft einwandfrei.
 
Hast Du den Speicher auch mal mit abgeschalteter ECC-Funktion getestet? Ich frage nur aus Neugierde.
 
DarkSoul schrieb:
Hast Du den Speicher auch mal mit abgeschalteter ECC-Funktion getestet? Ich frage nur aus Neugierde.
Sowohl mit als auch ohne. Ich tippe mal auf einen Softwarefehler irgendwo. Ich hab gelesen, dass Kingston schon mal solche Probleme mit einigen Supermicro Mainboards hatte. Mit dem "Gaming" Ram läuft alles fehlerfrei durch, Board und CPU sind also wohl in Ordnung. Ich denke mal die paar € mehr für Samsung Ram lohnen sich dann am Ende doch....
 
  • Gefällt mir
Reaktionen: DarkSoul
Bitte gib doch mal Bescheid ob die Probleme mit dem Samsung Speicher immer noch auftauchen. Danke Dir.
 
SlaterTh90 schrieb:
Ich hab gelesen, dass Kingston schon mal solche Probleme mit einigen Supermicro Mainboards hatte.
Glaub nicht allen Mist der verzapft wird. Immer wenn sowas über komplette Marken erzählt wird ist das quatsch.
Klar gab es eventuell mal 1 Kingston Produkt, was irgendwo nicht lief. Das ist dann aber kein "Kingston" Fehler sondern ein Problem mit einem einzelnen, speziellen Produkt und nicht auf andere Fälle übertragbar.
Kingston ist einer der größten Modulhersteller, das passt üblicherweise schon.

Ob ECC an oder aus ist spielt keine Rolle.
Ein Fehler ist ein Fehler. Der einzige Unterschied ist, dass bei ECC ein korrigierbarer Fehler nicht zum Systemabsturz oder anderen Fehlern führt. ECC verhindert keine Fehler, es verhindert dass einfache (Single-Bit) Fehler Auswirkungen auf den laufenden Betrieb haben.
Trotzdem sollte das fehlerhafte Modul zeitnah ausgetauscht werden.

wern001 schrieb:
Der Software ist es egal in welcher Technologiemodus die Daten gespeichert werden. Die müssen richtig sein.
Das ist grundsätzlich schon richtig, allerdings solltest du dir mal die memtest Optimierungen durchlesen und was die einzelnen Tests eigentlich tun.
Es wird ja nicht einfach nur der RAM vollgeschrieben und dann wieder ausgelesen und verglichen. Das ist viel zu simpel für einen guten RAM Test.
Es werden spezielle Muster geschrieben, die teilweise für die jeweilige Plattform und Technologie optimiert sind.
Der Test eines aktuellen Systems mit dem veralteten memtest86+ führt unter Umständen zu false positives als auch zu false negatives. Sprich das Ergebnis ist einfach nicht wirklich zuverlässig uns aussagekräftig.
Ich erinnere hier mal an die Einführung von AMDs ganged und unganged mode, was für damals für den alten memtest86 eine große Hürde war.
Ja, wenn der DDR4-RAM wirklich stärker kaputt ist, dann siehst du das auch mit memtest86+ ganz deutlich.
Aber grade bei sporadischen und sehr "einfachen" Fehlern bekommst du halt ein aussagekräftiges Ergebnis.
 
@h00bi Ich frage mich nur warum das ganze so komisch lief. Zwei tote Riegel auf einmal ist schon eher unwahrscheinlich. Dazu extrem viele ECC korrigierte Fehler, aber keine „richtigen“. Ohne ECC sollte memtest ja Fehleranzeigen wenn echt Zellen kaputt sind. Ich habe schon zwei Samsung Riegel mit den selben Specs auf dem Weg, mal sehen ob die besser sind. Gibt sonst auch keine, entweder die Chips sind von Micron oder von Samsung. Die Marke an sich ist egal.
 
Zurück
Oben