DDR4 ECC Speicher Kingston vs Mushkin

mae · 24. Oktober 2025

foofoobar schrieb:
@qiller Der regelmäßige Scrub soll ja gerade verhindern das aus einem correctable ein uncorrectable Error wird.
Und correctable Errors landen regulär im syslog.

Uncorrectable errors auch. Nur wenn der Fehler zufaellig einen kritischen Teil des Betriebssystems erwischt, gibt's einen Absturz. http://www.complang.tuwien.ac.at/anton/failing-memory.html berichtet z.B. von 18 UEs und 1CE in den logs.

foofoobar · 24. Oktober 2025

@mae Jeder uncorrectable Error sollte die Maschine anhalten!

mae · 24. Oktober 2025

@foofoobar Macht er nicht und das ist gut so. Warum soll die Maschine stehenbleiben, wenn ein UE in einem unbenutzten Teil des Speichers ist? Oder im Speicher eines Prozesses; in dem Fall den Prozess beenden und der Rest des Systems kann weitermachen.

foofoobar · 25. Oktober 2025

@mae Ich kenne es so von Enterprise-Kisten und finde das auch sinnvoll und richtig, bedenke dabei das ECC bei mehr als 2 kaputten Bits undefiniert ist.
Man will sich ja seine Lebensberechtigungskarte nicht kaputt rechnen lassen.

mae · 25. Oktober 2025

foofoobar schrieb:
@mae Ich kenne es so von Enterprise-Kisten und finde das auch sinnvoll und richtig, bedenke dabei das ECC bei mehr als 2 kaputten Bits undefiniert ist.

Ein UE betrifft 64 bits, und die sind nicht undefiniert, sie sind wahrscheinlich falsch (also wenn man die zusaetzlichen Bits ignoriert). Deswegen wird man sie auch nicht verwenden.

Und ich bin mir sicher, dass das Verhalten von Linux im Fall von UEs nicht fuer Consumer-Geraete eingebaut wurde, sondern vor allem weil die Hyperscaler nicht alle Prozesse auf einer ihrer grossen Maschinen mit >100 cores in den Wind schiessen wollen, nur weil beim Scrubbing in einem unbenutzen Speicherbereich ein UE gefunden wurde. Die wollen maximale Verfuegbarkeit und wenn schon Downtime, dann planbar. Aber vielleicht sind das keine Enterprise-Kisten.

Wenn der bei einem Zugriff von einem User-Prozess auftritt, wird das OS den Prozess wohl beenden, es gibt aber keinen Grund, alle anderen Prozesse zu beenden.

Wenn der UE beim Scrubbing auftritt, gibt es verschiedene Moeglichkeiten:

1) In jedem Fall den Vorfall loggen; dann kann die Wartungsmannschaft entsprechende Massnahmen ergreifen.

2) Wenn die Speicherstelle derzeit nicht in Verwendung ist, einfach die Seite, in der die Speicherstelle liegt, als kaputt markieren, sodass sie nicht ausgegeben wird.

3) Wenn die Speicherstelle in Verwendung ist, kann das OS entweder nichts machen, und sich darauf verlassen, dass bis zu einem eventuellen Zugriff der Speicher weiterhin einen UE liefert (und dann siehe oben). Oder das OS will auf Nummer sicher gehen, und markiert die ganze Seite als kaputt und entzieht dem Prozess die Zugriffsberechtigung; dann wird der Prozess bei jedem Zugriff auf irgendeine Speicherstelle in der Seite beendet.

Man will sich ja seine Lebensberechtigungskarte nicht kaputt rechnen lassen.

Natuerlich nicht, aber man will auch keinen Lockdown ueber eine Grossstadt verhaengen, weil in einem abgesperrten Park ein Baum umgefallen ist.

foofoobar · 26. Oktober 2025

mae schrieb:
Die wollen maximale Verfügbarkeit und wenn schon Downtime, dann planbar.

Ohne Redundanz gibt es keine planbaren Downtimes.

Khorneflakes · 3. November 2025

Um mal wieder auf das eigentliche Thema von @Don-DCH zurückzukommen, mein System läuft jetzt seit ein paar Tagen. Konnte bisher nichts negatives über die DIMMs sagen.

Suche

DDR4 ECC Speicher Kingston vs Mushkin

mae

Commander

foofoobar

Rear Admiral

mae

Commander

foofoobar

Rear Admiral

mae

Commander

foofoobar

Rear Admiral

Khorneflakes

Lt. Commander

Ähnliche Themen

Passend zum Thema

Speicherpreise im Check HDD-Preise steigen deutlich, SSDs & RAM legen leicht zu

DRAM besser ausnutzen AMD kauft KI-Startup MEXT für sein Data-Center-Portfolio

Mehr Speicher für Alle SK Hynix will Fertigungskapazität „schnell“ verdreifachen