ECC-RAM in Server mischen möglich?

PHuV schrieb:
Das mußt Du mir nun genauer erklären. Wir hatten bisher Dells, HPs, Sun Sparcs, RS6000 etc. Bei den Dells kann ich ja in ein erweiteres Konfigrationsmenü starten, wo ich die LAN NICs, Raids und Co. konfiguriere. Meinst Du das etwa? Da habe ich ein Ramtest so noch gar nicht gesehen
Ich meine den GRUB bootloader. Da ist normal/meist bei den Linux Installationen ein Memtest mit dabei.

PHuV schrieb:
Na ja, wenn da Datenbanken und Co. dahinter stehen, will man durch fehlerhaftes RAM keine fehlerhafte Einträge oder gar einen korrupten Zustand der Datenbank riskieren. Daher sollte das produktive System nicht gestartet werden, bis der Test abgeschlossen ist.
Der RAM tut ja auch. Man weiß sehr schnell ob er wirklich richtig hinüber ist, weil er eben nicht sichtbar ist, aber mit falschem speed läuft.

Genauso sieht man, wenn viele ECC Fehler vorhanden sind. Dann passt die Performance auch nicht, oder das Monitoring schlägt halt wie gesagt an.

Bis so 10 ECC errors in 24 Stunden sind kein Problem. Das passiert halt manchmal. Auf die Performance hat das an sich auch keine Auswirkung. Es sei denn man hat einen feingranularen Job auf Tausenden von Knoten laufen. Da muss man dann davor doch noch kräftiger schütteln...

Wenn du jetzt aber 3 ECC in 24h hast ist das ok. Wenn es 10 oder 20 sind, ist das noch nicht schlimm deutet aber darauf hi , dass da was im Busch ist. So nen Dimm tauscht man dann halt einfach präventiv oder steckt ihn erst mal neu. Das hilft schon oft. Danach läuft das Dinf halt wieder.

Bei uns sind aber auch immer hunderte von Systemen da die austauschbar sind. Da juckt es nicht wenn mal eines fehlt.

Ne Datenbak hat mit ECC auch keine Probleme. Wenn dann hat Sie mit UECC ein Problem. Wobei auch das ist meist auch kein Problem, weil das System dann meist direkt abschmiert. Dann ist es nur wie bei nem Stromausfall.

Blöd wenn der UECC in den Daten auftaucht. Aber auch das sollte wegen journaling an sich keine Probleme machen.

PHuV schrieb:
Wie lange macht Ihr dann so einen Test?
Bei nem komplett neuen System mit Hunderten bis Tausenden Systemen wird schon richtung Wochen geschüttelt bis das alles sauber läuft und für Produktion fertig ist. Für kleinere Systeme geht es aber auch in nem Tag burnin und danach wird halt kontinuierlich weiter gemonitored.

Fertig ist man an sich nie. Bei den großen Systemen geht ja auch fortlaufend irgendwas kaputt....

Wenn es mal nen einzelner Knoten ist, dann je nachdem was gemacht wurde und wie kritisch.das System ist zwischen nem Schnelltest in <1h bis 8h wenn es komplexer ist.

Wenn aber z.b. systematische Probleme vermutet werden, dann läuft aber auch mal was für Tage oder Wochen auf Dutzenden bis Tausenden Systemen.

Ich sehe aber durch die vielen Systemen teils auch Probleme die z.b. nur jeden hundertsten oder tausendsten Boot auftreten. Für mich ist das teils aber ein richtiges Problem, da wenn man 1000 Systeme hat, selbst etwas mit 1 zu 500 hat, eben nie das ganze System geboten kann ohne manuell einzelne Knoten anfassen zu müssen. Das willst du nicht wirklich haben. Aber wer bootet schon einen Server tausend oder zehntausend mal am Tag? Da bekommt man halt auch sehr u wahrscheinliches sehr gut zu Gesicht.

Mit 5 Servern wirst du das nie sehen. Selbst wir kennen oft genug unsere "Pappenheimer" recht schnell mit dem Vornamen. Sprich die Probleme konzentrieren sich meist auch noch auf wenige Systeme. Also selbst wenn du 100.000 mal ein System rebootest sieht du das Problem eventuell nicht, weil es halt ein "guter" Knoten ist.
 
  • Gefällt mir
Reaktionen: PHuV
Zurück
Oben