Wie wichtig ist ECC-Ram?

Wie wichtig ist ECC-RAM für ein Webserver?

  • Jeder Server brauch ECC!

    Stimmen: 25 43,1%
  • Wenn Budget da ist nehmen.

    Stimmen: 16 27,6%
  • Brauch man nicht.

    Stimmen: 17 29,3%

  • Umfrageteilnehmer
    58
Da sind übrigens Samsung B-Die drauf. Wenn du da etwas Zeit investierst, sollte da sogar noch "anständiger" Takt bei rumkommen. ;)
Das müsste bei laufenden Berechnungen, bzw stark CPU lastigen Szenarien, nochmals etwas an Leistung bringen.
 
snaxilian schrieb:
Darf man fragen wozu jede VM bzw. jeder Webserver seine eigene NIC bekommen soll? Server mit 2 oder mehr NICs per LACP an den Switch und die VMs dann an jeweilige Bridges/vSwitche und in eigene VLANs wenn man trennen will.
Ich bin mir fast sicher, es sind gar nicht 10 NICs (=10 mal Interface-Hardware für insgesamt 10 Netzstrippen) gemeint sondern nur IP-mäßig ö.ä. getrennte Interfaces im VM-Zoo. Sost würden sich bei der Hardware ganz andere Fragen stellen als die nach ECC.
 
@ZeroCoolRiddler

Ne da passiert nichts an OC das Teil muss stabil sein 24/7.

@mensch183

Doch es sind 10 NICs. Also nicht 10 Single Port NICs sondern so 4er Intel Karten.
 
Stabilität und Overclocking schliessen sich nicht aus, sondern gehören zusammen. ;)
 
Stimme ich dir zu. Bis man das aber raus hat kostet es einfach zu viel an Personalkosten. Ich denke die 5-10% würden die Kosten dafür niemals rein holen.
 
Da stimme ich dir zu. Wenn es da um den geschäftlichen Bereich geht, auf den auch noch mehrere Mitarbeiter täglich angewiesen sind, ist es einfach zu zeitintensiv und kostet zu viel.

Wie wären statt 2x16GB denn 4x8GB um vom Quadchannel des X399 Gebrauch zu machen? Die zusätzliche Bandbreite sollte doch bei mehreren gleichzeitigen Zugriffen Vorteile mit sich bringen.

https://geizhals.de/kingston-server-premier-dimm-8gb-ksm26es8-8me-a1827961.html?hloc=de&v=e
 
Kingston steht leider nicht auf der QVL wenn es um ECC geht. Das tut zwar der Speicher, den ich ausgewählt habe zwar auch nicht, aber auf der Liste steht ein "M391A1G43EB1-CPBQ" was mit meiner Auswahl "M391A2K43BB1-CTD" wohl recht Nah kommt. Es sieht also zumindest mal nach der gleichen Serie aus.

Dazu kommt ich kann ich nicht sagen wie sich Kingston RAM mit Threadripper verhält. Mit Samsung hab ich halt Erfahrung (nutze ja selber Trident Z). Wenn es aber um ECC geht würde ich eher direkt zum Hersteller gehen, auch wenn man dafür ein paar Euro mehr zahlt.

Quad-Channel wird denke ich im nächsten Jahr kommen wenn wieder Budget dafür da ist, aktuell muss es halt Dual Channel machen. Aktuell läuft DDR 3 mit 1600 MHz sollte also Vergleichbar sein, wenn nicht sogar schneller.
 
ZeroCoolRiddler schrieb:
Stabilität und Overclocking schliessen sich nicht aus, sondern gehören zusammen. ;)
Stabilität in dem Bereich hat mit Overclockingspielzeug nicht viel zu tun. Bei einem gescheiten Server erwarte ich Fernwartungsfunktionen und ein Log seitens des Boards wenn ECC Fehler etc. auftauchen. Entsprechende Boards haben in der Regel keine Möglichkeit zum Übertakten eingebaut.
Naja eigentlich will man bei Servern auch 24/7 Supportverträge wo sich so oder so kein Dienstleister zumutet Komponenten außerhalb ihrer Spezifikation zu betreiben.

@CoolerMaster
Das ganze Konzept wird immer Merkwürdiger. Budgetgrenzen haben aber dicke CPU kaufen die dann auf Seiten des Arbeitsspeichers (vorerst) ausgebremst wird. Dafür aber je eine NIC je VM betreiben wollen anstatt 10GBe oder Bonding einzusetzen und den VMs dann virtuelle Schnittstellen anzubieten.
 
@Piktogramm

Nicht jeder arbeitet in einem Konzern oder einem groß Unternehmen welches zig Tausend Euro für Server alle drei Jahre ausgeben kann sobald die HW abgeschrieben ist. Die "dicke CPU" kommt auch nur rein weil X399 nur 170 € mehr kostet als ein 2700X System.... Für das Geld ergibt es einfach kein Sinn auf die Vorteile von vier Kernen mehr und X399 zu verzichten. Was bringen mir 10 GBit/s NICs wenn das gesamte Netzwerk nur 1 GBit/s hat? Evtl. einfach mal über den eigene Tellerrand schauen und nicht von sich selber ausgehen und bei Bedarf fragen statt einfach Sachen anzunehmen.
 
Die beiden Samsung haben unterschiedliche Chips, zu erkennen bei der Namensendung. B-Die und E-Die. Sollte kein Problem sein.
 
  • Gefällt mir
Reaktionen: Cool Master
Gerade wenn das Geld nicht so locker sitzt würde ich ja darauf achten, dass die Kohle sinnvoll eingesetzt wird. Eine dicke CPU mit zu wenig Ram und nur 1/2 der Speicherkanälen zu nutzen riecht nach Verschwendung. Ebenso eine Kiste mit ~10 Netzwerkschnittstellen. Da gibt es bessere Lösungen entweder gleich 10GBe oder aber Bonding.
Wobei die Anwendungen von denen wir wissen bisher: Webserver und DB-Server sind. Meist also weniger CPU-limitiert ist als es von Speicher profitiert. Da einfach mal 170€ für mehr Ram / schnellen Festspeicher / Backuplösungen / ein gescheiten Switch / Router zu haben wäre mir viel wert.

Das Thema bei ner kleinen Bude jede Anwendung in eine eigene VM zu bannen schon merkwürdig ist.
 
  • Gefällt mir
Reaktionen: rocketworm
Cool Master schrieb:
Der aktuelle Server (alter Ivy 3770)
Ist das Hobby oder beruflich? Einen Server auf der Basis einer Consumerplattform ist in Unternehmen ein No-Go.
Cool Master schrieb:
auch (größere) DBs laufen z.B. Inventar-System.
Dann würde ich auf jeden Fall ECC RAM verwenden, gerade auch wenn man ZFS nehmen möchte, wie es auch Matt Ahren, Mitentwickler des ZFS-Dateisystems, schreibt:
Man beachte die Reihenfolge, zuerst empfiehlt er ECC RAM und dann erst oben drauf ein Filesystem mit Prüfsummen wie ZFS zu verwenden, wenn man seine Daten liebt und vor Korruption schützen möchte!

ZFS ist für Server entwickelt und hat keinen wirklichen eigenen Schutz vor RAM Fehlern, außerdem nutzt es nichts, wenn die Daten schon bei der Übertragung im RAM korrumpiert werden.
majusss schrieb:
DDR4 produziert eh nicht mehr so viele Fehler wie DDR3.
Weil bei DDR4 wenigstens eine CRC zur Erkennung von Übertragungsfehlern eingeführt wurde.
majusss schrieb:
da deine Daten ja trotzdem unerkannt verrotten
Korrupte Daten kommen allenfalls aufgrund von FW Bugs oder Fehlern auf den internen Datenpfade der Platte oder des Host Controllers zustande, zumeist aber von RAM Fehlern des Rechners selbst. Natürlich passieren nicht laufen so viele RAM Fehler das die ganzen Kunden der billigen NAS ständig Ärger damit hätten, aber sie können vorkommen und wer mehr Sicherheit will, muss eben zu ECC RAM und dem passenden System greifen. Bei Consumer Hardware reicht es, wenn es meistens bei den meisten Leute funktioniert, dafür muss es aber billig sein. Erst wenn Fehler gehäufter auftreten, werden Gegenmaßnahmen ergriffen. So hat man bei PATA damit mit Einführung der schnellen Ultra-DMA Übertragung eine CRC32 für jedes übertragene Paket eingeführt und wiederholt die Übertragung, wenn die CRC nicht stimmt, bei bis zu 8192 Byte Daten pro Paket reicht eine CRC32 um praktisch jeden Fehler erkennen zu können. Fehler der Backplane oder das Datenkabels führen also zu Kommunikationsfehlern und damit der Wiederholung der Übertragung und somit zu Verzögerungen, im schlimmsten Fall zum Abbruch, aber niemals zu korrupten Daten! Bei DDR4 RAM hat man nun ebenfalls eine CRC bei der Übertragung eingeführt, aber die ersetzt kein ECC RAM, da sie nicht vor gekippten Bits im Speicher selbst schützt, sondern eben nur vor Übertragungsfehlern.

Die Sache mit dem "Datenrost", also das eine HDD einfach mal andere Daten liefern würde, ist ein Märchen, zumindest für die Consumer HDDs. Bei den Enterprise HDDs kann dies anderes sein, wenn sie auf 520 oder 528 Byte pro Sektor formatiert wurden (was bei SATA Platte überhaupt nicht geht), denn dann schreibt der SAS RAID Controller selbst seine Prüfsumme in diese zusätzlichen 8 / 16 Byte und stellt die Platte so ein, dass sie die Rohdaten ohne eine eigene ECC Prüfung und ohne wiederholte Versuche sollte diese scheitern, einfach so überträgt. Da hat dann aber der RAID Controller die Aufgabe dies zu erkennen und die Daten aufgrund der Daten von den anderen Platten zu rekonstruieren, den Sektor mit den falschen Daten zu überschreiben und dem Rechner die korrekten Daten zu übermitteln. Diese SAS RAID Controller haben mit den entsprechenden Platten also mehr Verantwortung und auch immer ECC RAM verbaut. Man macht das übrigens um zu hohe Antwortzeiten wegen wiederholter Versuche der Platte die Daten doch noch korrekt zu lesen, zu vermeiden. Bei SATA Platten geht dies halt nicht, dafür hat man dort die TLER/ERC, also einen Möglichkeit den Timeout einzustellen wie lange die Platte versucht einen Sektor doch noch korrekt zu lesen.

Eine andere Möglichkeit wo Platten korrupte Daten liefern sind die ATA Streaming Befehle für Echtzeitvideoaufzeichnungen. Da hat jeder Befehl einen eigenen Timeout und es wäre schlimmer Aussetzer als Pixelfehler im Video zu haben. Diese besonderen Befehle unterstützen Desktop und NAS Platte aber gar nicht und Windows oder Linux nutzt sie von sich aus auch gar nicht. Daher kann man auch Surveillance statt NAS Platten in so einen Server bauen, bei Nutzung der normalen Befehle haben die genauso eine gute UBER von 1:10^14 oder 1:10^15 und geben ebenfalls Lesefehler statt korrupter Daten wieder, wenn mal ein Sektor nicht mehr lesbar ist.
chithanh schrieb:
Ansonsten ist die Frage ECC oder nicht ECC primär, ob die Datenintegrität wichtig ist oder ob auch Mal Datenkorruption auftreten darf ohne dass es schlimm ist.
So würde ich es auch sehen, wenn man dann schon bei dem Thema knausern muss.
rocketworm schrieb:
Nen 16GB 2666MHz ECC RDIMM Modul
RDIMM läuft aber nicht mit TR, sondern nur mit EPYC, er braucht UDIMM, also unbuffered RAM.
Cool Master schrieb:
Was bringen mir 10 GBit/s NICs wenn das gesamte Netzwerk nur 1 GBit/s hat?
Wenn man einen Switch mit einem 10GbE Port hat, kann der diese auf die anderen Ports aufteilen und 10 Clients können mit je 1Gb/s gesättigt werden. Wenn aber der "Server" in einem Raum steht aus dem gerade eine Gigabit Leitung rausführt, dann bringt das natürlich nichts, aber dann bringen Dir 10 einzelne Gigabit NIC auch nichts.
 
majusss schrieb:
keine Ahnung warum Consumer HDDs auf einmal nicht dazugehören
Weil im Consumer Bereich in der Regel keiner Darüber redet/nachdenkt. Selbst im Business Bereich sind viele Ahnungslose unterwegs.
 
majusss schrieb:
Alle Speicher auf der Welt leiden unter Bitrot
Das Bits auf der Oberfläche der Platter oder auch bei SSDs im NAND falsch ausgelesen werden, ist normal und kommt immer wieder mal vor. So oft, dass man dagegen schon lange eine ECC hinter jeden Sektor schreibt um diese Fehler damit erkennen und korrigieren kann, sofern die Anzahl nicht zu hoch ist. Daher gehen dann die Daten korrekt raus oder es gibt einen Lesefehler als Antwort, aber eben keine korrupten Daten. Dies geht nur bei den SAS Platten, eben wenn man dies möchte und der SAS RAID Controller die Aufgabe die Fehler zu Erkennen und zu Korrigieren übernimmt und bei den ATA Streamingbefehlen, wo man genau dies möchte.
majusss schrieb:
keine Ahnung warum Consumer HDDs auf einmal nicht dazugehören
Consumer HDDs gibt es viele, auch solche die die ATA Streamingbefehle unterstützt und dann nicht ausgenommen sind und ansonsten hast Du scheinbar keine Ahnung wovon Du da schreibt und auch nicht verstanden was ich dazu geschrieben habe, sondern plapperst blind den Mist nach den man im Netz findet.
rocketworm schrieb:
Weil im Consumer Bereich in der Regel keiner Darüber redet/nachdenkt.
Wenn es ums RAM geht, ist das korrekt, da muss es vor allem billig sein. Bei HDDs ist es auch nicht so anderes, denn die Consumer HDDs haben oft nur eine UBER von 1:10^14, während bei Enterprise Nearline HDDs 1:10^15 üblich sind und bei den 2.5" mit 10 oder 15krpm sind auch 1:10^16 durchaus normal. Von daher ist bei es wahrscheinlicher das man bei viele Consumer HDDs (es gibt aber auch welche mit einer UBER von 1:10^15) Daten nicht mehr lesen kann, also Lesefehler bekommt und die Platte dann schwebende Sektoren hat, als bei Enterprise HDDs. Die meisten verstehen aber nicht dies unter Bitrot, sondern tun immer so, als würden die Platte falsche Daten liefern, was aber nur bei FW Fehlern oder bei Fehlern auf den internen Datenpfaden passiert, wenn während eine End-to-End Data Protection bei Enterprise Platten üblich ist, haben längst nicht alle Consumerlaufwerke diesen Schutz der internen Datenpfade.

Am wahrscheinlichsten werden Daten aber eben durch RAM Fehler korrupt, meist im Hauptspeicher, es kann aber auch in den Puffern der Controller passieren, z.B. auch im Puffer des Host Controllers, wobei die bei Enterprise Hardware eben auch davor geschützt sind.
 
  • Gefällt mir
Reaktionen: ZeroCoolRiddler
Zurück
Oben