AMD Server Zuverlässigkeit

mawa78

Cadet 4th Year
Registriert
Apr. 2004
Beiträge
105
Hallo Allerseits,

bei uns in der Firma laufen bisher nur Intel Server. Diese laufen idr. auch alle sehr sehr zuverlässig und man hat keinen Grund zur Beanstandung. Auch was die Verwaltbarkeit (BMC usw.) etc. angeht, ist die Administration sehr angenehm.

Da wir bisher noch keine AMD Server in Verwendung haben und man so eine Investition ja nun mal nicht zum Spaß tätigt, würde ich gerne von euren Erfahrungen profitieren. Gerade mit Hinblick auf die neuen Epic Prozessoren. -> https://www.computerbase.de/2023-06...-zen-4c-kern-cpu-wirft-ihren-schatten-voraus/

Bei uns kommt eigentlich immer Ubuntu Server als LTS in der jeweils neusten Version zum Einsatz, wenn die Hardware dann besorgt und einsatzbereit ist. Der Einsatzbereich ist hauptsächlich R aber auch Samtools werden verwendet. Es entsteht also dauerhaft viel CPU Last auf möglichst vielen Kernen.

Wichtig wäre mir vor allem die Zuverlässigkeit im 24/7 Dauerbetrieb. Wenn die Kiste alle paar Tage "rummuckt" ist das nicht sehr dienlich.

Vielen Dank für eure Antworten schon mal im voraus. LG
 
Wir haben Ende letzten Jahres sechs neue HP ProLiant DL345 Gen10 Plus mit AMD EPYC 75F3 32-Cores bekommen. Installiert als OS ist ESXi 7. Einer davon hat sich nach ein paar Wochen unerwartet neu gestartet, da die CPU fehlerhaft war. Lief danach zwar wieder, kam aber in den Wartungsmodus bis der HP-Techniker die CPU getauscht hat. Seitdem tadellos und keine Ausfälle. Das kann dem Badewanneneffekt geschuldet sein und aus einem Einzelfall kann ich jetzt weder die bessere, noch die schlechtere Zuverlässigkeit ableiten. Als Anekdote aber hilfreich allemal, denk ich.
 
  • Gefällt mir
Reaktionen: azereus, Makso, hpxw und 2 andere
wir haben letztes Jahr unsere Server auf auf von Intel auf EPYC 74F3 (HPE ProLiant DL385 Gen10 Plus) umgestellt und seitdem keine Probleme gehabt. Performance Unterschied war spürbar. Server laufen 24/7 mit ESXi 7
 
  • Gefällt mir
Reaktionen: azereus, Makso und mawa78
Nicht die CPU ist problematisch sondern die anderen Komponenten sind in der Regel für die Zuverlässigkeit verantwortlich.
Neue Plattformen und damit auch CPU sind natürlich erstmal mit Vorsicht zu genießen.
Wichtig ist vor allem ein guten Support mit zu kaufen.
 
  • Gefällt mir
Reaktionen: azereus und mawa78
Ja genau darum geht es mir auch, CPU sind in den seltensten Fällen schuld aber das drumherum bzw. die Plattform und da hab ich bisher leider nie Erfahrungen sammeln können.
 
wir setzen mehrere dell poweredge 6515 (single epyc 7262) fürs (nvme-only) storage und poweredge 6525 (dual epyc 7542) für virtualisierung mit proxmox seit anfang 2020 ein. läuft soweit, ältere (vor 2020) intel kisten im virtualisierungsbereich werden nach und nach durch amd ersetzt. sind schon schicke maschinen :)

1685967536794.png
 
  • Gefällt mir
Reaktionen: King_Rollo, azereus, derlorenz und 6 andere
Haben auch mittlerweile 8 Supermicros mit AMDs im Einsatz, auch Proxmox. Wir updaten regelmäßig und starten dann durch, aber außerhalb dessen noch keine Crashes oder sonstiges.

Der Serviceprozessor/Management-Board von Supermicro dagegen überzeugt mich nicht so recht...
 
  • Gefällt mir
Reaktionen: azereus
Ja, einen Supermicro haben wir auch einen und es ist etwas müßig :/
 
  • Gefällt mir
Reaktionen: azereus und Makso
ESXi / vSphere Cluster. Getrennt nach Intel (alt) und AMD (neu). Probleme gerade aktuell ja, aber ein Firmware Thema, offenbar Fehlerhaft…

Daher gerade das Update ausgesetzt. Sonst top. P/L und Performance/Watt um Lichtjahre besser :D
 
  • Gefällt mir
Reaktionen: mawa78 und azereus
Ganz im Ernst, wenn du 10 Server hast, dann kannst du bei ner noch so schlechten Platform Glück haben oder bei ner noch so guten Pech.

Wirkliche Aussagen kannst du ab nen paar hundert treffen, aber auch hast du mal mehr oder weniger Pech.

Ich habe Erfahrung mit so 10k Intel Servern und mit 4-5k AMD Servern aus den unterschiedlichsten Generationen.

Hat alles seine Probleme gehabt. Man kann aber generell sagen, das egal ob Intel oder AMD keines der Systeme mehr die Stabilität der Haswell Generation erreicht hat. Das kam halt schon recht abgehangen auf den Markt. Das ist jetzt definitiv nicht mehr der Fall
 
Skysnake schrieb:
Hat alles seine Probleme gehabt. Man kann aber generell sagen, das egal ob Intel oder AMD keines der Systeme mehr die Stabilität der Haswell Generation erreicht hat. Das kam halt schon recht abgehangen auf den Markt. Das ist jetzt definitiv nicht mehr der Fall
Das "moderne" Zeug ist wesentlich hochgezüchteter als früher, entsprechend wirkt sich das aus.
Subjektiv auffällig sind dicht gepackte Blades.
 
Macht alles Probleme. Egal ob 4N2U, 1U Pizzaboxes oder 5U GPU Server.

Was relativ problemlos läuft sind 2U Kisten. Aber da hatte ich auch vielleicht mit den paar Dutzend auch nur Glück....

Wie du schon sagst, ist halt alles hochgezüchtet.
 
Zurück
Oben