Bericht Intel Xeon SP: Mit Skylake-SP auf der Purley-Plattform gegen AMD Naples

AMD hat schon eine recht starke Plattform mit Epyc gebaut.

Gute Chancen hat man mit EPYC sicherlich in folgenden Bereichen:

- Cloud-Anbieter
- HPC-Anwendungen ohne Vektor-Berechnungen
- HPC-Cluster mit GPU-Beschleunigung (spricht ja nix dagegen einen EPYC mit einer Tesla P100/V100 zu kombinieren)
- reine OpenSource Lösungen

In den Bereichen "Standard-Server" und "Standard-Software" für normale Unternehmen wird sich AMD erstmal schwer tun. Für Skylake-SP gibt es bereits ab heute entsprechende Server-Designs der großen "Fünf":

HPE ProLiant "Gen10"
Dell PowerEdge 14G
Cisco UCS "M5"
Fujitsu PRIMERGY "M4"
Lenovo ThinkSystem "SR***"

Man flutet quasi direkt am Tag-1 mit neuen Servermodellen den Markt, während für EPYC kaum etwas auf der Roadmap steht oder nur kleine Nischen-Produktlinien oder OEMS/ODMs (Asus, Gigabyte & Co) etwas anbieten.

Bei der Software im Enterprise wird es teilweise noch lange dauern, bis die AMD-Plattform offiziell unterstützt werden. Das ist AMDs große Schwäche, in punkto Ökosystem ist man einfach die letzten Jahre vollkommen vom Markt verschwunden.

In diesem Punkt haben die Intel Folien absolut recht.
 
Was für eine Schlammschlacht. Wenn es um den Servermarkt geht, macht Intel ernst, wie?
Ist zwar nicht die feine Art aber ich find's trotzdem amüsant. ^^
Aber dass sie sich so sehr an der "zusammengeklebter Desktop-Die" Geschichte aufhängen...Der Kern selbst stammt bei Intel ja auch vom Desktop ab. Die tun so, als wären Server-CPUs der Adel, Desktop-CPUs der gemeine Pöbel und AMD Eypic ein Bastard. :D
Aber im Kern sind sie doch alle gleich. ;)

Bin gespannt, wie es wird. Ein Aspekt, der hier nicht angesprochen wurde ist die Leistungsaufnahme. Ich denke wenn sich AMD da deutlich vor Intel absetzen kann, haben sie gute Karten sich hier wichtige Marktanteile zu sichern.
 
Simon schrieb:
[...]
Bei der Software im Enterprise wird es teilweise noch lange dauern, bis die AMD-Plattform offiziell unterstützt werden. Das ist AMDs große Schwäche, in punkto Ökosystem ist man einfach die letzten Jahre vollkommen vom Markt verschwunden.

In diesem Punkt haben die Intel Folien absolut recht.

Kurz aller Anfang ist schwer..auch der Neu-Anfang ;)
Da drücke ich AMD die Daumen, daß sie auch im Serversegment (wieder) Fuß fassen können, damit die Entwicklungskosten nicht für die Katz' waren...
 
rg88 schrieb:
Das Problem ist, dass die Werte vollkommen geraten sind.
Wie bescheuerst ist diese Antwort denn? Hast du nicht den ganzen Beitrag gelesen oder willst du nicht akzeptieren, dass Anandtech genau diese 2,2GHz als Basistakt auch für den schnellsten RYZEN 32 Kerner, den EYPC 7601 mit 180W TDP angibt? Wenn es geraten war, so war es ein Volltreffer und hat für das Spitzenmodell genau getroffen, die anderen 32 Kerner haben sogar nur 2,0GHz Basistakt. Träume weiter von einem EPYC 32 Kerner mit 3.x GHz Basistakt bei 180W TDP, diesmal ist so einer jedenfalls noch nicht dabei, wer weiß, vielleicht dann bei den 7nm Modellen.
 
Sry, das hab ich in der Tat wohl zu sehr überflogen. (Mein Fehler, hab den Beitrag entsprechend entschärft.)
Ich hatte die 2,7GHz AllCore im Kopf und das passte nunmal nicht zu den 2,2GHz.
Die 2,2 sind dann wohl eine Art Minimalwert die die CPU immer erreicht, die 2,7GHz solange die Auslastung nicht zu hoch ist und die TDP nicht überschritten wird, korrekt?
(Turbo ist natürlich klar.)
 
Holt schrieb:
Grakas sind bei Servern allenfalls für GPU Computing relevant..

Grakas sind überall dort relevant wo sich Thin Clients im größeren Einsatz befinden oder für Spiele/Anwendungsstreaming. Nicht umsonst gibt es seit langer Zeit entsprechende Karten und Server.

http://www.nvidia.de/object/cloud-gaming-gpu-boards-de.html
http://www.amd.com/de-de/products/graphics/server#3
https://www.supermicro.nl/products/nfo/NVIDIA_GRID_VDI.cfm

Auf jeden Fall sind solche Server weiter verbreitet als GPU Rechencluster die speziell darauf zugeschnittene Anwendungen benötigen.

Holt schrieb:
Diese SNC sind schon eine komplett andere Sache als die MCM.
Aber genau auf die Latenz und Bandbreite der Verbindung kommt es doch an und das ist das Mesh auf einem Die der Fabrc über Dies hinweg mit Sicherheit deutlich überlegen.

Die Frage ist, wie viele NUMA Node ein einzelner EYPC hat, wenn es nur einer ist, dann nutzt es nicht wenn die SW NUMA aware ist. .

Eine EPYC CPU hat 4 Numa Nodes. Das wurde schon mehrfach erwähnt.

Natürlich ist die Lösung von Intel eine andere als die von AMD. Es kommt aber am Ende nicht auf die Lösung an, sondern auf das Ergebnis. Ich kann nicht auch einer Seite selbst die Vorteile von einer "Quasi" Aufteilung anpreisen und auf der anderen Seite eine Aufteilung schlecht machen. Bei AMD sitzen auch keine Idioten und die haben sich ihrerseits Gedanken gemacht wie man die Nachteile von 4 zusammengelöteten Kernen reduzieren kann. Intel geht mit dem Mesh ja letztlich einen ähnlichen Weg ein, auch wenn die Technik dahinter mit ganz unterschiedlichen Geschwindigkeiten und Techniken läuft und man einzelne Kerne und keine Dies verbindet.

http://www.anandtech.com/show/11551...w-7000-series-cpus-launched-and-epyc-analysis

Es wurde allerdings schon hier im Thread erwähnt, das der SNC Modus nur eine Option sein soll. Die Entwicklung ist aber nicht von der Hand zu weisen. Mit jeder Reihe und Linie steigt die Latenz im Mesh, also teilt man das Die in 2 oder 4 Teile auf und macht vom Prinzip nichts anderes wie AMD. Dann hat jedes Minicluster auch keine 6 Speicherkanäle mehr usw.
 
Zuletzt bearbeitet:
Simon schrieb:
[...]

Bei der Software im Enterprise wird es teilweise noch lange dauern, bis die AMD-Plattform offiziell unterstützt werden. Das ist AMDs große Schwäche, in punkto Ökosystem ist man einfach die letzten Jahre vollkommen vom Markt verschwunden.

In diesem Punkt haben die Intel Folien absolut recht.

This!
Wobei man auch ganz nüchtern betrachten muss, dass es viele Anwendungsfälle gibt, wo Anpassungen nicht so enorm wichtig sind. Wenn die AMD Schüsseln Webserver und Datenbankinstanzen kosteneffizient ausführen können gibt es genügend Anwender, die diese Plattform ins Auge fassen werden. Genauso wie es in vielen Unternehmen kostengünstiger sein kann einfach etwas mehr / bessere Hardware zu kaufen anstatt die Software zu optimieren. Ein DevOp der vor sich hin optimiert kostet mit allen Nebenkosten ja fix mal 50.000 bis 100.000€ p.a. und bringt unter Umständen weniger Performance als Hardware zum gleichem Kurs.
 
xexex schrieb:
Intel geht mit dem Mesh ja letztlich einen ähnlichen Weg ein
Dagegen waren die Doppelringe der größeren Vorgänger Dies aber noch viel trennender für die Kerne der jeweiligen Ringe als es das Mesh ist.

Piktogramm schrieb:
Wenn die AMD Schüsseln Webserver und Datenbankinstanzen kosteneffizient ausführen können
Zumindest bei Aandtech mit MySQL hat das Dual Xeon 8176 das Dual EPYC 7601 System um 66,7% übertroffen, während das EPYC System bei JAVA sogar leicht die Nase vorne hat. Das ist ja auch kein Wunder, da bei Datenbanken ist viele Interaktion zwischen den Kernen der CPU nötig, da ständig abgesichert werden muss, dass jeder Client auf die korrekten zugreift und wenn einer Einträge lockt, dürfen die anderen diese nicht ändern, wurde sie von einem Client geändert, müssen von da an alle die neuen Daten kennen. Dies scheint hier gebremst zu haben, obwohl ein Read-Only Benchmark verwendet wurde.

Es gibt Anwendungen wofür EPYC sehr gut geeignet ist, weil er da optimal performt, aber wie erwartet und wie es schon bei RYZEN ist, sind dies Anwendungen bei denen die Kerne jeweils recht unabhängig auf einem eigenen Teil der Daten arbeiten, ohne wie Interaktionen untereinander zu haben. Man sieht dies auch bei den Floating Point Benchmarks, wobei auch die AVX Version von NAMD die neuen Möglichkeiten der Skylake-SP AVX Einheiten noch nicht wirklich zu nutzen vermag, liegt doch der Vorgänger praktisch gleichauf. Verstärkt wird dies noch durch die Leistungsaufnahme, wo die Dual EYPC 7601 bei MySQL mehr und bei POV-RAY weniger als die Dual Xeon 8176 gebraucht haben. In beiden Fälle war also das System mit der jeweils besseren Leistung dabei auch noch sparsamer.

rg88, die EPYC Modelle hat Anandtech schon am 20.06. mit Taktraten veröffentlicht.

Übrigens hat Intel bei AMDs EYPC auch noch Querverbindungen zwischen den 4 Dies eingezeichnet (das X in der Mitte), die AMD gar nicht eingezeichnet hat:

6-1080.90181630.png




Hier ist nur je eine Verbindung jedes Dies zum Nachbarn eingezeichnet, aber keine zum dritten Die in der Mitte. Keine Ahnung ob es diese dritte interne Verbindung auch noch gibt und sie nur nicht eingezeichnet wurde. Hier ist sie jedenfalls auch nicht zu sehen und dies Bild sieht aus wie das von AMD darüber:

 
Zuletzt bearbeitet:
Die Folien lassen tief blicken. Intel hat richtig Angst vor RYZEN und AMDs Infinity Fabric. :evillol:
 
@Holt
Ich schrieb ja mit Absicht etwas von Kosteneffizienz. (Halb synthetische) Benchmarkbalken interessieren die Beschaffung ja nicht die Bohne, bevor da nicht auf die Gesamtkosten der Lebensdauer normalisiert wurde ;)
 
Holt schrieb:
Wie bescheuerst ist diese Antwort denn? Hast du nicht den ganzen Beitrag gelesen oder willst du nicht akzeptieren, dass Anandtech genau diese 2,2GHz als Basistakt auch für den schnellsten RYZEN 32 Kerner, den EYPC 7601 mit 180W TDP angibt? Wenn es geraten war, so war es ein Volltreffer und hat für das Spitzenmodell genau getroffen, die anderen 32 Kerner haben sogar nur 2,0GHz Basistakt. Träume weiter von einem EPYC 32 Kerner mit 3.x GHz Basistakt bei 180W TDP, diesmal ist so einer jedenfalls noch nicht dabei, wer weiß, vielleicht dann bei den 7nm Modellen.

Die TDP Angabe kann man in der Pfeife Rauchen. Im anandttech test säuft der große Epyc 320 Watt und das Intel pendant 440 Watt.
 
@Holt
Eigenartig, in den unteren Bildern (wo die Verbindungswege eingezeichnet sind und nicht nur die Kringel Symbole die man wohl schwer über einander legen kann) sind sie durchaus erkennbar.
 
das kommt ja auch schwer auf den Workload an, ob zb Int/FPU lastig oder nicht. FPU geht Intel nicht gerade sparsam zu Sache.

Man sollte denke ich nicht vergessen dass Intel mehr Sockel auf der haben Seite hat und wir hier nur 2S vergleichen. Das unterschlagen viele.

Epyc scheint ein wahres Rechenmonster zu sein, kommt sehr gut mit zb Renderding und Big Data klar, die FP Performance ist super gerade auch was Effizienz angeht.
Bei der Datenbankperformance sieht es etwas anders aus. Da scheint Intel noch recht deutlich reaktivier zu sein.

Nevertheless, our point stands: out of the box is the EPYC CPU a rather mediocre transactional database CPU. With good tuning it is possible EPYC may pass the Xeon v4, but the 8176 is by far the champion here. It will be interesting to measure how EPYC compares in the non-transactional databases (Document stores, Key-value...) but transactional databases will remain Intel territory for now.

Kommt demnach auch schwer auf das Einsatzgebiet an. Sowohl für Epyc als auch Skylake SP gibts Workloads bei denen ma den Counterpart um 50% abhängt.

Bei 2 Sockel haut da Epyc ordentlich rein, well done!
Ergänzung ()

Wadenbeisser schrieb:
@Holt
Eigenartig, in den unteren Bildern (wo die Verbindungswege eingezeichnet sind und nicht nur die Kringel Symbole die man wohl schwer über einander legen kann) sind sie durchaus erkennbar.

würde das nicht zu ernst nehme. Das sind Marketing Folien. Im Prinzip können natürlich auch die gegenüber liegenden Die miteinander "reden". Ob das jetzt direkt oder über die "Ecken" geschieht kann man schwer sagen, denkbar ist beides aber aus den Bildchen würd ich da nix rein interpretieren wollen.
 
Holt schrieb:
Übrigens hat Intel bei AMDs EYPC auch noch Querverbindungen zwischen den 4 Dies eingezeichnet (das X in der Mitte), die AMD gar nicht eingezeichnet hat:
...

Hier ist nur je eine Verbindung jedes Dies zum Nachbarn eingezeichnet, aber keine zum dritten Die in der Mitte. Keine Ahnung ob es diese dritte interne Verbindung auch noch gibt und sie nur nicht eingezeichnet wurde. Hier ist sie jedenfalls auch nicht zu sehen und dies Bild sieht aus wie das von AMD darüber.

Es sind 3 Links pro Die auf dem MCM und jeweils ein externer bei den 2P SKUs.
https://www.servethehome.com/amd-epyc-7000-series-architecture-overview-non-ce-ee-majors/

AMD hat die Links nicht auf allen Folien vollständig eingezeichnet.
https://www.servethehome.com/wp-con...-EPYC-7000-Series-Die-to-Die-Interconnect.jpg
https://www.servethehome.com/wp-con...7000-Series-Socket-to-Socket-Interconnect.jpg

Mehr dazu: https://www.servethehome.com/amd-ep...ntel-broadwell-ep-qpi-architecture-explained/

ThePowerOfDream schrieb:
Was die ganzen Intel FanBoys ala YforU hier schon wieder alles schön reden. Selber schon mal einen Sample eine Threadrippers oder gar eines Epyc in den Fingern gehalten oder am besten sogar mal genutzt und gesehen wie Schnell oder Langsamm diese beiden CPU´s sind ? Nein,
Scheinbar nicht, sonst würde man nicht soviel Scheiße Schreiben das Intel mit Mesh & Co einem Zeppelin Aufbau so Super Duper Überlegen ist. :stacheln:

Also gleich mal die Fanboy Keule auspacken. Gratulation dazu. Das ein MCM Design nicht nur Vorteile (geringere Kosten, Entwicklungsaufwand, Time to Market) sondern auch Nachteile hat soll man deiner Ansicht nach also am besten unter den Teppich kehren. Man hat bei AMD mit Blick auf die vorhandenen Kapazitäten und Möglichkeiten einen richtig guten Job abgeliefert. Das damit nicht alle Marktsegmente wie bei Intel optimal abgedeckt werden können war zu erwarten und auch nicht das Ziel.
 
Zuletzt bearbeitet:
Holt schrieb:
Zumindest bei Aandtech mit MySQL hat das Dual Xeon 8176 das Dual EPYC 7601 System um 66,7% übertroffen, während das EPYC System bei JAVA sogar leicht die Nase vorne hat. Das ist ja auch kein Wunder, da bei Datenbanken ist viele Interaktion zwischen den Kernen der CPU nötig, da ständig abgesichert werden muss, dass jeder Client auf die korrekten zugreift und wenn einer Einträge lockt, dürfen die anderen diese nicht ändern, wurde sie von einem Client geändert, müssen von da an alle die neuen Daten kennen. Dies scheint hier gebremst zu haben, obwohl ein Read-Only Benchmark verwendet wurde.

Ich bin auf diesem Gebiet nicht wirklich bewandert, aber ist dieser Test nicht ziemlich unrealistisch, wenn die Datenbank gerade mal so klein ist, dass sie in den L3-Cache passt? Falls ich nicht komplett falsch liege, wurden hier doch im Prinzip wurden hier doch nur die Latenzen gemessen? Viel mehr sollte man für solche Tests doch große Datenbanken verwenden, bevor man Rückschlüsse auf die "Datenbankfähigkeiten" der jeweiligen Plattform ziehen kann, oder nicht?
 
YforU schrieb:
Also gleich mal die Fanboy Keule auspacken. Gratulation dazu. Das ein MCM Design nicht nur Vorteile (geringere Kosten, Entwicklungsaufwand, Time to Market) sondern auch Nachteile hat soll man deiner Ansicht nach also am besten unter den Teppich kehren.

ja das kennen wir ja ;) einfach ignoren

btw...

http://www.anandtech.com/show/11544/intel-skylake-ep-vs-amd-epyc-7000-cpu-battle-of-the-decade/23

Das ist doch mal nen sauber geschriebenes Fazit dass auch etwas über den Tellerrand blickt. Imho sind die Kosten für die HW bei so Servern oft der kleinste Teil.

  • AMD neues Lineup ist stark
  • Intel hat klaren Vorteil bei Skalierung nach oben
  • Bei Single Sockel wird Epyc rocken
  • AVX ist Intels Domäne
  • AMD erfordert mehr manuelle Optimierung für die beste Performance

Die Welt ist nicht so schwarz weiß wie viele meinen ;)
 
YforU schrieb:
Das ein MCM Design nicht nur Vorteile (geringere Kosten) sondern auch Nachteile hat soll man deiner Ansicht nach also am besten unter den Teppich kehren.
Die Vorteile von MCM überwiegen stark, deshalb forscht Nvidia auch an dieser Technologie. Sie würden sonst mit AMD nicht mehr mithalten können (Navi soll voll auf Infinity Fabric bzw. MCMs setzen). Intel wird das wohl jetzt auch so sehen.
 
Glückwunsch an die Eltern :-)
Über das Nachreichen weiterer Ergebnisse würde ich mich dennoch freuen :-)
 
@ Trumpf

viel Forschung ist da nicht nötig, MCM wurde wie erwähnt schon zu Core 2 Quad und Duo Zeiten gemacht. Abhängig davon ob man zb auf ein Substrat oder auf einen richtigen Interposer wie bei HBM setzt kann man natürlich schlicht die Bandbreite und Anzahl der Leitungen beider Chips hoch halten.

Für AMD bedeutet das aktuell wirtschaftliche Vorteile da man mit wenig Masken und kleine Die aus Fremdfertigung auskommt. Intel hat dieses Problem weniger.

Nvidia hat es ebenso bald da man mit 815mm² nicht viel größere Chip fertigen kann, also braucht es vielleicht bei GPU bald 4x300mm² um weiter zu kommen. Dann aber nicht ala SLI sondern nach außen als "ein Chip".

Weder das eine noch das andere hat mehr Vorteile. Intel kann länger als AMD auf größere Die setzen da man die Fertigung auf der Haben Seite hat und weniger Kostengetrieben ist.
Intel könnte sicher schon heute hingehen und statt einer 28 Kern Die 2x 18 Kern auf ein Substrat packen.

Vermutlich würde man aber die max Gesamtzahl der Sockel einschränken sofern man diese über UPI verbindet. Das MCM dürfte auch der Grund sein weshalb man nicht einfach 8 Epycs zusammenflanschen kann.

Auch da sind wir irgendwann wieder beim Ringbus / Skalierungs Problem mit vielen Nodes. Ggf sehen wir dann irgendwann "Mesh" über quasi unendlich viele CPU Nodes
 
Zuletzt bearbeitet:
Was ist das eigentlich für ein Wurmfortsatz, den einige CPUs zu haben scheinen?
 
Zurück
Oben