News Power 9: PCI Express 4.0 zuerst für IBMs High-End-CPU

Qarrr³ schrieb:
Weiß zwar nicht wie es bei Power9 aussieht, aber du brauchst etwa 3 x86 Kerne oder 12 ARM Kerne der gleichen Generation um mit einem Power8 Kern zu konkurrieren, wenn ich mich nicht falsch erinnere.
Kommt aber hauptsächlich auf die Anwendung an. Manche Sachen sind einfach schwer auf ARM umzusetzen. Gerade die Nutzung schneller Coprozessoren hat man bei ARM nicht so wie bei IBM.

https://www.youtube.com/watch?v=KHHNr5Vqoxs
Scheint bei gleicher Taktrate wohl "nur" doppelt so schnell zu sein.
Zum Thema ARM wäre interessant in wie weit Vergleichbarkeit durch Geekbench 4 gegeben ist.
Da nehmen es ARM Hurricane Kerne IPC Mäßig mit Skylake auf.

Edit: Laut Geekbench 4 haben die Dinger sogar einen höheren IPC als Skylake.
Kein Wunder das die meisten Analysten denken das bald ein ARM Macbook kommt.
 
Zuletzt bearbeitet von einem Moderator:
Für den Computerbase lesenden Heimanwender vollkommen irrelevant :D

Für Unternehmen hingegen ne schöne Sache.
 
Für mich ist es absolut interessant weil man nun weis das man wohl in 2-3 Jahren auch auf den Heimischen Plattformen und wenn es nur am44 / X- x99 damit rechnen kann.
wie schon gesagt dank den m.2 oder auch pcie Speichermöglichkeiten ist das durchaus interessant.
Auch für den Gamer wird es irgendwann interessant.
Zwar haben Tests bis jetzt bescheinigt, das der unterschied zwischen pcie 8x und 16x nicht wirklich merkbar ist sondern nur messbar , aber irgendwann wird es zum Nadelöhr also lieber jetzt schon hier genug Puffer einbauen.
Das öffnet auch den Raum für Multi / igpu Nutzung unter dx12 wieder etwas, wenn hier zwischen der gpu und igpu schneller kommuniziert werden kann.
Hoffentlich kommt dann auch gleich dmi 4.0 auf die Mobos.
 
Was ich auch mal erwähnen möchte ist die geile Benennung von IBM.
Laut Roadmap hatte Power 5 SMT, Power 6 SMT+,Power7 SMT++ Power8 SMT+++ und bei Power9 steht einfach nur better SMT.
Und das selbe auch bei den ganzen anderen Features.
 
Zuletzt bearbeitet von einem Moderator:
Naja ihr SMT ist halt im Vergleich zur Intel und auch AMD "better"
8Fach HT, bekommt man einfach nur bei so fetten Kernen wie IBM sie verbaut sinnvoll hin.
 
Atent123 schrieb:
https://www.youtube.com/watch?v=KHHNr5Vqoxs
Scheint bei gleicher Taktrate wohl "nur" doppelt so schnell zu sein.
Zum Thema ARM wäre interessant in wie weit Vergleichbarkeit durch Geekbench 4 gegeben ist.
Da nehmen es ARM Hurricane Kerne IPC Mäßig mit Skylake auf.

Edit: Laut Geekbench 4 haben die Dinger sogar einen höheren IPC als Skylake.
Kein Wunder das die meisten Analysten denken das bald ein ARM Macbook kommt.

Soviel zu "IPC mäßig kommt nichts mehr und es geht nur noch mit mehr Kernen". ;) Und dann kommt einer daher und bringt auf einem Thread mehr Leistung als Intel mit 2 Threads. Zeigt wieder sehr schön, dass man eigentlich gar nicht weiß was die Zukunft bringt und es alles andere als fest steht, dass in Zukunft nur mehr Kerne gebraucht werden.
 
IchoTolot schrieb:
Soviel zu "IPC mäßig kommt nichts mehr und es geht nur noch mit mehr Kernen". ;) Und dann kommt einer daher und bringt auf einem Thread mehr Leistung als Intel mit 2 Threads. Zeigt wieder sehr schön, dass man eigentlich gar nicht weiß was die Zukunft bringt und es alles andere als fest steht, dass in Zukunft nur mehr Kerne gebraucht werden.

Er bencht da doch mit 8 Threats pro Kern bei Power 8.
 
Vitec schrieb:
Für mich ist es absolut interessant weil man nun weis das man wohl in 2-3 Jahren auch auf den Heimischen Plattformen und wenn es nur am44 / X- x99 damit rechnen kann.

Es wird bestimmt kaufbar sein, aber das heißt noch lange nicht, dass es irgendetwas bringen würde.

Schon PCIe 3.0 bringt quasi nichts merkbares gegenüber 2.0. Auch die schnellsten M.2 bringen unter Ausnutzung von PCIe 3.0 praktisch keinen fühlbaren Mehrwert gegenüber langsameren SSDs. Nun will ich den Leuten, die sowas kaufen, die Sache nicht madig machen. Kauft es, wenn ihr mögt.

Aber was mich nervt sind diese Ammen-Märchen im Forum, dass man jetzt zwingend PCIe 4.0 haben müsste, weil alles andere ja veraltet wäre.

Wenn manche über Homöopathie lästern, was würden sie hierzu erst sagen?
 
HaZweiOh schrieb:
Aber was mich nervt sind diese Ammen-Märchen im Forum, dass man jetzt zwingend PCIe 4.0 haben müsste, weil alles andere ja veraltet wäre.

Das hat hier im Thread niemand behauptet.
 
HaZweiOh schrieb:
Schon PCIe 3.0 bringt quasi nichts merkbares gegenüber 2.0. Auch die schnellsten M.2 bringen unter Ausnutzung von PCIe 3.0 praktisch keinen fühlbaren Mehrwert gegenüber langsameren SSDs. Nun will ich den Leuten, die sowas kaufen, die Sache nicht madig machen. Kauft es, wenn ihr mögt.

Komm mal aus deiner kleinen Heimrechnerwelt raus.
Für große Serversysteme kann der I/O gar nicht schnell genug sein.

Wie ich schon sagte: IBM arbeitet aktuell an FC 64 GBit/s Adaptern und 100 GBit/s Netzwerkadapter kommen auch.
Erzähl mir mal, wie eine 4 FC, oder 2 bis 4 Port Netzwerkkarte bitte über PCI-E transportieren soll.

Außerdem kommt noch dazu, dass es durchaus SSDs gibt, die schnell genug für den PCI-E 3.0 sind und damit wohl auch der Grundstein für Multiport M.2, oder U.2 Karten gelegt werden.

Desweiteren muss ich ernsthaft an der Glaubhaftigkeit des Benchmarks von oben zweifeln.

Zum einen, weil der Kerl auf einem AIX Systeme eine bash nutzt und zum anderen sind keine Angaben gemacht, was das für eine "Anwendung" sein soll und wie die kompiliert wurden.
Ein mit IBM C, oder C++ Compiler kompiliertes Programm, läuft unter AIX wesentlich schneller, als ein unter AIX mit dem GNU C/C++ Compiler kompiliertes Programm.


Und @Atent123
Abgesehen davon, dass ich den Benchmark ohnehin für Schwachsinn halte, sieht man doch am Anfang, dass der 2013 erschienene IBM Chip sogar Single Thread schneller ist, als der Intel.
 
Für Server ist es okay, meine Aussage bezieht sich auf private User hier im CB-Forum, wo der Unsinn immer wieder zu lesen ist.
 
Atent123 schrieb:
<video>
Scheint bei gleicher Taktrate wohl "nur" doppelt so schnell zu sein.
Zum Thema ARM wäre interessant in wie weit Vergleichbarkeit durch Geekbench 4 gegeben ist.
Da nehmen es ARM Hurricane Kerne IPC Mäßig mit Skylake auf.
Kein Wunder das die meisten Analysten denken das bald ein ARM Macbook kommt.

Geekbench ist ein Bench, der für dicke Server mit entsprechenden Anwendungen nahezu keine Aussage zulässt. Für Server nimmt man lieber die Spec ( https://spec.org/benchmarks.html ) und interpretiert die Ergebnisse in Zusammenhang mit den vorgenommenen Optimierungen da dann ausgiebig.

Geekbenchs Tests sind eher mit Microbenchmarks zu vergleichen, die Aussagen zulassen, wie leistungsfähig die Rechenwerke sind. Bei komplexeren Anwendungen auf Servern sind die Zugriffsmustern von X parallel laufenden Threads mit "chaotischen" Speicherzugriffsmustern und I/O Latenzen jedoch WEIT davon entfernt Lasten zu erzeugen wie sie bei Geekbench vorkommen. Geekbench taugt damit allerhöchstens damit performancekritische Aktivitäten auf Systemen mit maximal einem Nutzer und nur einer lasterzeugenden Anwendung nachzuilden.
Ergänzung ()

textract schrieb:
[...]

Desweiteren muss ich ernsthaft an der Glaubhaftigkeit des Benchmarks von oben zweifeln.

Zum einen, weil der Kerl auf einem AIX Systeme eine bash nutzt und zum anderen sind keine Angaben gemacht, was das für eine "Anwendung" sein soll und wie die kompiliert wurden.
Ein mit IBM C, oder C++ Compiler kompiliertes Programm, läuft unter AIX wesentlich schneller, als ein unter AIX mit dem GNU C/C++ Compiler kompiliertes Programm.

Ich sehe da viel weniger das Problem beim Compiler und dessen Settings als dem eigentlichem Programmablauf. Da kann so übel getrickst werden, dass man mit Compileroptimierungen gar nicht anfangen muss. Das einfachste, denkbare Beispiel sind ja Threads die Schleifen über simple, kurze waits iterieren. Sowas skaliert mit der Anzahl der Threads recht gut und wird nahezu perfekt wenn die Threads via SMT auf logischen Kernen laufen anstatt, dass die CPU aufwendige Threadwechsel durchführen muss. Ein solcher "Benchmark" hätte nur nahezu keinerlei reale Bedeutung.
 
Zuletzt bearbeitet:
Die IBM POWER Kisten ist schon gut.

Wenn man sich die SAP-Benches mal anschaut:

8x IBM POWER8 (80 Kerne, 640 Threads, 4,2 GHz)
http://download.sap.com/download.ep...A8415F3B32C9914852A34134AB2756D168C18C90EE4DB

8x Intel Xeon E7-8894 v4 (192 Kerne, 384 Threads, 2,4 GHz)
http://download.sap.com/download.ep...0FAF1FFF3EB00A5762DA03C1D97E9F6B9EF688D496DA6

Beide liefern etwa 420.000 - 430.000 SAPS.

Allerdings muss man bei dem Vergleich natürlich erwähnen, dass so ein POWER8 in einem deutlich höheren TDP-Budget agiert. Offizielle Werte dazu gibt es kaum, die Werte für ein 3,1/3,6 GHz(Turbo) POWER8 mit 12C/96T liegen aber schon bei 247 Watt. Somit kann man davon ausgehen, dass IBM im E870 System und 4,2 GHz Takt die Dinger ~ 300 Watt TDP erlauben wird, was halt auch ein anderer Schnack ist als die 165 Watt beim Xeon E7.

In der maximalen Performance lagen die IBM POWER basierten Systeme immer ein wenig vor der Intel Xeon Konkurrenz, auf Kosten des Energieverbrauchs.

Es ist einfach teilweise ein anderer Markt. Langjährige IBM-Kunden mit dem entsprechenden Ökosystem an Software bekommen von IBM nette Hardwarekisten mit viel Performance, zu wohlgemerkt aber auch anderen Preisen.

Der x86-Markt ging die letzten Jahre hauptsächlich in die Richtung auf maximale Performance pro Watt, um die Unmengen an neu hochgezogenen (Cloud-)Rechenzentren mit 10.000+ an Servern möglichst günstig betreiben zu können - da ging es weniger um die maximal zu erzielende Performance.

Würden Intels Kunden ohne mit der Wimper zu zucken TDP-Budgets von 250 Watt oder mehr erlauben, wäre auch beim Xeon eine andere Liga möglich.

Das ganze ARM-Gedöns ist dagegen Plastikspielzeug. Außerhalb von SmartPhones von Tablets wartet man da immernoch auf die Einlösung vollmundiger Versprechen, die man vor 2-3 Jahren dort getätigt hat. Ich behaupte an dieser Stelle mal, dass sowohl IBM POWER als auch die x86-Architektur mittlerweile so optimiert sind, dass für höhere Ansprüche außerhalb von ein bisschen billigen Static-Web- und Content-Delivery die Messlatte für die ARM-Serverhoffnungen auf absehbare Zeit ein Stück zu hoch liegt.
 
Zuletzt bearbeitet:
Majestro1337 schrieb:
Auf Wikipedia fehlt ne Doku zur 128b130b - Codierung von PCIe 3(+)
Pro 128 Bit Daten werden 130 Bit auf der Leitung übertragen. Daher kann man nicht von Gb/s auf GB/s umrechnen indem man die Gb durch 8 teilt, weil ja ein Byte 8 Bit hat, sondern muss auch noch die Bitkodierung berücksichtigen, also das Ergebnis zusätzlich durch 130 teilen und mal 128 nehmen.
 
Naja, so ganz passt das aber nicht zu der internen/"confidential" AMD GPU Roadmap bzw. Vega20 GPU, dass erst 2019 PCIe 4.0 bei AMD Einzug halten soll:

AMD-VEGA-20-specifications-740x279.jpg

Es bleibt also noch die Hoffnung, dass vor Zen2 schon PCIe 4.0 bei AMD CPUs kommt, wobei auch gut möglich ist, dass die Vega20 GPUs (ähnlich wie bei GPUs die vor den Monitoren auf DP1.3/1.4 ausgelegt waren) vorausblickend schon für PCIe 4.0 ausgelegt sind (bevor die dazu passenden Starship CPUs auf dem Markt sind) oder sich deren Marktstart verzögert.

Naja, für Normalos mag PCIe 4.0 jetzt noch keine Rolle spielen, aber mit PCIe 4.0 nach Einführung hat man dann erst einmal Ruhe, und was ist, wenn dann doch für Privatanwender irgendwann ein Einsatzszenario nach PCIe 4.0 verlangen wird (was man nicht auf der Rechnung hatte und wo man mit PCIe 3.0 oder älter eben spürbar schlechter wegkommt).

Wenn man sich bspw. eine 7nm Zen2 (RyZen oder Threadripper Nachfolge-)CPU holt (ich peile jedenfalls aktuell solch eine an bzw. im Frühjahr 2019 meine altgediente Sandy-Bridge CPU dagegen auszutauschen), dann nutzt man diese CPU vermutlich auch eine ganze Weile/etliche Jahre und wer weiss, was dann am Horizont erscheint und möglicherweise doch größeren Nutzen aus PCIe 4.0 schlagen könnte.
 
Zuletzt bearbeitet:
joshy337 schrieb:
Nur 48 Lanes ? Das reicht ja gerademal für drei vollwertige Slots.
Und die Systemkomponenten sind da ja noch nichteinmal mit eingerechnet.. :(

erstens sind die meisten Server 2-Sockel-Systeme und
zweitens sind die meisten AICs im Server mit x4/x8 angebunden
 
Dann warte ich statt auf 2018 noch auf 2019. Volta wird den pcie 2.0 des 3930k schon nicht limitieren.
 
wofür noch PCIe4 - gerade die HPC und aufwärts Branche hat doch inzwischen gelernt das PCIe Leistungsmäßig für die Prozessorvernetzung in größeren Rechnern nicht mehr ausreicht und Cu wohl keinen Migrationspfad in die Zukunft darstellt. Und arbeitet deswegen an Alternativen wie Si-Photonics oder auch noch NVLink/BlueLink als letzter Cu-Mohikaner ? Und selbst letzteres ist bereits (etwas) schneller als PCIe4 ..

Die beiden wichtigsten Anwendungen für schnelle IO Slots, nämlich GPU und HispeedNetzwerke, sind PCIe(Cu) ja inzwischen tendenziell schon abhanden gekommen. Und wenn man mal ehrlich ist könnten ein paar onboard Thunderbolts auch die verbleibenden PCB Bedürfnisse nach PCIe für onboard Komponenten erfüllen.

Die angesprochene Anwendung für Anwendung von FPGAs und vielleicht irgendwannmal andere ASICs überzeugt da nicht wirklich. Selbst bei Anwendungen wie M2 SSDs kann man auch ebensogut ein paar mehr PCIe3 Strippen oder eben wie bei künftigem Optane gleich DDR4 Stecker verwenden.
 
Zuletzt bearbeitet:
senf.dazu schrieb:
wofür noch PCIe4 - gerade die HPC und aufwärts Branche hat doch inzwischen gelernt das PCIe Leistungsmäßig für die Prozessorvernetzung in größeren Rechnern nicht mehr ausreicht und Cu wohl keinen Migrationspfad in die Zukunft darstellt. Und arbeitet deswegen an Alternativen wie Si-Photonics oder auch noch NVLink/BlueLink als letzter Cu-Mohikaner ? Und selbst letzteres ist bereits (etwas) schneller als PCIe4 ..

Die beiden wichtigsten Anwendungen für schnelle IO Slots, nämlich GPU und HispeedNetzwerke, sind PCIe(Cu) ja inzwischen tendenziell schon abhanden gekommen. Und wenn man mal ehrlich ist könnten ein paar onboard Thunderbolts auch die verbleibenden PCB Bedürfnisse nach PCIe für onboard Komponenten erfüllen.

Abgesehen davon, dass IBM für die CPU Vernetzung in ihren PPCs sowieso keine PCI-E Bus verwendet, gibt es abgesehen von GPU und Netzwerk natürlich Anwendungen für so schnelle PCI-E Slots.

Wir haben aktuell drei E880 Systeme mit 10 mal 16 GBit/s FC Adapter für ein SAP System verkabelt und denken über eine Erweiterung nach, nicht etwa wegen der maximalen theoretischen Datenübertragungsrate, sondern wegen der IOPS. Wenn man dauerhaft im Streaming Modus schreibt, oder leist, wie zum Beispiel bei einer Bandsicherung, dann profitiert man natürlich immens von hoher Datenübertragungsrate, weil die Blockgröße sehr hoch ist, wenn man aber Datenbanken betreibt, dann sind die Blöcke wesentlich kleiner und sehr viel zufälliger, da ist die IOPS Leistung wichtig.
Ich kenne die Thunderbolt-Spezifikationen dahingehend nicht, wie viel kann der Standard denn?

Wir haben etliche Maschinen, die mehrere 100.000 4K IOPS schreiben und lesen.
 
Zurück
Oben