News HBM2E: Auf dem Papier und von Samsung offiziell mit 3,2 Gbps

nanoworks · 4. Februar 2020

DarkerThanBlack schrieb:
(...)HBM leidet seit HBM2 nicht mehr an einen Kapazitätsmangel(...)

Mit Kapazitäten meinte ich nicht die Menge des DRAMs, sondern die Fertigungskapazitäten. Mit steigenden Fertigungskapazitäten werden auch die Kosten sinken. Da wird schon seit einiger Zeit sehr viel investiert.

andi_sco · 4. Februar 2020

Edit: Erledigt

Ergänzung (4. Februar 2020)

FatFire schrieb:
Für (Nicht-Profi)-Grafikkarten ist HBM2 jetzt nicht unbedingt eine weise Wahl, aber ich würde mich freuen, wenn AMD mal so einen HBM2-Stack als Grafikcache mit auf die größeren APUs packen würde. Das würde dort bestimmt einen guten Sprung nach vorne bringen.

Klar, aber 4GB HBM kosten einiges und ob diese 4GB dann als L4 Cache oder DDR4 RAM Ersatz dienen können, steht auf einem anderen Blatt.

Mir war so, als wäre HBM nicht wirklich als Ersatz RAM für CPUs geeignet.

nanoworks · 4. Februar 2020

andi_sco schrieb:
Mir war so, als wäre HBM nicht wirklich als Ersatz RAM für CPUs geeignet.

Die CPU braucht möglichst niedrige Speicherlatenzen. Deswegen ist HBM theoretisch sogar besser geeignet als DDR-RAM. Allerdings ist die hohe Bandbreite für CPUs halt die totale Verschwendung und macht kostentechnisch überhaupt keinen Sinn. Das Geld investiert man besser in leistungsstärkeren on-chip memory (Caches, Register). Da hat man wesentlich mehr von als von einem HBM last level cache.

Bei NPUs sieht die Sache wieder ganz anders aus. Während CPUs maximalniedrige Latenzen brauchen und GPUs maximalhohe Bandbreite, benötigen NPUs beides gleichzeitig. Für NPUs ist HBM die perfekte Lösung.

senf.dazu · 4. Februar 2020

Das CPUs keine Bandbreite brauchen kann man aber so auch nicht stehen lassen. Zum einen läßt sich beobachten das mit der Zahl der CPUs im Prozessor auch die Zahl der Speicherkanäle (DDRx) die sie unterstützt wächst. Bei den dicken Eisen sind wir da inzwischen bei 8 angelangt. Das werden die Hersteller wohl nicht ohne Grund tun..

Einer der Bandbreitentreiber sind dabei sicher die Vektoreinheitee (AVX) wobei das bei AMD wohl etwas weniger ausgeprägt ist als bei Intel (Faktor 2 inzwischen: 2x256 vs 2x512 ? - muß kein Nachteil sein weils ja bessere eGPUs gibt) - aber auch die CPUs werden nicht nur immer mehr sondern sie können auch immer mehr Operationen/Daten je Zyklus verarbeiten - auch wenn sich bei der Taktrate nicht viel tut - auch wenn die CPUs sicher zum guten Teil von ihren Caches leben - die aber vielleicht gerade der konzeptionelle Nachteil gegenüber GPUs sind (Platz, Verluste), bei NPUs ist das wohl auch nicht unmöglich.

Hohe I/O Bandbreiten für viele PCIe4, USB4/TB3/4 schlagen übrigens bei den Hauptspeicher Datenraten übrigens durchaus auch zu Buche.

Da kommt auch bei Consumer, Gamer und Workstation CPUs irgendwann die Notwendigkeit vom ehrwürdigen DRAM Speicherriegel abzurücken (oder den in Richtung SSD/Optane mit schnellerem Interface weiterzuentwickeln - es lebe der virtuelle Speicher) und das DRAM näher an die CPU zu rücken. Entweder als viele (GDDRx?) Chips auf's Motherboard, oder viele Chips auf dem Platinchen im Prozessorgehäuse und letztlich irgendwann HBM (stacked=Foveros, Interposer, EMIF..).

Bei den (unstacked) DRAM Chips aufs Motherboard oder Prozessor Trägerplatine wird man aber vielleicht aber über deren Größenbeschränkung (GB) stolpern - reale Graphikkartenrams sind trotz vieler Chips immer noch nicht wirklich groß. Bei der Prozessor Trägerplatine vielleicht auch über den Platzbedarf. Und Verlustleistung ist natürlich auch immer ein Thema.

Die Tatsache das auch Intel jetzt langsam auf leistungsstärkere eGPUs im Prozessorgehäuse umsteigt wird aber den Druck auf den Hauptspeicherdurchsatz bei dedizierten Graphikkarten erhöhen - deren Leistung hängt am Speicherdurchsatz. Da wird der Druck in Richtung HBM also wohl am ehesten zunehmen.

Alles in allem würd ich glaub ich auch erwarten das die Tage des unstacked GDDRx-SDRAMs auch für Consumernähere Rechner angezählt sind. Und die der DDRx-SDRAM Speicherriegel natürlich noch eher ..

k0ntr · 4. Februar 2020

senf.dazu schrieb:
x 1024 "Pins" / (8 Bits/Byte)

jetzt brauche ich nur kurz nachhilfe für die x1024 "Pins". Woher kommen die genau?

mp4-18 · 4. Februar 2020

Was passiert denn mit den in Serie produzierten Chips, die nicht am Markt erhältlich sind? Werden die direkt wieder geschrottet?

nanoworks · 4. Februar 2020

senf.dazu schrieb:
Das CPUs keine Bandbreite brauchen kann man aber so auch nicht stehen lassen.

CPUs brauchen definitiv keine 500GB/s, wie sie ein HBM Stack liefert. Das ist totaler Overkill. Wie gesagt: Erstmal den on-chip memory voll ausreizen, vorher braucht man sich über einen HBM LLC gar keine Gedanken machen. Und wenn man unbedingt mehr Bandbreite haben möchte, dann wäre es auch sicher viel günstiger, zunächst den IMC auf quad-channel aufzubohren, anstatt direkt mit so einem komplizierten Package anzukommen.

senf.dazu schrieb:
Da kommt auch bei Consumer, Gamer und Workstation CPUs irgendwann die Notwendigkeit vom ehrwürdigen DRAM Speicherriegel abzurücken (oder den in Richtung SSD/Optane mit schnellerem Interface weiterzuentwickeln - es lebe virtueller Speicher) und das DRAM näher an die CPU zu rücken. Entweder als viele Chips auf's Motherboard, oder viele Chips auf dem Platinchen im Prozessorgehäuse und letztlich irgendwann HBM (stacked, Interposer, EMIF..).

Bei den (unstacked) DRAM Chips aufs Motherboard oder Prozessor Trägerplatine wird man aber vielleicht aber über deren Größenbeschränkung (GB) stolpern - reale Graphikkartenrams sind immer noch nicht wirklich groß. Bei der Prozessor Trägerplatine vielleicht auch über den Platzbedarf. Und Verlustleistung ist natürlich auch immer ein Thema.

Nein das kannst du nicht so einfach machen. Microsoft hat das mit der Xbox One gemacht und die hatte eine megakomplizierte Platine und das ganze System war für die gebotene Leistung unverhältnismäßig teuer. Du musst in so einem Fall den IMC trainieren und die Leitungen alle entsprechend aufwändig verlegen, damit jeder RAM Chip die gleiche Latenz garantiert: Understanding DDR Memory Training. Das ist ein unnötiger großer Aufwand und gleichzeitig kannst du auch nicht mehr aufrüsten. Also in jeder Hinsicht Schwachsinn.

senf.dazu · 4. Februar 2020

k0ntr schrieb:
jetzt brauche ich nur kurz nachhilfe für die x1024 "Pins". Woher kommen die genau?

https://de.wikipedia.org/wiki/High_Bandwidth_Memory ("Stapel steht da wohl für einen HBM Chip - bei der ersten Graphikkarte von AMD mit HBM vor etlichen Jahren gab's - 4 Stapel ..)

Je Signalleitung wird auch sicher nicht nur ein Pin benötigt sondern ein "Pin" - das wär dann bei einer symmetrischen Anschlußweise vielleicht d+,d-,gnd bei asymmetrisch(DDRx) vielleicht d+,gnd. (Über die Zahl der notwendigen GND Anschlüsse kann man streiten .. deswegen vielleicht. Übersprechen, Masseströme und Reflektionen lassen grüßen).

Jenergy · 4. Februar 2020

k0ntr schrieb:
jetzt brauche ich nur kurz nachhilfe für die x1024 "Pins". Woher kommen die genau?

Die Datenrate hängt eben auch von der Breite des Datenbusses ab. Ein HBM2-Stapel - bestehend aus vier DRAM-Speicherbausteinen - hat insgesamt 1024 Datenleitungen (8x 128bit = 1024bit).

senf.dazu · 4. Februar 2020

nanoworks schrieb:
CPUs brauchen definitiv keine 500GB/s, wie sie ein HBM Stack liefert. Das ist totaler Overkill. Wie gesagt: Erstmal den on-chip memory voll ausreizen, vorher braucht man sich über einen HBM LLC gar keine Gedanken machen. Und wenn man unbedingt mehr Bandbreite haben möchte, dann wäre es auch sicher viel günstiger, zunächst den IMC auf quad-channel aufzubohren, anstatt direkt mit so einem komplizierten Package anzukommen.

Nein das kannst du nicht so einfach machen. Microsoft hat das mit der Xbox One gemacht und die hatte eine megakomplizierte Platine und das ganze System war für die gebotene Leistung unverhältnismäßig teuer. Du musst in so einem Fall den IMC trainieren und die Leitungen alle entsprechend aufwändig verlegen, damit jeder RAM Chip die gleiche Latenz garantiert: Understanding DDR Memory Training. Das ist ein unnötiger großer Aufwand und gleichzeitig kannst du auch nicht mehr aufrüsten. Also in jeder Hinsicht Schwachsinn.

Das hängt nur davon ab wie vielwenig Jahre du in die Zukunft denkst ..

Ein 4 core kann gut mit 2 DDRx Speicherriegeln und einer m.2 SSD leben - außer vielleicht bei der (leistungsfähigen) eGPU die immer mehr Mode wird ..

HBM hat vielleicht heute einen Speicherdurchsatz von 250 GByte/s, ein DDRx Riegel einen von 25 GByte/s

Ne m.2 SSD einen von 4 GByte/s, ein Pärchen DDRx Riegel einen von 40 GByte/s

Wenn man als jetzt SSD/Optane auf DDRx Riegel packen würde, einen HBM Speicher auf die CPU stacken - dann haben wir überall einen zehnfachen Speicherdurchsatz - da paßt dann ne CPU mit 40 cores vielleicht ganz gut dazu ?

(Und Intel wär begeistert - denn das Motherboard kann man dann fast vergessen, man muß ja nur den Prozessor (mit integriertem HBM Hauptspeicher) auf ein mikriges Platinchen mit dem DDR-Optane(oder SSD) setzen, als I/O reichen ein paar USB4 die auch im Prozessor integriert sind .. und die Wertschöpfung des ganzen Mini- Moduls abseits von Netzteil und Kühlturm kommt - von Intel .. )

Und um die HBM Strippen Laufzeiten mußt du dir keine Gedanken machen - das macht dann der Prozessorhersteller intern im Prozessorgehäuse. Aber du hast recht die Menge an Hauptspeicher ist dann festgelegt.

Wär aber nicht das erste Mal das ein Hersteller eine Blackbox mit soundsoviel Dings und Wumms verkauft - und dann hinterher per schweineteurem Freischaltcode sowohl Dings als auch Wumms Erweiterungen verkauft ..

Man ist oft überrascht das sich manchmal gekaufte Hardwareerweiterungen als USB Stick mit ner zu installierenden Software entpuppen und manchmal aber auch Softwareupgrades mit einer Wechselplatine daherkkommen

nanoworks · 4. Februar 2020

Achso, du meinst eine Kombination bestehend aus Storage Class Memory DIMMs und HBM. Jo und dann idealerweise noch mit einem leistungsfähigen DMA Controller dazwischen geschaltet.

Natürlich macht sowas Sinn. Das wird ja bereits seit Jahren als nächster Evolutionsschritt für Computersysteme spekuliert. Tatsächlich wurde HBM ursprünglich als Ergänzung für SCM-basierte Systeme konzipiert. Zu sehen bekommen hat man von diesem Prinzip aber bisher so gut wie gar nichts. Wenn man ganz viel sucht, wird man sowas vermutlich in experimentellen ultra-high-end FPGA- und NPU-Systemen finden.

Onkel Föhn · 4. Februar 2020

Wechhe schrieb:
1 Byte sind 8 Bit.
Also 4,2 GBit = 525 Mbit

Laut meinem Wissensstand entspricht ein GBit 1024 Bit x 4,2 (=4300,8) : 8 = 537,6

MfG, Föhn.

Wechhe · 4. Februar 2020

@Onkel Föhn

Ob die Umrechnung von Giga zu Mega (oder analog zu Kilo usw.) mit Faktor 1000 oder mit 1024 passiert, ist erstmal irrelevant.
Denn in der Frage ging es darum, wie man von 4,2 GBit/s zu 538 GB/s kommt.
Wenn es denn an den 1024 und an den 1 Byte = 8 Bit liegt, dann wären es nicht 538 GB/s, sondern 538 MB/s, denn du musst die 4,2 GBit/s = 4300,8 MBit/s ja durch 8 teilen.

k0ntr schrieb:
Kann mir jemand das erklären, ich verstehe es nicht: Demnach seien die Chips sogar für Geschwindigkeiten von bis zu 4,2 Gbps geeignet, die Transferrate würde damit letztlich auf 538 GB/s ansteigen

Wie wird das berechnet? bits auf bytes sind ja faktor 8. von 4.2gbits auf 538GB/s ist was ganz anderes.

Ich verstehe es mittlerweile auch nicht und bin verwirrt

nanoworks · 4. Februar 2020

Wechhe schrieb:
Ich verstehe es mittlerweile auch nicht und bin verwirrt

Wurde schon mehrfach korrekt erklärt:

Ein HBM Stack ganz gleich welcher Generation hat immer ein 1024-Bit Interface

Ein HBM2E Chip hat eine Datenrate von bis zu 4,2Gbps

4,2 x 1024 / 8 = 537,6GB/s

Mit zwei Stacks hast du dann maximal 32GB mit 1,07TB/s und mit vier Stacks sogar maximal 64GB mit 2,15TB/s

Zum Vergleich: Samsungs schnellste GDDR6 Chips bringen es an einem 384-Bit Bus "nur" auf 32GB mit 768GB/s, haben schlechtere Zugriffszeiten und verbrauchen mehr als dreimal so viel Strom

Wechhe · 4. Februar 2020

Achsooooo. 1024 Bit Interface im Sinne, dass 1024 Bits gleichzeitig übertragen werden kann. (Und nicht im Sinne der Umrechnung von Giga zu Mega)... Da war ich ja auch einem Holzweg, mein Fuß ist schon voller Splitter...
Danke für die Klarstellung - ich hole mir mal besser einen Kaffee

Smartbomb · 4. Februar 2020

Wenn der Chip eine Verarbeitungsrate von 4,2Gbps hat... ergo mit 4,2GHz taktet (wenn 1 Bit pro Takt übertragen wird)... und das mit einer Breite der Anbindung von 1.
Jetzt hat der Chip aber ein 1024Bit breites Interface (bei Grakas zB oft 256Bit), also diese 4,2Gbit/s * 1024 = 4300,8 Gbit/s Gesamtdatenrate. Dividiert durch 8 um auf Byte zu kommen --> 537,6 GByte/s.
Dann nehme man 1-4 von diesen Stacks und erhalte eine totale Speicherbandbreite für Grakas um den Faktor 1, 2, 3 oder 4 von diesen 537,6 GByte/s.
1 Stack ( = 1 Stapel HBM) = 1024 Bit
2 Stacks ( = 2 Stapel HBM) = 2048 Bit
3 Stacks ( = 3 Stapel HBM) = 3072 Bit
4 Stacks ( = 4 Stapel HBM) = 4096 Bit
Also: Jeder Stapel ist 1024 Bit breit angebunden.
Daher: je mehr Stapel, umso höhere Speicherbandbreite.
1 Stack kann mittlerweile bis zu 8 Schichten dick sein (im Moment oft 4 oder 8 Schichten), wodurch sich die Speicherkapazität pro Stack massiv erhöht hat im Vergleich zum ersten HBM.
AMD Fury: 4 Stacks, aber nur 1 Schicht pro Stack. Also trotz 4 Stacks nur 4GB HBM insgesamt. Diese dafür mit 4096 Bit angebunden. Das ist zwar eine massive Erhöhung im Vergleich zu GDDR RAM (das 16 Fache von 256Bit), am Ende war sie Erhöhung der Speicherbandbreite aber nicht sooo massiv viel höher, weil HMB(1) noch ziemlich langsam taktete.
Nun aber mit 8 Schichten pro Stack (also 8GB (nun sogar 16GB) und 1024Bit) und massiv aufgebohrten Taktraten, kommt man auf enorme Bandbreiten. Die 1TB/s werden schon mit 2 Stacks geknackt, was natürlich günstiger ist als gleich 4 Stacks verbauen zu müssen.

@nanoworks hats grad erklärt seh ich

nanoworks · 4. Februar 2020

Wechhe schrieb:
Achsooooo. 1024 Bit Interface im Sinne, dass 1024 Bits gleichzeitig übertragen werden kann.

Ja das ist ein wenig kompliziert bei HBM:

Bei 1 Stack spricht man von 1024-Bit HBM. Bei 4 Stacks spricht man von 4096-Bit HBM. Je mehr Chips pro Stack, desto mehr RAM kannst du verbauen. Bei 4 Chips pro Stack spricht man von 4-Hi, bei 8 Chips pro Stack von 8-Hi.

Das ganze wird dann eine Frage der Balance: Je höher der Stack, desto schwieriger zu kühlen ist die Geschichte logischerweise. Je mehr Stacks du verwendest, desto teurer wird es.

Wenn du bspw 4096-Bit HBM mit 2-Hi machst, dann hast du mit HBM2E maximal 16GB @ 2,15TB/s. Wenn du 1024-Bit mit 8-Hi machst, dann ist bei 16GB @ 538GB/s Schluss.

ZomBy7 · 4. Februar 2020

Smartbomb schrieb:
Wenn der Chip eine Verarbeitungsrate von 4,2Gbps hat... ergo mit 4,2GHz taktet (wenn 1 Bit pro Takt übertragen wird)... und das mit einer Breite der Anbindung von 1.
Jetzt hat der Chip aber ein 1024Bit breites Interface (bei Grakas zB oft 256Bit), also diese 4,2Gbit/s * 1024 = 4300,8 Gbit/s Gesamtdatenrate. Dividiert durch 8 um auf Byte zu kommen --> 537,6 MByte/s.
Dann nehme man 1-4 von diesen Stacks und erhalte eine totale Speicherbandbreite für Grakas um den Faktor 1, 2, 3 oder 4 von diesen 537,6 MByte/s.
@nanoworks hats grad erklärt seh ich

Du rechnest 4300,8 GBit / 8. Dann sinds aber keine 537,6 MByte/s sondern 537,6 GByte/s.

Gbit / 8 => GByte

Smartbomb · 4. Februar 2020

@ZomBy7 Danke, fixed. Peinlicher Typo

pipip · 5. Februar 2020

nanoworks schrieb:
Die CPU braucht möglichst niedrige Speicherlatenzen. Deswegen ist HBM theoretisch sogar besser geeignet als DDR-RAM. Allerdings ist die hohe Bandbreite für CPUs halt die totale Verschwendung und macht kostentechnisch überhaupt keinen Sinn.

Also mein Tipp ist, dass die Sony PS5 auf HBM setzen wird. Es passt zu den nur "40 CUs" die aber hoch takten sollen, sodass der Abstand zu XBOX X Serie trotz spürbar weniger Shader gar nicht weit entfernt ist, das aber zu einem eventuell merkbar günstigeren Preis. Hinzu kommt ja die PCIE 4 SSD und wer AMD verfolgt, weiß, dass sie den HBM Cache Controller haben.
https://www.computerbase.de/artikel/grafikkarten/radeon-rx-vega-64-56-test.60541/

Der High Bandwith Cache Controller (HBCC) ist ein weiteres Highlights der neuen Vega-Architektur. Er spricht nicht nur den verbauten (und auf RX Vega vorerst 8 GB großen) HBM2-Speicher an, sondern kann bis zu 512 TB Virtual Address Space adressieren. Dafür muss der HBCC auf externen Speicher zu greifen, beispielsweise den Arbeitsspeicher oder den Massenspeicher. Die Radeon-RX-Grafikkarten für Spieler beschränken sich allerdings auf den Arbeitsspeicher.

Hinzu kommt noch die "Erinnerung" dass es von AMD auch Grafikkarten mit verbauter SSD gab.

Was kann man daraus "spekulieren". Dass Sony auch einen Ansatz gehen könnte, der auf einen HBM Cache Controller setzt, der seine Daten (neben HBM) auf die PCIE 4 SSD (und /oder DDR4 RAM) speichern kann. (also die Option nur 8GB HBM könnte auch "funktionieren").
Somit wäre am Ende HBM gegenüber GDDR6 auch nicht mehr "wesentlich" teurer. Besonders wenn man bedenkt, dass es sicher Hersteller gäbe, die für Sony HBM fertigen würde, da man auf Jahre gesehen, mit fixen Volumen rechnen kann.

PCIE4
8 Lanes: 16 GByte/s
16 Lanes: 32 GByte/s

vs

DDR4 2400：19,2 GB/s
DDR4 2666：21,3 GB/s
DDR4 3200：25,6 GB/s

News HBM2E: Auf dem Papier und von Samsung offiziell mit 3,2 Gbps

Commander

Legends of Tomorrow

Commander

Lt. Commander

Commodore

Lt. Junior Grade

Commander

Lt. Commander

Rear Admiral

Lt. Commander

Commander

Onkel Föhn

Gast

Vice Admiral Pro

Commander

Vice Admiral Pro

Rear Admiral

Commander

Lt. Commander

Rear Admiral

Fleet Admiral

Passend zum Thema