News High-End-Speicher: SK Hynix will HBM4 mit 32 GB pro Chip schon ab 2026 liefern

Volker

Ost 1
Teammitglied
Registriert
Juni 2001
Beiträge
18.362
  • Gefällt mir
Reaktionen: SweetOhm, boxte30:Goas, -Stealth- und 8 andere
Warum setzt sich HBM eigentlich so schlecht durch?
Habe schon lange keine Grafikkarten mehr mit HBM gesehen?
AMD hatte welche mit Vega.
 
  • Gefällt mir
Reaktionen: flo.murr und SweetOhm
end0fseven schrieb:
Warum setzt sich HBM eigentlich so schlecht durch?
Die teureren Produktionskosten sind glaube ich der Hauptgrund.(Quelle)
Man müsste ja die HBM- + Interposer-Kosten addieren, da die Interposer notwendig für HBM sind.
Ich denke auch mal, dass die Nachfrage nach höherer Bandbreite für diesen Preis nicht so groß ist.

Gegenüberstellung der Preise für Grafikspeicher: (Quelle)
SpeicherKosten/ChipKosten für 8 GBKosten für 16 GB
GDDR59 bis 11 US-Dollar72 US-Dollar144 US-Dollar
GDDR611 bis 14 US-Dollar88 US-Dollar176 US-Dollar
4-Hi HBM265 bis 75 US-Dollar120 bis 150 US-Dollar240 bis 300 US-Dollar
8-Hi HBM2120 US-Dollar120 US-Dollar240 US-Dollar
Interposer20 bis 25 US-Dollar20 bis 25 US-Dollar20 bis 25 US-Dollar
(Stand: 2018)
 
  • Gefällt mir
Reaktionen: Kitsune-Senpai, Piranha771, Sherman789 und 14 andere
Bei den aktuellen Consumer-Karten, zumindest denen von Nvidia, scheint es sogar eher in Richtung schmaleres Speicher-Interface zu gehen. Man setzt lieber auf größeren Cache in der GPU um mit dem schmalen SI zurecht zu kommen..

Solange der Speicherzugriff bei Spielekarten nicht zum extremen Flaschenhals wird, bleibt HBM wohl nur was für spezielle Profi-GPUs, Großrechner usw.
 
Anstelle von stacked Cashe könnte AMD nicht einfach so einen 32Gbit HBM4 Chip als L4 Cache mit aufs Package setzen? Interposer haben sie ja eh schon wegen den Chiplets. Vor allem bei den Cosumner Plattformen könnte das extrem hilfreich sein um das Bandbreitenlimit des 2 Kanal Speicherinterfaces zu kompensieren um effektiv mehr als 16 Kerne mit Daten füttern zu können.

Bei APUs würde es mich interessieren, ob man anstelle von Cache einen HBM Chip oben auf den Die stapeln könnte, da vor allem der GPU Teil extrem vom SI ausgebremst wird. Bei 45W mobile APUs sollte das doch noch kühlbar sein. Damit könnte man vielleicht sogar eine neue Low-Cost Lösung erschaffen, welche ohne Interposer oder externen RAM auskommt; vor allem letzteres würde das Mainboard Design deutlich vereinfachen und man könnte vielleicht sogar mit nur 2 Lagen Platinen auskommen.
 
  • Gefällt mir
Reaktionen: Charminbaer, Kitsune-Senpai, medsommer und 3 andere
Schade dass sich HBM bisher in Consumerlösungen nicht wirklich durchgesetzt hat aufgrund des Kosten- und Packagingarguments. Andererseits war heute im Thread zu GDDR7 zu lesen, dass Packaging mit DCM im Falle von GDDR(X) nicht wirklich günstiger ist.

Die Entwicklung sollte auch nicht nur in Richtung höher schneller weiter sondern auch sparsamer gehen. Wie das am Ende umgesetzt wird kann verschiedenst gelöst werden. Bewusste Reduzierung des Speichertaktes oder anderer Werte unterhalb der Spezifikation sind an der Stelle nur eine Möglichkeit. Wünschenswert wäre, wenn es bei der Hardware nicht nur immer weiter nach oben geht, da es oft nicht schneller und sparsamer in Kombination gibt, sondern schneller oder sparsamer. Wofür sich die Hersteller zumeist entscheiden liegt auf der Hand, verkauft sich besser.

Ich träume noch immer von einem Zuwachs an Karten der >75W Klasse. HBM hatte bzgl. der Leistungsaufnahme ja mannigfaltige Vorteile ggü. GDDR(X).

Absoluter Träumchen wäre natürliche eine AMD-APU ala Strix Point/Strix Halo, welche mit 3D V-Cache und auf dem Interposer integrierten HBM Speicher daherkommt. :heilig:
 
Ich verstehe es eh nicht, der TSMC DIE ist doch auch super teuer.
Man könnte da eventuell einige mm² durch weniger Cache sparen und eher in die Bandbreite geben.
Bsp. dann auch eines Tages in HBM.

Ich kann mir nur vorstellen das es sich Performancetechnisch nicht lohnt und die Kapazität durch den HPC / Server / Enterprise Markt bereits voll ausgeschöpft ist.
 
ragnarok666 schrieb:
Bei APUs würde es mich interessieren, ob man anstelle von Cache einen HBM Chip oben auf den Die stapeln könnte, da vor allem der GPU Teil extrem vom SI ausgebremst wird.
Cache und RAM sind ja unterschiedliche Dinge. Ein HBM on-Die cache ist langsamder als richtig chache im chip. Aber deine Frage lässt sich trotzdem mit "JA" beantworten. Das gab es ja auch schon. Eine Intel-CPU mit on-chip GPU sowie HBM von AMD. In der Intel 8000 Serie gabs das.
 
  • Gefällt mir
Reaktionen: DaBo87
Draco Nobilis schrieb:
Ich verstehe es eh nicht, der TSMC DIE ist doch auch super teuer.
Man könnte da eventuell einige mm² durch weniger Cache sparen und eher in die Bandbreite geben.
Die Kosten sind bei den kleineren Bussystemen und größeren Caches auch gar nicht der Punkt.
Dabei geht es eher darum den Stromverbrauch zu drücken.
Datentransfers übers PCB sind sehr Energieintensiv.
Die Alternative ist HBM, wobei ich da aktuell keine Ahnung von den Kosten habe.
Scheint sich allerdings nicht gegenüber Caching + GDDR6(x) zu lohnen.
 
Owly schrieb:
Die teureren Produktionskosten sind glaube ich der Hauptgrund.(Quelle)
Man müsste ja die HBM- + Interposer-Kosten addieren, da die Interposer notwendig für HBM sind.
Ich denke auch mal, dass die Nachfrage nach höherer Bandbreite für diesen Preis nicht so groß ist.

Gegenüberstellung der Preise für Grafikspeicher: (Quelle)
SpeicherKosten/ChipKosten für 8 GBKosten für 16 GB
GDDR59 bis 11 US-Dollar72 US-Dollar144 US-Dollar
GDDR611 bis 14 US-Dollar88 US-Dollar176 US-Dollar
4-Hi HBM265 bis 75 US-Dollar120 bis 150 US-Dollar240 bis 300 US-Dollar
8-Hi HBM2120 US-Dollar120 US-Dollar240 US-Dollar
Interposer20 bis 25 US-Dollar20 bis 25 US-Dollar20 bis 25 US-Dollar
(Stand: 2018)
Wobei man hier eben sagen muss:
a) der Stand ist 5 Jahre alt.
b) die Hersteller handeln sich das ja eh immer noch aus, das sind halt die Listenpreise, sonst wär ja nie eine Radeon VII um den Preis gekommen. Erst kürzlich sind Preise für GDDR6 herumgeschwirrt, wo der Unterschied 8 oder 16 GB nur 30 Dollar waren (die News gab es im Bezug auf die 4060 Ti), selbst wenn es bei HBM doppelt so viel wäre, für die Highend-Grafikkarten (4080 und 4090 etwa) hätte sich das dennoch rentiert.
 
end0fseven schrieb:
Warum setzt sich HBM eigentlich so schlecht durch?
Zu teuer für Consumer.

Owly schrieb:
Man müsste ja die HBM- + Interposer-Kosten addieren, da die Interposer notwendig für HBM sind.
BAR86 schrieb:
Erst kürzlich sind Preise für GDDR6 herumgeschwirrt, wo der Unterschied 8 oder 16 GB nur 30 Dollar waren (die News gab es im Bezug auf die 4060 Ti), selbst wenn es bei HBM doppelt so viel wäre, für die Highend-Grafikkarten (4080 und 4090 etwa) hätte sich das dennoch rentiert.
Ihr vergesst da noch einen weiteren Kostenpunkt: Auf dem Die der GPU muss das Speicherinterface drauf, und ein HBM Speicherinterface ist erheblicher breiter als das für GDDR.
Das heißt dann gleichzeitig weniger Chips per Wafer und außerdem schlechtere Yields.

Ich denke, wir werden ein 512 Bit Speicherinterface wieder sehen bevor wir HBM in Consumer-Karten erhalten.

end0fseven schrieb:
Habe schon lange keine Grafikkarten mehr mit HBM gesehen?
Die sind im Datacenter-Segment in großer Anzahl zu finden. Bei den AI Accelerator Karten wird ausschließlich HBM verbaut.
Nvidia bietet bis zu 80GB an, AMD hat MI300 mit bis zu 192GB vorgestellt.

Herdware schrieb:
Bei den aktuellen Consumer-Karten, zumindest denen von Nvidia, scheint es sogar eher in Richtung schmaleres Speicher-Interface zu gehen. Man setzt lieber auf größeren Cache in der GPU um mit dem schmalen SI zurecht zu kommen..
AMD hat damit letzte Generation schon angefangen, Stichwort 'Infinity Cache'. Auslöser war vermutlich, dass nvidia ein Exklusivitäts-Abkommen für Verwendung von GDDR6X erhalten hatte.
Damit musste AMD sich etwas einfallen lassen, um den langsameren GDDR6 VRAM zu kompensieren. Ein gigantischer Cache war anscheinend günstiger als ein breiteres Speicherinterface.

ragnarok666 schrieb:
Anstelle von stacked Cashe könnte AMD nicht einfach so einen 32Gbit HBM4 Chip als L4 Cache mit aufs Package setzen? Interposer haben sie ja eh schon wegen den Chiplets. Vor allem bei den Cosumner Plattformen könnte das extrem hilfreich sein um das Bandbreitenlimit des 2 Kanal Speicherinterfaces zu kompensieren um effektiv mehr als 16 Kerne mit Daten füttern zu können.
Das gibt's schon, aber halt nur im Profi-Segment von Intel*:
https://ark.intel.com/content/www/u...03/products-formerly-sapphire-rapids-hbm.html
Bei bis zu 64GB HBM direkt auf der CPU kann der Server komplett ohne RAM gestartet werden.

*Das mir spontan einfällt. AMD hat bei MI300 auch HBM und CPU-Cores verbaut, aber ich weiß nicht mehr genau, was für Konstellationen.
 
  • Gefällt mir
Reaktionen: Kitsune-Senpai, ragnarok666, end0fseven und eine weitere Person
BAR86 schrieb:
a) der Stand ist 5 Jahre alt.
Daher hatte ich ja Stand: 2018 darunter geschrieben. Leider ist mir kein aktuellerer Stand bekannt.

BAR86 schrieb:
b) die Hersteller handeln sich das ja eh immer noch aus, das sind halt die Listenpreise, sonst wär ja nie eine Radeon VII um den Preis gekommen. Erst kürzlich sind Preise für GDDR6 herumgeschwirrt, wo der Unterschied 8 oder 16 GB nur 30 Dollar waren (die News gab es im Bezug auf die 4060 Ti), selbst wenn es bei HBM doppelt so viel wäre, für die Highend-Grafikkarten (4080 und 4090 etwa) hätte sich das dennoch rentiert.
Da hast du recht.

Rickmer schrieb:
Ihr vergesst da noch einen weiteren Kostenpunkt: Auf dem Die der GPU muss das Speicherinterface drauf, und ein HBM Speicherinterface ist erheblicher breiter als das für GDDR.
Das heißt dann gleichzeitig weniger Chips per Wafer und außerdem schlechtere Yields.

Ich denke, wir werden ein 512 Bit Speicherinterface wieder sehen bevor wir HBM in Consumer-Karten erhalten.
Tatsächlich. Danke für die Info, das war mir gar nicht bewusst!
 
ragnarok666 schrieb:
Damit könnte man vielleicht sogar eine neue Low-Cost Lösung erschaffen, welche ohne Interposer oder externen RAM auskommt; vor allem letzteres würde das Mainboard Design deutlich vereinfachen und man könnte vielleicht sogar mit nur 2 Lagen Platinen auskommen.
Nur dass HBM alles andere als low-cost ist und dein Plan damit zusammenfällt.
Das betrifft sowohl die Entwicklung, als auch die Fertigungskosten.

Die Idee kam hier schon 1.000x auf - und wenn das so eine gute Idee wäre: Wie groß ist die Chance, dass bei Intel und AMD hochbezahlte Leute sitzen, die das nicht in Betracht gezogen hätten?
 
Owly schrieb:
Daher hatte ich ja Stand: 2018 darunter geschrieben. Leider ist mir kein aktuellerer Stand bekannt.
schau mal was du zur PS5 findest.

Selbst zu 500$/€ hat die Konsole Gewinn abgeworfen.
Sony hat alle kosten berechnet, Entwicklung etc.
 
Grundgütiger schrieb:
Selbst zu 500$/€ hat die Konsole Gewinn abgeworfen.
Sony hat alle kosten berechnet, Entwicklung etc.
Also meines Wissens macht die PS5 von Sony Verluste. (Quelle)

Zitat:
"Mit jeder verkauften PlayStation 5 macht Sony Verlust. Das geht aus einem Quartalsbericht des Unternehmens hervor. Demnach hat der japanische PS5-Hersteller zwar seit dem Release der Konsole rund 4,5 Millionen Einheiten absetzen können, aber mit keiner einzigen dieser Geräte einen Gewinn erzielt."
 
Rickmer schrieb:
Ihr vergesst da noch einen weiteren Kostenpunkt: Auf dem Die der GPU muss das Speicherinterface drauf, und ein HBM Speicherinterface ist erheblicher breiter als das für GDDR.
Das heißt dann gleichzeitig weniger Chips per Wafer und außerdem schlechtere Yields.

Ich denke, wir werden ein 512 Bit Speicherinterface wieder sehen bevor wir HBM in Consumer-Karten erhalten.
Owly schrieb:
Tatsächlich. Danke für die Info, das war mir gar nicht bewusst!

Und das ist meines Wissens nach falsch:
AMD hat das damals auf 100 verschiedenen Folien gehabt: das 4096 Speicherinterface wesentlich weniger Chipfläche braucht (nur ca 15-20% der Fläche die ein GDDR5/6 Interface braucht). Genau daher ja der Vorteil: kleinere Chipfläche (oder mehr Platz für HW Einheiten) und weil das SI kleiner ist, braucht es auch DEUTLICH weniger Strom.
Wenn du jetzt also ein HBM 4096 Speicherinterface hast und dafür sagen wir 30-50mm² Chipfläche brauchst und wir nehmen dein hypothetisches 512 bit GDDR SI mit sagen wir 200mm Chipfläche ist der Unterschied enorm und du kannst entweder deutlich strom sparen oder tausende zusätzliche Shader unterbringen.
AMD hat damals angegeben, dass für den gleichen Speichertransfer (sagen wir 1 TB/s) braucht GDDR 3x so viel elektrische Leistung wie HBM. Nvidia hat das ein paar Jahre später bei HBM2 sogar auf das 5x angegeben, der Abstand ist eventuell noch größer geworden.
Das ist ja auch der Grund warum Nvidia bei den großen Chips (seit Volta) viel mehr HW Einheiten pro mm² hat als etwa in den Konsumerchips). HBM hat also 3 große Vorteile: Stromverbrauch wegen kleinerem SI, kleineres SI führt zu kleineren Chips oder mehr Platz für "wichtiges", mehr Durchsatz/Effizienz.

https://www.hardwareluxx.de/index.p...ine-erhoehung-der-speicherbandbreite-ist.html
https://www.hardwareluxx.de/index.p...eutert-details-zum-high-bandwidth-memory.html
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Kitsune-Senpai, [F]L4SH und Grundgütiger
BAR86 schrieb:
AMD hat das damals auf 100 verschiedenen Folien gehabt: das 4096 Speicherinterface wesentlich weniger Chipfläche braucht (nur ca 15-20%) als ein normales Speicherinterface.
Hast du dafür eine Quelle?
Ich habe bei deinen Links - und eigener Suche - nur jede Menge Hinweise gefunden bezüglich wie viel PCB Platz durch HBM gespart wird.

Eine Aussage/Folie bezüglich tatsächlicher Chipfläche für den Controller konnte ich nicht finden.

BAR86 schrieb:
Das ist ja auch der Grund warum Nvidia bei den großen Chips (seit Volta) viel mehr HW Einheiten pro mm² hat als etwa in den Konsumerchips).
Kannst du das belegen?
Bist du sicher, dass das nicht stattdessen an anderen Architektur-Anpassungen für Enterprise Workloads wie z.B. Größen der Caches zusammen hängt?
 
Zuletzt bearbeitet:
Ich müsste jetzt auch nochmal länger suchen.
Ganz konkrete Zahlen nennt ja weder AMD noch Nvidia, aber es gibt einige Paper dazu. Es ist ja auch logisch, weil viel "direkter" kommuniziert wird.
Ich erinnere mich aber, ich denke es war damals bei Fury - als AMD die Vorteile auf Folien grafisch dargestellt hat. Da war das HBM Speicherinterface ein paar kleine Punkte auf dem Chip und das SI von der 390 im Vergleichsbild riesig
 
Zurück
Oben