News 3D-DRAM: Konzepte für gestapelte Speicherzellen wie bei 3D-NAND

Bigeagle schrieb:
Oder gibts da auch 24?
die gibt es.^^
bad_sign schrieb:
Aber nicht mit normalen UDIMMs
korrekt. ganz theoretisch ist das limit bei DDR5 UDIMM bei 128GB, für RDIMM bei 1 TB und LRDIMM bei 2TB pro riegel.

stand so mal vor ewigkeiten in der JEDEC spac dem glaub ich einfach mal. ich deke auf lange sicht sehen wir 128GB UDIMMs aber für RDIMM und LRDIMM würde ich das maximum erstmal halbieren.

selbst dann hat man auf Genoa 24TB RAM pro sockel was möglich wäre. schon eine ganze menge ;)
 
  • Gefällt mir
Reaktionen: Bigeagle
bensen schrieb:
Also im Enterprisebereich ist Größe durchaus ein Thema. Deswegen würde ja überhaupt über SCM diskutiert, was Intel mit 3DXPoint versucht hat zu implementieren.
Ergänzung ()


Mal davon ab, dass das nur mit Klimmzüge möglich ist, wird das natürlich den Preis reduzieren, sofern das so funktioniert wie dargestellt.
Ergänzung ()


Völlig andere Baustelle. Es geht hier nicht um das stapeln von Dies. HBM erhöht den Datendurchsatz bietet aber keine hohe Kapazität und erst recht keinen niedrigen Preis.
Du könntest zB diesen 3D DRAM auch in HBM stapeln.
Ich versteh den feinen Unterschied aber vielleicht auch nicht wirklich richtig ?

Bei beiden Fällen geht's ja wohl um das Stapeln von Dies - aber im Fall von HBM mit paralleler through-hole Kontaktierung aller Dies zur Platine bzw. einem Verteilboard am Boden des Stapels (z.B. 10 Dies mit 128 bit Datenworten macht 1280 Datenanschlüsse je HBM Stapel) während es bei z.B. den Flash Speicher eher um kostengünstigere Kontaktierung über Chiprandverbindungen geht. Für quasi seriellen Betrieb - mal diese mal jenes Die/Lage liefert gerade Daten an die CPU - das hält dann auch die Verlustleistung noch etwas in Grenzen.

Chipstapel gibt's aber wohl auch schon bei LPDDR5 RAMs wie im Apple Mx. Mit auch 8..12 Dies ? Mit durchaus mehreren (32..64 bit) unabhängigen Zugriffsbussen.

Sowohl bei HBM als auch bei den LPDDR5 Rams ist aber die Speicherkapazität beschränkt weil die Zahl der gestapelten Dies eher im Dutzendbereich liegt - mit externen DDR4 Modulen kann man x86 CPUs halt mit erheblich größeren Speichermengen versorgen.

Fängt man jetzt wie hier an auch 100 DRAM Dies zu stapeln - dann löst sich das Problem vielleicht. Aber im Gegensatz zu HBM wird die Speicherbandbreite dabei wohl nicht kostentreibend hochgetrieben. Aber auch die bei den Apple Mx ist ja durchaus schon auf einem Niveau die man sonst nur von (aufgelöteten) GPU Speicherbänken kennt. Was man mit externen DDR5 Modulen allenfalls mit sehr vielen Speicherbänken (8+) bei den CPU Chips für die Profiboards angenähert erreichen kann. Vielleicht auch dann erst bei Dual CPU Boards. (800 GByte/s = 8 x 50 GByte/s x 2 ..)

Sprich das wär ein Weg - es bei den meisten Consumer/Büro Rechnern wie Apple es schon vormacht zu halten. DRAM Chips in das Prozessorgehäuse wachsen zu lassen (statt externer Module auf Steckplätzen) und dabei der Speicherbandbreite einen deutlichen Schub geben. Was dann Unified Memory für CPU/GPU möglich macht - und die Entschärfung des ewigen Nadelöhrs PCIe Bus zwischen CPU und GPU. Ohne dann völlig auf größere Speichermengen für die CPU verzichten zu müssen. Das (die regelmäßig aufgelöteten) GPU Speicher begrenzt sind hat - bislang - noch nicht zu lauten Protesten geführt. Das der Formfaktor der Rechner und die Verlustleistung dabei wieder ein Stück kleiner und die Zuverlässigkeit eher größer werden kann ist sicher auch nicht unerwünscht.
 
Zuletzt bearbeitet:
senf.dazu schrieb:
Bei beiden Fällen geht's ja wohl um das Stapeln von Dies
Nein, hier geht's es nicht um das stapeln von Dies. Hier geht es um mehrere Layer auf einem Die, wie bei 3D NAND auch. Die Bilder zeigen doch die Wordline Layer in der vertikalen.

senf.dazu schrieb:
Chipstapel gibt's aber wohl auch schon bei LPDDR5 RAMs wie im Apple Mx. Mit auch 8..12 Dies ? Mit durchaus mehreren (32..64 bit) unabhängigen Zugriffsbussen.
Das gibt's schon seit Ewigkeiten auch bei normalen DDR-DRAM auch. Da ist auch nichts bei Apple besonders. Der wird auf jedem Smartphone SoC gestapelt.
senf.dazu schrieb:
Fängt man jetzt wie hier an auch 100 DRAM Dies zu stapeln - dann löst sich das Problem vielleicht.
Das funktioniert doch rein physikalisch gar nicht. Wird doch viel zu hoch und wie sollen die ganzen Dies organisiert werden? Dies stapeln löst ja kein Problem. Das wird schon soweit genutzt wie möglich.
 
bensen schrieb:
Also im Enterprisebereich ist Größe durchaus ein Thema.
Wie groß ist den der Markt dafür? Bei inzwischen 12 Kanälen pro CPU, werden ja oft nicht mal 24 Riegel verbaut, sondern tatsächlich nur 12.
bensen schrieb:
Deswegen würde ja überhaupt über SCM diskutiert, was Intel mit 3DXPoint versucht hat zu implementieren.
Was ist SCM?

3DXPoint ist nicht flüchtiger Speicher. Nicht flüchtigen Speicher kannst du nicht durch (mehr) flüchtigen DRAM ersetzen, von daher verstehe ich deinen Einwand mit 3DXPoint an der Stelle nicht.
Ergänzung ()

estros schrieb:
Die Bandbreite muss bei solch vielen Schichten aber auch gesteigert werden, sonst sitzt man auf dem Trockenen.
Genau das. Was will ich mit riesiegem flüchtigen Speicher, aus dem ich gar nicht schnell genug die Daten rausbekomme oder rein bekomme... Wenn das zu lange dauert, dann ist irgendwann der Sinn eines Zwischenpuffers dahin. Da kann ich irgendwann auch direkt die Daten von der SSD laden, (oder vom 3DXPoint, der sich nicht durchgesetzt hat... ;)
 
Zuletzt bearbeitet:
3D-XRAM basiert auf 2 Teilen:
  1. Einer Speicherzelle, die auf dem Floating Body Effect basiert
  2. Dem Stapeln dieser Speicherstelle
Soweit ich es verstehe beruht der Floating Body Effect auf parasitären Kapazitäten, die normalerweise bei den Schaltungen Ärger verursachen. Es gibt seit einigen Jahren Versuche diese parasitären Kapazitäten zu nutzen, um damit einen neuen Typ Speicherzelle zu realisieren. Das läuft im allgemeinen unter Floating Body Cell FBC oder Floating Body RAM FBRAM

Der Reiz an der FBC ist, dass sie nur aus einem Transistor besteht. Wie man diese parasitäre Kapazität lädt und was man tun muss, um die Ladung in dieser parasitären Kapazität zu erhalten, weiß ich nicht. AFAIK muss beim klassischen DRAM das aus einem Transistor und einem Kondensator besteht viel Aufwand betrieben werden, um die Ladung des Kondensators aufzufrischen.

FBC und FBRAM werden seit Jahren erforscht und sind noch immer nicht produktionsreif. Der Erfinder des 3D-XRAM wird auf dem Flash Memory Summit schon darlegen müssen, was 3D-XRAM von den bisherigen Implementierungen unterscheidet, wieso 3D-XRAM besser ist und wieso es marktreif ist.

Ein Nachteil von 3D-XRAM ist, dass eine einzelne Speicherzelle deutlich größer ist als eine konventionelle DRAM-Zelle ist. 3D-XRAM benötigt 230 Schichten, um die genannten 128 Gbit zu erreichen. Wenn man das liest ist, die 8-fach höhere Speicherdichte im Vergleich zu konventionellem DRAM nicht berauschend. Die neue 3D-NAND-Generation hat ebenfalls ca.230 Schichten.

Außerdem interessiert mich schon wieviel von 3D-XRAM im Labor implementiert wurde. Oder ob alles nur auf Simulationen und Papier beruht.
 
  • Gefällt mir
Reaktionen: LukS
NEO Semiconductor ist wohl wieder so ein Startup, das nur gegründet wurde, um aufgekauft zu werden.
 
bensen schrieb:
Nein, hier geht's es nicht um das stapeln von Dies. Hier geht es um mehrere Layer auf einem Die, wie bei 3D NAND auch. Die Bilder zeigen doch die Wordline Layer in der vertikalen.

man lernt doch nie aus ;)

https://thememoryguy.com/what-is-3d-nand-why-do-we-need-it-how-do-they-make-it/

darin irgendwo: (wie bearbeitet man eine 100+ layer Struktur in einem Diffusions&Co-schritt ..)
https://thememoryguy.com/wp-content/uploads/2013/11/Stages-of-TCAT-Manufacture-ia.jpg
 
Zuletzt bearbeitet:
Convert schrieb:
Wie groß ist den der Markt dafür? Bei inzwischen 12 Kanälen pro CPU, werden ja oft nicht mal 24 Riegel verbaut, sondern tatsächlich nur 12.
Der ist schon groß genug. Gibt genug Anstrengungen die Kapazität weiter zu erhöhen.

Das Problem mit mehr DIMM ist zB einfach Platz. Man bekommt so viele Slots kaum unter. Dazu hatte Genoa ein (Firmware?-) Problem, es funktionierte lange nicht mit 2 DPC.
Das Hauptproblem aber ist Bandbreite. Sie wird massiv reduziert bei 2 DPC.

Bekommt man mehr Kapazität per Die, bekommt man mehr Speicherkapazität ohne diese Nachteile.


Convert schrieb:
Storage Class Memory. Ein Memory Tier zwischen DRAM und SSD.

Convert schrieb:
3DXPoint ist nicht flüchtiger Speicher. Nicht flüchtigen Speicher kannst du nicht durch (mehr) flüchtigen DRAM ersetzen, von daher verstehe ich deinen Einwand mit 3DXPoint an der Stelle nicht.
Nicht für alle Anwendungen war die nicht-flüchtigkeit relevant. Es diente vornehmlich als Ersatz für DRAM um die Kapazität zu erhöhen.
Allerdings hat man es nicht geschafft die Kapazität wie erwartet zu erhöhen. Man blieb bei Faktor 2. Preis war auch nicht so interessant und die Performance eben deutlich unter DRAM.

Convert schrieb:
Genau das. Was will ich mit riesiegem flüchtigen Speicher, aus dem ich gar nicht schnell genug die Daten rausbekomme oder rein bekomme...
Das ist nicht das Problem. Der langsamste RAM ist immer noch Meilen schneller als ne SSD.

Convert schrieb:
Wenn das zu lange dauert, dann ist irgendwann der Sinn eines Zwischenpuffers dahin. Da kann ich irgendwann auch direkt die Daten von der SSD laden, (oder vom 3DXPoint, der sich nicht durchgesetzt hat... ;)
Momentan noch nicht gerade eine Alternative. Der RAM ist doch erheblich schneller.
Aber das ist in der Tat eine Entwicklung die kommt um die Speicherknappheit anzugehen: CXL Memory. Zumindest in manchen Szenarien.
 
bensen schrieb:
Das Hauptproblem aber ist Bandbreite. Sie wird massiv reduziert bei 2 DPC.
Massiv reduzierte Bandbreite? Meinst du pro Riegel, oder absolut? Absolut bleibt doch die Bandbreite gleich, es bleibt immer noch 12 Kanal. Höchstens taktet der RAM, statt mit 5200 nur mit 4800, aber das ist ja nicht "massiv".
bensen schrieb:
Bekommt man mehr Kapazität per Die, bekommt man mehr Speicherkapazität ohne diese Nachteile.
Absolut gesehen, bleibt immer noch bei 12 Kanälen für den gesamten RAM. Also kein massiver Bandbreitenvorteil zum 2DPC, wenn man 4800 vs. 5200 nicht als "massiv" bezeichnet.

Das ist nicht das Problem. Der langsamste RAM ist immer noch Meilen schneller als ne SSD.

Weiter oben hast du den "Bandbreitenverlust" bei 2DPC noch als "Hauptproblem" benannt. Ist die Bandbreite nun ein Problem oder nicht, bei viel DRAM-Speicher?
 
Zuletzt bearbeitet:
Convert schrieb:
Massiv reduzierte Bandbreite? Meinst du pro Riegel, oder absolut? Absolut bleibt doch die Bandbreite gleich, es bleibt immer noch 12 Kanal. Höchstens taktet der RAM, statt mit 5200 nur mit 4800, aber das ist ja nicht "massiv".
Also die Genoa Server mit 2 DPC die ich gesehen habe laufen mit 4000 oder 3600. Lasse mich gerne eines besseren belehren.
Convert schrieb:
Absolut gesehen, bleibt immer noch bei 12 Kanälen für den gesamten RAM. Also kein massiver Bandbreitenvorteil zum 2DPC, wenn man 4800 vs. 5200 nicht als "massiv" bezeichnet.
Ich sprach von Kapazität. Dabei niedrigere Preise und etwa 20% mehr Bandbreite.
Convert schrieb:
Weiter oben hast du den "Bandbreitenverlust" bei 2DPC noch als "Hauptproblem" benannt. Ist die Bandbreite nun ein Problem oder nicht, bei viel DRAM-Speicher?
Ja natürlich. Du verstehst irgendwie das Problem nicht. Wenn du riesen Datenbanken hast brauchst du Speicherkapazität. Natürlich willst du auch schnellen Speicher habe. Aber du nimmst lieber langsamen DRAM anstatt ne viel langsamere SSD. Das ist ein Kompromiss.
Wenn man beides haben könnte würde man das mit Kusshand nehmen.
Der Bedarf ist da und wird immer größer, da die CPUs immer fetter werden aber beim Speicher Grenzen gesetzt sind.
Man hat ja Entwicklungen in mehrere Richtungen um dort Lösungen zu finden. Wenn diese Idee hier umgesetzt werde kann würde das viele umständliche Lösungen vereinfachen.
 
Zurück
Oben