News Stratix 10 MX: Erster Intel-FPGA mit ARM-Kernen, HBM2 und EMIB

Ich denke mal in ein paar Jahren wird fast jeder Rechner ein paar GB HBM als Cache mitbringen.

Vorteil, der Zugriff auf HBM ist grundsätzlich immer flotter, sowohl random als auch linear. Das geht aber nur wenn HBM fest verbaut wird, also ohne Sockel.

Dabei reicht es meistens nur wenige GB schnell anzubinden, den Rest lagert man in durchaus langsames und preiswertes normales RAM aus. Das sieht dann in fünf Jahren z.B. so aus dass ein Consumer-i5 mit 16GB HBM kommt und der User bei Bedarf bis zu 256GB normales RAM dazustecken kann. Spricht man diesen Speicher dann noch komprimierend an - was Windows seit 1511 und Linux seit 2.x können - sinkt der lineare Durchsatz nichteinmal und man bekommt faktisch nicht 256GB RAM sondern eher 500-1000GB RAM für ein paar Euro.
 
HBM in die CPU seh ich auch so, aber ob man das als Cache bezeichnet ist ne Geschmacksfrage. An sich ist das einfach DRAM Speicher der ins CPU Gehäuse wandert und durch die breite Anbindung (ganz wie Video Ram bei GPUs) einfach mal die 10 fache Bandbreite wie DRAM liefert - die neue Form von DRAM-Hauptspeicher bei CPUs mit vielen Kernen (.. 10x die heutigen 4 Kerne) oder auch AVX. Da sind aber die heutigen 16GB HBM Speicher vielleicht noch ein wenig am unteren Ende (bei XEON PHI's HBM war tschuldigung ist Cache/DRAM/halbe halbe wohl wirklich konfigurierbar). Und in die Memory Sockel kommt dann vielleicht nicht mehr DRAM sondern gleich persistentes XPoint/Optane - persistenter Massenspeicher der damit auch ne Größenordnung schneller kann als jetzige SSD Anbindungen. Und HBM und Optane spielen dann Cache oder virtuellen Hauptspeicher - wie man es auch nennen mag - und natürlich Massenspeicher. Zusammen ein Weg um Systeme mit einzelnen Prozessoren (oder vielleicht auch mal 2) 10x leistungsstärker als heut zu machen.

Und wenn's dann doch irgendwann gelingt optische Anbindungen (z.B. 400 GBit/s oder 1 TBit/s) in die CPU Gehäuse zu packen (sprich ähnliche Bandbreite wie die heutigen DRAM Module mit mehreren Channels) dann ist man schon wohl dicht an dem was HP mit seiner "The Machine" für Parallelrechner propagiert - ein großer persistenter Speicher (Die Optane Speichermodule auf den DRAM alten DRAM-Sockeln aller CPUs im System zusammengenommen) der für alle CPUs symmetrisch verfügbar ist - entweder über die lokale Anbindung oder über das etwa gleichschnelle optische Link.
 
Zuletzt bearbeitet:
Wobei man mit nem guten FPGA... müsste man damit nicht sogar ne echte x86-CPU emulieren können, wenn der FPGA groß genug ist? Zusammen mit nem FPGA(-bereich?) für einen Grafikkern müsste dann sogar Crysis laufen... (Komm ich jetzt auch auf die Ignore-Liste? :D )

Aber mal zur Realität: FPGAs kommen aus der Spezial-Prototypen-Erstellungs-Ecke heraus. Sehr schön. Es wäre tatsächlich spannend, wie das in 10 Jahren aussieht. Ob wir dann wirklich Fälle haben, wo FPGAs je nach Anwendungsfall und "Tagesform" mit jeweiliger "ASIC-Logik" überbügelt werden und dann ganz unterschiedliche Dinge tun. Aber auch dort wird es spannend, wann die FPGAs halbwegs die Leistungsfähigkeit eines ASIC erreichen (und ab wann es sich lohnt, tatsächlich unterschiedliche Software auf einen FPGA zu spielen anstatt die ASICs schlicht mit in Silikon mitzuliefern).

Regards, Bigfoot29
 
Die FPGA Hersteller bieten tatsächlich auch Softcores (kleine RISC CPUs) für ihre Bausteine an. War auch mal an einem Projekt beteiligt wo ein Sparc Clone ('Leon' wenn ich mich recht erinnere) in einem FPGA portiert wurde. Leider sind diese Lösungen nur ziemlich grottenlangsam - also eher für Studienzwecke interessant.

Manchmal braucht man eben in einer FPGA Anwendung nur wenig Rechenleistung, dann nimmt man den Softcore. Und wenn's etwas mehr sein muß dann arrangiert man sich mit Spezial-FPGA Versionen mit nem integrierten echten ARM Core. (Manchmal auch 2 oder 4).

Und FPGA werden schon lange in "Professionellen Geräten" kommerziell verwendet. Vor 10J (oder waren's sogar 20 ?) war's z.B. beliebt bei Audio/Video Geräten (für den eben professionellen Broadcaster oder Filmbereich) die Dinger zur Kamerasteuerung oder Datenaufbereitung oder sehr häufig die Implementierung der 100 verschiedenen Interfaceformate, gern auch angepaßt auf spezielle Kundenwünsche.., zu verwenden. Selbst wenn auch diese Anwendungen durchaus "preisempfindlich" waren - aber die Preise sind halt aufgrund der (geringen) Stückzahlen doch etwas höher .. es gibt auch "billige" FPGA Serien bei denen das Fitting der Logik dann aber weniger spaßig ist ..
 
Zuletzt bearbeitet:
ähnlich zu der Zynq Plattform von Xilinx, mit HBM2 wird man wahrscheinlich Ethereum Minen und Co auf FPGAs auslagern können, bin selbst dabei ein kleines Mining Programm auf ner FPGA zu schreiben (nicht ethash, da zu memory bound)


Crass Spektakel schrieb:
Ich denke mal in ein paar Jahren wird fast jeder Rechner ein paar GB HBM als Cache mitbringen.

Sehr bolde Aussage ohne technischen Verständnis, lese dich ein wenig in optimale Cachsizes ein, ab einer Größe in der Paretofront wird der Overhead zu groß ;)

Die Herausforderung liegt nicht daran Caches größer zu dimensionieren, sondern das RAM-CPU Interface performentar zu gestalten, dabei zählt einerseits der RAM Clock, der sich noch mindestens verdoppelt um die Frequenzdomainen zu vereinheitlichen.

Was aber die CPU-RAM Co-Leistung für die nächsten Jahrzehnte limitieren wird ist die Signallaufzeit in Kupfer und anderen Metallen. Es wird noch eine Weile dauern bis neue Leitungstechnologien wie Graphen Einsatz finden.
 
Zuletzt bearbeitet:
Schade ist für den Einsatz im Netzwerkbereich konzipiert worden. 96 Gigabit-Ports möglich... Der Chip wird wohl in tolle Switche kommen...
 
Wohl eher nicht. Für 1G und 10G Switches sind die Bausteine sicher zu teuer, bei 100G Switches (gute 10k€) würde der Preisbereich vermutlich eher gehen. Aber trotz aller I/O Vielfalt reichts für z.B. einen 48 port 100GBit/s Omnipath Switch wie man ihn von Intel kaufen kann wohl eher nicht.

Trotzdem sind die FPGA Hersteller immer mit dabei wenn's um neue top-notch I/O Techniken geht - schließlich ist das Prototyping auch solcher Dinge ein wesentlicher Anwendungfall für solche FPGAs. Und die dabei abfallenden IP Blöcke und Erfahrungen lassen sich dann für spätere Designs weiterverwenden - und werden von verwöhnten FPGA Kunden (es gibt ja mehrere Hersteller - 2 Stück) dann auch penetrant nachgefragt. ;-)

Einzelne Ethernet 100G MACs sind ja sogar enthalten
Die PAM4 56k Transceiver sortier ich bei entweder 200 GBit/s Netzwerkports (Infiniband, Omnipath, Ehternet, je 4 Transceiver) oder sogar eher noch bei PCB/PCB Verbindungen zu CPUs oder GPUs, Stichwort NVLink/Blulink (und wer weiß künftigen Intel QPI/UPI Nachfolgern) ein.
PCIe ist fast erstaunlicherweise "nur" PCIe3 und noch nicht PCIe4 (halt Intel Präferenzen .. ? Die Power-Group hat ja eh Xilinx im Boot. Wenn man sich die PAM4 Entwicklung ansieht kann man allerdings am Sinn von PCIe4 oder 5 auch zweifeln)
Und die restlichen schnellen seriellen Interfaces braucht man alle naslang um die Chips mit ihrer Chipumwelt zu verbinden .. irgenwie haben die Dinger am Ende (der Entwicklung) immer zu wenig I/O-Pins ..

- Paßt so wohl zumindest halbwegs zu der im CB Artikel genannten Anwendung damit HPC Rechenbeschleuniger zu bauen (mit NV/BlueLink vs einige 200 Gbps Omnipath)
- aber auch Prototyping mit 200G Netzwerkanschlüssen
- aber auch vom Hauptrechner per 100G+ Standard Netzwerkport und Kabel einige Meter bis zig Meter entfernte FPGA/ARM basierte Boards die in Geräten die z.B. aufwendige Bildverarbeitung (und eigentständige Echtzeit-Gerätesteuerung) treiben stecken.
..
 
Zuletzt bearbeitet:
Zurück
Oben