News Intel Xeon Gold 6138P: Erster Server-Prozessor mit integriertem FPGA gestartet

senf.dazu schrieb:
Für ein 4 Sockel System sind dort Linpack 5777 GFlops genannt.
Das dann auch 1000W an Leistung zieht? Und c.a. 20.000 Euro kostet?

Eine Tesla V100 SXM2 NVLink 300 W bietet bei Double Prec (FMA) ganze 7500 GLOPS. Bei 300Watt...
Kostenpunkt 7000 Euro... Aber skalierbar....
 
Zuletzt bearbeitet:
kest schrieb:
Die Synthese-Tools der Hersteller kosten ca. 3-5kEuro pro Jahr (mit Support). Wenn man kleinere FPGAs nimmt, dann sind die Tools kostenlos. Sollte man abgefahrene IP-Cores verwenden wollen, dann ist man schnell ein Paar zig Tausend Euro weg (als Beispiel 10G-Eth Core kostet ca. 20kEuro).

Aber! Möchte man z.B. die FPGAs von Amazon verwenden: AWS F1 Instanzen, dann bezahlt man nur stundenweise für EC2-Instanz, worin die komplette Xilinx Entwicklungsumgebung installiert ist (allerdings nur für einen Chip, genau den, der bei der Amazon-Instanz verwendet wird).

Langsam passiert da was. Und Intel/Altera möchten da mitmischen. Was Intel wohl vor hat ist, dass später nur ein Kompiler sowohl für CPU als auch FPGA den code rausspuckt. Das Programm wird abgespielt, wenn ein FPGA in der CPU (so wie dieser Xeon) vorhanden ist, wird dieses mit dem Bit-File geladen und so wird die Ausführung beschleunigt. Ist das FPGA nicht vorhanden, wird das in der CPU emuliert.
Da hat man dann die Wahl: eine CPU für 1000,- die 12 Stunden an einer Aufgabe rechnet oder für 5000,-, die in 10 Minuten fertig ist.

Man kann sich das so vorstellen, dass Performance/Power bei einem Arria10 FPGA etwa doppelt so gut ist, wie bei einer Titan oder ähnlichen Grafikkarten. Bei Stratix 10 wahrscheinlich sogar 5-10 Mal besser. (alles aus dem Bauch heraus, ich lese viele Papers, deshalb habe ich etwa die Übersicht). Ein FPGA braucht 5-15 Watt, eine GPU 100-250 Watt. Do the math.

-- Nachtrag
Ach so. Die Frequenzen bei so einem FPGA liegen wohl etwa bei 500-800 MHz. Ist nicht viel, aber man bedenkt, dass da drinne 3000 Multiplizierer drin sind, dann ist es schon eine Ganze Menge. Dazu noch ein Paar MByte an Speicher, der 1 Takt Latenz hat und beliebig breit konfiguriert werden kann :-o

Dann hat sich ja bei den Tools/Kosten gegenüber den Altera Zeiten wohl nichts grundsätzliches geändert.

Bist du dir mit der Verlustleistung sicher ? Hatte früher Kollegen die die Dinger im Video Mischer Bereich (großflächig hohe Takte und bis an den Rand vollgequetscht - Kundenwünsche enden nie wenn man sie läßt) eingesetzt haben - und die berichteten von Chips die sich bei Versagen der aktiven Chipkühlung im Betrieb von selber ausgelötet haben und runtergeplumpst sind .. ;)
Ergänzung ()
 
nebulus schrieb:
Das dann auch 1000W an Leistung zieht? Und c.a. 20.000 Euro kostet?

Eine Tesla V100 SXM2 NVLink 300 W bietet bei Double Prec (FMA) ganze 7500 GLOPS. Bei 300Watt...
Kostenpunkt 7000 Euro... Aber skalierbar....
nebulus schrieb:
Das dann auch 1000W an Leistung zieht? Und c.a. 20.000 Euro kostet?

Eine Tesla V100 SXM2 NVLink 300 W bietet bei Double Prec (FMA) ganze 7500 GLOPS. Bei 300Watt...
Kostenpunkt 7000 Euro... Aber skalierbar....

Ne GPU Steckkarte wie du oben genannt hast braucht noch einen x86 um sie zum Leben zu erwecken und lebend zu halten und ein System drumherum ..

Ein NVidia DGX-2 System mit 16 V100 soll wohl 399000 kosten mithin effektive 25000/V100-Karte an Systemkosten - und ist dann wohl mit 16G Hauptspeicher je V100 und der Zahl der GPUs auch im Augenblick am Ende der Skalierbarkeit angekommen (die 48 Lane @25G NVLink Steckverbinder (200 Signalpins?) sind halt doch unhandlicher als zwei Dutzend Glasfasern..)

Intel verkauft halt nicht nur CPUs sondern auch Lösungen zur Vernetzung größerer System wie Omnipath 100G Adapter bzw. -F CPUs und 48x100G Switches .. und die Server-Boardhersteller machen nicht bei 16G Hauptspeicher je Prozessor Schluß. Dieses sagen wir mal Profi-Standard-Networking hat zwar auch seinen Preis, sagen wir mal in der Gegend 1000€ je Prozessor (Glasfaser, kurze Kupferstrippen gehen auch deutlich preiswerter), mit der Chance durch silicon optics deutlich billiger zu werden - Spezial Switch Lösungen die man im Falle von NV/Blulink schlagen da wohl stärker zu Buche.

Die Ansätze CPU,GPU,FPGA haben alle ihre Für's und Wider's - ich denke die Tendenz geht dahin eher variabel zu bleiben - selbst bei den Compilern um mal dies oder das probieren zu können .. aber das ist noch ein langer Weg.

Zumal sich ja die Hersteller auch mal wieder in Grüppchen sortieren um zum "richtigen" Interface zu finden - auf der einen Seite Intel (optische Rechnerverbinderei per Omnipath, am liebsten mit "Silicon Optics") auf der anderen Seite das Power Konsortium (IBM,NVidia,Mellanox,..) mit NVLink=BlueLink Steckverbinder Verkabelung in den Rechnerschränken und Infiniband darüberhinaus. Und HP forscht weiter an seiner "The Machine" - mit optischen Interconnects.
 
Zuletzt bearbeitet:
oldmanhunting schrieb:
Ich finde das extrem Spannend, weil man sich so die CPU auf seine Bedürfnisse konfigurieren (spezialisieren) kann. Willkommen in der Zukunft! :daumen:
Das kannst du bisher schon :rolleyes: , indem du dir die Programme installierst die du haben willst / nutzt ... , die normale CPU ist halt universell einsetzbar , dafür in der Ausführung oft langsamer .
Der FPGA gleicht einem Facharbeiter , der eine Aufgabe schnell erledigen kann , die man ihm zuvor beigebracht hat = auf die er Programmiert wurde , ist dann jedoch nicht vielseitig einsetzbar sondern nur für die Funktionen die er beherrscht.
Die schnellste Ausführung einer Funktion hat ein ASIC , welcher ein Fachidiot ist und nur diese eine Funktion beherrscht , diese aber sehr schnell ausführt .
Allgemein oft benötigte Funktionen werden übrigens eh in eine moderne CPU als Erweiterung integriert , wie zb FMA oder AVX / AVX2 /AVX512 und können dadurch schneller ausgeführt werden als es ein FPGA es könnte .
Einzig und allein für spezielle Einsatzzwecke im gewerblichen / Forschungsbereich wo ein ASIC zu unflexibel ist und ne normal CPU keine Erweiterungen besitzt weil zu speziell , macht so ne Kombination Sinn
 
Whiskey Lake schrieb:
Das Selbe könnte ich jetzt dich fragen!
Im Artikel steht nunmal nichts falsches...

Vermutlich habe ich mich deswegen im April 2013 zu diesem Zweck hier angemeldet :rolleyes:
Und es ist mittlerweile schon sehr auffällig, wie viele User es hier gibt die nur kurz angemeldet sind und nur am rumtrollen sind und nein der Artikel ist so immernoch nicht richtig geschrieben...
 
Genau, jeder der dir widerspricht ist am rumtrollen.

Wann du dich angemeldet hast, ist eigentlich egal, es ist ziemlich offensichtlich was du hier tust!

Der Artikel passt schon so, du verstehst den Satz halt falsch, aber das ist halt deine Sache.
Wenn man alles was du falsch verstehen könntest, anders formulieren würde, dan hätten die Artikelschreiber hier wohl viel zu tun...
 
Leute, vertragt euch :-)

senf.dazu schrieb:
Bist du dir mit der Verlustleistung sicher ?

Nein, nicht wirklich ;-) Ich habe im Kopf ca. 70 GFLOPS/W bei einem Stratix 10 FPGA. wenn man 7 TFLOPS hat, dann sind es dann auch schon 70 Watt, was mir ziemlich viel erscheint.

MK one schrieb:
Allgemein oft benötigte Funktionen werden übrigens eh in eine moderne CPU als Erweiterung integriert , wie zb FMA oder AVX / AVX2 /AVX512 und können dadurch schneller ausgeführt werden als es ein FPGA es könnte .
Das ist falsch. Ein FPGA (siehe oben) kann bis zu 3-8 TFLOPS haben. Jetzt zeig' mir mal AVX-Implementierung, die in die Bereiche vorstößt. Ist ja auch klar, ein FPGA hat Tausende (z.B. 5000) DSP, die mit bis zu 800-900 MHz laufen können.

Hier sind ein Paar weitere Details:
https://www.nextplatform.com/2018/05/24/a-peek-inside-that-intel-xeon-fpga-hybrid-chip/
 
Zuletzt bearbeitet:
Zurück
Oben