News Forschung mit KI: DOE will neue US-Supercomputer mit AMD MI355X und MI430X

MichaG · 28. Oktober 2025

Artikel-Update: AMD und HPE nennen weitere Details. Demnach wird Discovery der Nachfolger von Frontier, dem aktuell zweitschnellsten Supercomputer laut Top500-Rangliste. Das neue Storage-System von HPE soll die Input/Output-Operationen pro Sekunde (IOPS) um 300 Prozent gegenüber Frontier steigern. Zur CPU- oder GPU-Leistung macht aber auch dieser Partner noch keine Angaben. Zumindest wird aber verraten, dass es sich bei den CPUs um AMD Venice (Zen 6) handelt. Die GPU wird hier als AMD Instinct MI430X genauer beschrieben.

[Bilder: Zum Betrachten bitte den Artikel aufrufen.]

Beim System Lux spricht AMD bisher lediglich von „AMD Epyc CPUs“, womit eher die aktuelle Generation als der Nachfolger Venice zu erwarten ist. Zeitlich wäre es für Zen 6 wohl auch zu knapp.

foofoobar · 28. Oktober 2025

Skysnake schrieb:
Du das Ökosystem gibt ea inzwischen auch für AMD. Die wenigsten Leutw nutzen im AI Bereich CUDA. Da werden intermediant Layer bwnutzt die das von den Usern wegabstrahieren und damit den Umstieg recht einfach machen. Hatte am Rande einen POC mit AMD in dem Bereich mitbekommen und das war wohl ziemlich einfach gewesen. Ganz im Gegenteil zu Intel.

Erzähl uns bitte mehr darüber, hier wird ja immer posaunt das KI nur richtig mit CUDA funktioniert.

Ich vermute mal das ein großer Teil des aktuellen KI-Krams weit oberhalb von Sachen stattfindet wo wirklich Dinge in CUDA implementiert sind und der Low-Level-Kram wo CUDA genutzt wird recht klein und damit recht gut portierbar ist?

ETI1120 · 28. Oktober 2025

stefan92x schrieb:
AMD wird in H2 2026 endgültig massiv als Rackscale-Anbieter in Erscheinung treten. Die brauchen Prototypen dafür, da könnte so ein Deal sehr gut passen.

Lux basiert auf der MI355X.

Der Lux-KI-Supercomputer – gemeinsam entwickelt von ORNL, AMD, Oracle Cloud Infrastructure (OCI) und HPE und ausgestattet mit AMD Instinct™ MI355X-GPUs, AMD EPYC™-CPUs und fortschrittlichen AMD Pensando™-Netzwerktechnologien – wird Anfang 2026 in Betrieb genommen und ist damit der erste Supercomputer der US AI Factory, der die Voraussetzungen für neuartige öffentlich-private Partnerschaften schafft. Das Lux-System wird den unmittelbaren Bedarf decken, die Führungsrolle des DOE im Bereich KI auszubauen und Fortschritte und Innovationen in den Bereichen KI, Energieforschung, Werkstoffe, Medizin und fortschrittliche Fertigung zu beschleunigen.

https://www.amd.com/en/newsroom/pre...s-u-s-sovereign-ai-factory-supercomputer.html

Oracle hat einen Deal mit AMD für eine Kiste mir 131 k MI355. Ich denke Lux übernimmt einiges an Konzept davon.

AMD fehlen die Switches im Portfolio.

Bei Discovery wird in anderen Meldungen explizit Cray GX5000 erwähnt:

Discovery leitet den nächsten Schritt im Bereich der KI-Supercomputer ein

Das Discovery-System von ORNL basiert auf dem neuen HPE Cray Supercomputing GX5000, einem Supercomputer der nächsten Generation für das Zeitalter der KI, der mit einer Kombination aus den kommenden AMD EPYC „Venice”-Prozessoren der nächsten Generation und AMD Instinct MI430X-GPUs betrieben wird. Das System wird durch ein neues DAOS-basiertes (Distributed Asynchronous Object Storage) HPE Cray Supercomputing Storage Systems K3000 ergänzt, das erste werkseitig gefertigte Speichersystem mit integrierter Open-Source-Software.

https://www.olcf.ornl.gov/2025/10/2...s-newest-ai-supercomputers-discovery-and-lux/

Und damit sind die leaks bestätigt dass es die MI450 in 2 varianten geben wird, einer auf AI ausgelegten und einer auf HPC und AI ausgelegten Variante.

stefan92x schrieb:
Nvidia würde ich schon zählen. Grace ist nicht die beste CPU am Markt (und Vera wird es vermutlich auch nicht), aber dennoch liefert Nvidia Rackscale-Lösungen aus, mit denen man Supercomputer zusammenstöpseln kann.

Sobald AI im Spiel ist auf alle Fälle überall ist heute AI im Spiel. Die Frage ist wieviel FP64 können die zukünftigen Generationen von Nvidias Datacenter GPUs.

-Ps-Y-cO- · 28. Oktober 2025

Bully|Ossi schrieb:
Den, der vielleicht in einigen Jahren mal existieren wird und dann braucht es noch Anwendungen dafür.

HSBC, also die Londoner Bank ist einer der Ersten Kunden die SystemTwo momentan besitzen...

ETI1120 · 28. Oktober 2025

foofoobar schrieb:
Ich vermute mal das ein großer Teil des aktuellen KI-Krams weit oberhalb von Sachen stattfindet wo wirklich Dinge in CUDA implementiert sind und der Low-Level-Kram wo CUDA genutzt wird recht klein und damit recht gut portierbar ist?

AFAIU hat Nvidia die reifere Plattform unter den AI Frameworks und ist auch weiter beim Tuning für die AI-Frameworks. Allerdings hat AMD die Reife von ROCm 2025 mit hohem Tempo vorangetrieben. Die Stimmen zu ROCm sind 2025 erheblich positiver geworden als noch 2024.

Damit AMD das hohe Tempo weiter gehen kann, strukturiert AMD die Repositories um zieht ein neues Buildsystem hoch. Das Ziel ist das ab Sommer 2026 alles über das neue Buildsystem läuft und AMD den Workflow komplett auf Continous Integration und Continous delivery umgestellt hat.
https://rocm.blogs.amd.com/software-tools-optimization/therock/README.html

Was bei alle Getöse über die Keynotes von Lisa Su untergeht, das letzte AI Event im Juni war eine kleine Konferenz und AMD hat letzte Woche wieder ein Developer Event veranstaltet. Es kann sich zwar nicht mit der GTC messen, aber es zeigt sich was.

Aber es ist nicht nur CUDA und HIP. Aktuell entstehen weitere Programmiersprachen für die GPU Programmierung. Mojo von Modular (CEO: Chris Lattner) wird immer wieder genannt.
https://www.modular.com/mojo

Neulich auf der Triton Conference hat Meta AI folgendes gezeigt:

https://x.com/clattner_llvm/status/1982196898661273699/photo/1

empower · 28. Oktober 2025

Skysnake schrieb:
Die wenigsten Leutw nutzen im AI Bereich CUDA.

du verwechselst da irgendwas. CUDA ist der de facto standard.

ETI1120 schrieb:
Allerdings hat AMD die Reife von ROCm 2025 mit hohem Tempo vorangetrieben.

kann man ROCm mittlerweile schon starten ohne programmieren zu müssen? Das wäre ja schon mal eine verbesserung

ETI1120 · 28. Oktober 2025

empower schrieb:
du verwechselst da irgendwas. CUDA ist der de facto standard.

Lies erst Mal seine Posts. Du könntest zum Schluss kommen das er von IT erheblich mehr versteht als Du.

Und das mit dem de facto Standard ist nun Mal so ein Ding, wenn das US Department of Energy noch Mal zwei Supercomputer bekommt, die kein CUDA unterstützen.

empower schrieb:
kann man ROCm mittlerweile schon starten ohne programmieren zu müssen? Das wäre ja schon mal eine verbesserung

Kannst Du Mal erklären was Du mit der Frage meinst?

ROCm ist nun Mal wie CUDA ein Softwarestack der es ermöglicht GPUs zu programmieren.

Skysnake · 28. Oktober 2025

foofoobar schrieb:
Erzähl uns bitte mehr darüber, hier wird ja immer posaunt das KI nur richtig mit CUDA funktioniert.

Also wie gesagt gab es mit den AI Leuten bei uns ein POC und das lief nachdem was ich mitbekommen habe ziemlich reibungslos. Sprich es gab insgesamt recgt wenig zu berichten was in diesem Fall eine gute Sache.

Am Anfang gab es etwas Support um die Dinge aufzusetzen, die Endanwender haben aber soweit ich das mitbekommen habe keine relevanten Probleme gehabt.

foofoobar schrieb:
Ich vermute mal das ein großer Teil des aktuellen KI-Krams weit oberhalb von Sachen stattfindet wo wirklich Dinge in CUDA implementiert sind und der Low-Level-Kram wo CUDA genutzt wird recht klein und damit recht gut portierbar ist?

Wenn du auf TensorFlow, PyTorch usw aufsetzt kann man das im wesentlichen wohl so stehen lassen.

empower schrieb:
du verwechselst da irgendwas. CUDA ist der de facto standard.

Ne gabz sicher verwechsle ich da nichts. Es gibt an allen Ecken und Enden die Bestrebungen CUDA vor der Anwendern/Entwicklern zu verstecken. Dann kann man nämlich relativ problemlos den HW Hersteller wechsel und bricht damit dessen Vendor Lockin Macht.

Das ist also absolut strategisch angelegt und zumindest AMD ist wohl inzwischen auf dem Level angekommen dass das Ziel auch erreicht wird und es letztlich wieder um Perf/Geld geht unt nicht darum welcher Name drauf steht.

Intel ist da wohl nach dem was ich so mitbekomme noch ein gutes Stück weiter hinten auf dem Weg zum Ziel.

empower · 28. Oktober 2025

Skysnake schrieb:
Das ist also absolut strategisch angelegt und zumindest AMD ist wohl inzwischen auf dem Level angekommen dass das Ziel auch erreicht wird und es letztlich wieder um Perf/Geld geht unt nicht darum welcher Name drauf steht.

da bist du aber bei AMD falsch, wenn es dir um preis/leistung geht. einerseits macht Nvidia berechungen selbst auf den netzwerkkarten, andererseits darfst du bei AMD ein team an softwareentwicklern stellen. das sieht man auch der der verbreitung, AMD kommt nur in der forschung rein.

klar, wenn man das billigste angebot nehmen muss als regierung, dann nimmt du AMD. vergessen wird die software.

ETI1120 schrieb:
ROCm ist nun Mal wie CUDA ein Softwarestack der es ermöglicht GPUs zu programmieren.

letzes jahr noch, da konntest du ROCm nicht mal starten ohne reinzuprogrammieren. dann hat selbst George Hotz aufgegeben

stefan92x · 28. Oktober 2025

empower schrieb:
da bist du aber bei AMD falsch, wenn es dir um preis/leistung geht.

Offensichtlich ist man bei AMD nicht falsch, entscheiden sich doch immer mehr Kunden dafür.

empower schrieb:
einerseits macht Nvidia berechungen selbst auf den netzwerkkarten

DPUs bietet AMD auch an, seit Pensando gekauft wurde, auch hier im Thread am rande erwähnt worden. Das ist kein Alleinstellungsmerkmal für Nvidia.

empower schrieb:
andererseits darfst du bei AMD ein team an softwareentwicklern stellen

Überraschende Erkenntnis: Wer Software entwickelt, braucht Entwickler. Die braucht man aber auch, wenn man auf Nvidia setzt. Ohne Software ist die beste Hardware wertlos.

Richtig ist natürlich, dass der Aufwand mit den jeweiligen Plattformen zu arbeiten, vergleichbar werden muss. Da hat Nvidia einen großen Vorsprung, aber AMD holt da definitiv auf. Schau dir einfach mal de Launch Reviews zur Radeon AI Pro R9700 aktuell an. Da wird die Reife von AMDs Treiber durchaus gelobt, wenn auch noch nicht alles funktioniert, was mit CUDA läuft (z.B. bei Level1Techs).

Wir sind also mittlerweile angekommen bei "Nvidia kann man bedenkenlos kaufen, AMD nur solange man sicher ist, dass der eigene Stack unterstützt wird". Das trifft aber für immer mehr zu.

Skysnake · 28. Oktober 2025

empower schrieb:
da bist du aber bei AMD falsch, wenn es dir um preis/leistung geht. e

Wie viele AI Systeme hast du denn schon so gekauft, dass du da Aussagen dazu tätigen kannst?

empower schrieb:
klar, wenn man das billigste angebot nehmen muss als regierung, dann nimmt du AMD. vergessen wird die software.

Wie viele Ausschreibungen aus dem öffentlichen Bereich und der Industrie hast du denn scvpn so gemacht das du dich dazu äußern kannst?

empower schrieb:
einerseits macht Nvidia berechungen selbst auf den netzwerkkarten, andererseits darfst du bei AMD ein team an softwareentwicklern stellen. das sieht man auch der der verbreitung, AMD kommt nur in der forschung rein.

DIr ist schon klar, dass das an sich kalter Kaffee ist und auch mit AMD geht?

SHARP bei Infiniband tut auch mit AMD und die DPUs von nVidia kannst du auch mit AMD nutzen bzw einfach die von AMD nutzen.

Aber du kannst mir sicherlich erzählen warum das so ein Killet Feature ist. Ich bin schon ganz gespannt.

foofoobar · 28. Oktober 2025

Skysnake schrieb:
Intel ist da wohl nach dem was ich so mitbekomme noch ein gutes Stück weiter hinten auf dem Weg zum Ziel.

Oder Intel schiebt in Zukunft für seinen eigenen Kram Commits nach ROCM, bei Mesa profitieren ja auch die Anderen von den Commits des Einen.
Und wenn es den mal irgendwann ein CUDAoverROCM geben sollte profitiert auch Intel davon.
Gewöhnliches HPC wird auch in Zukunft eher nicht sterben.

Ergänzung (28. Oktober 2025)

empower schrieb:
einerseits macht Nvidia berechungen selbst auf den netzwerkkarten

Das Zeug was auf den NICs "gerechnet" wird ist eher zum "effizienten" datenschaufeln gedacht, und AMD nutzt mehr oder weniger das selbe was auch in anderen NIC und Switches verbaut wird:

Ein paar schnelle Google Treffer dazu:

https://lwn.net/Articles/977878/
https://github.com/p4tc-dev/docs/blob/main/why-p4tc.md
https://www.servethehome.com/pensando-distributed-services-architecture-smartnic/
https://codilime.com/blog/p4-network-programming-language-what-is-it-all-about/
https://packetpushers.net/blog/router-forwarding-engines-part-3-p4-and-sai/
https://www.google.com/search?q=p4+programmable+switches

NV nutzt da was eigenes und wird deshalb eher weniger von anderen Entwicklungen profitieren.

Naru · 28. Oktober 2025

Exey schrieb:
Du kannst ja erstmal mit trinären PCs anfangen.

Also, Hunderte solcher Schränke können doch auch nicht die Lösung sein. Besonders nicht unter den Anforderungen für den gegenwärtigen Klimawahn.

foofoobar · 28. Oktober 2025

Naru schrieb:
Besonders nicht unter den Anforderungen für den gegenwärtigen Klimawahn.

Es gibt immer noch Physik-Leugner.

empower · 28. Oktober 2025

stefan92x schrieb:
Überraschende Erkenntnis: Wer Software entwickelt, braucht Entwickler. Die braucht man aber auch, wenn man auf Nvidia setzt. Ohne Software ist die beste Hardware wertlos.

ja, ohne software ist hardware "wertlos". oder du steckst einfach millionen an software-entwicklung rein - grob gesagt. an den verkaufszahlen sieht man ja sehr einfach was die wirtschaft denkt.

stefan92x · 28. Oktober 2025

@empower Dein erster Beitrag, dem ich zustimme. Auch wenn mir klar ist, dass wir aus den Verkaufszahlen unterschiedliche Schlüsse ziehen. Du fokussierst dich stark auf die Vergangenheit und den gefühlten Ist-Zustand, während im Wochenrhythmus Meldungen zu Design-Wins für MI400 kommen. Keine Frage, nach wie vor auch da mehr für Nvidia, aber dieses pauschale Leugnen von AMDs Qualität lässt sich daraus meiner Meinung nach eben nicht ableiten.

Skysnake · 28. Oktober 2025

@empower willst du jetzt eigentlich noch auf meine Fragen antworten? Waren jetzt nicht rhetorisch gemeint.

empower · 28. Oktober 2025

@Skysnake du meinst die software probleme sind gelöst? freu mich auf belege von dir

ETI1120 · 28. Oktober 2025

stefan92x schrieb:
@empower Dein erster Beitrag, dem ich zustimme.

Das war jetzt zu viel des Lobs --- es war auch nur eine weitere Plattitüde.

Ergänzung (28. Oktober 2025)

stefan92x schrieb:
während im Wochenrhythmus Meldungen zu Design-Wins für MI400 kommen.

Es sind nur 3 Wochen. Da müssen schon noch ein paar Deals kommen.

Dieser Deal mit Lux und Discovery ist für AMD sehr wichtig, denn er festigt die Position von AMD bei HPC.

ETI1120 · 28. Oktober 2025

Der Deal von heute ist für MI355:
https://investor.cisco.com/news/new...End-AI-Infrastructure-in-the-UAE/default.aspx

News Forschung mit KI: DOE will neue US-Supercomputer mit AMD MI355X und MI430X

Redakteur

Banned

Commodore

Vice Admiral

Commodore

Ensign

Commodore

Captain

Ensign

Commodore

Captain

Banned

Banned

Banned

Ensign

Commodore

Captain

Ensign

Commodore

Commodore

Passend zum Thema