News AMD Instinct MI350 Serie: 288 GByte HBM3E, CDNA-4-Architektur und bis zu 1.400 Watt

Volker

Ost 1
Teammitglied
Registriert
Juni 2001
Beiträge
19.726
  • Gefällt mir
Reaktionen: schneeland, cosmo45, MaverickM und 9 andere
Nach wie vor fehlt AMD die Skalierbarkeit über acht GPUs hinaus, Nvidia druckt sprichwörtlich primär das Geld mit Systemen wie NVL36 oder NVL72, in denen die namensgebende Anzahl an GPUs zu finden ist.

Und was macht man bei über 72 GPUs? Da muss man dann wie bei AMD auch aufs Ehternet zugreifen?
 
Convert schrieb:
Und was macht man bei über 72 GPUs? Da muss man dann wie bei AMD auch aufs Ehternet zugreifen?
Die Karten werden über PCIe angebunden, nur redet AMD von Ethernet (warum auch immer). Ein Standard im Enterprise ist unter anderem OCuLink oder MCIO.
 
Macht es wirklich einen Unterschied, ob man am InfinitBand Cluster von je 8 GPUs oder Cluster von je 72-GPUs dran hängt? Am Ende limitiert die Gesamtgeschwindigkeit ja doch der InfiniBand, oder nicht?

Oder wird die Software irgendwie aufgeteilt, d.h. man lässt mehrere Instanzen parallel laufen und eine Instanz läuft dann auf 72 GPUs, während bei AMD eine Instanz maximal auf 8 GPUs laufen kann. Und am Ende muss man all die Instanzen synchronisieren? Was ist der Vorteil eines größeren Clusters (8 vs. 72) bei einem Verbund von mehren hundert GPUs?
 
HOCLN2 schrieb:
Die Karten werden über PCIe angebunden, nur redet AMD von Ethernet (warum auch immer). Ein Standard im Enterprise ist unter anderem OCuLink oder MCIO.
Die reden von scale out, also über den 72GPU verbund hinaus. Das ist mindestens über racks, eher über Cabinets hinaus. Da ist nichts mit PCIe, das ist alles Infiniband oder ethernet mit rdma.
Innerhalb des NVL72 wird auch nicht mit PCIe gearbeitet, das ist zwischen den GPUs alles NVLink und wenns Grace systeme sind auch zwischen CPU und GPU. PCIe klassisch hat bei nvidias AI servern nicht mehr so einen hohen Stellenwert....

@Convert die 72 GPUs sind (koheränt) point to point verbunden und agieren mit NVIDIAs Cuda und Ai Software wirklich (fast) wie eine grosse GPU. Macht also durchaus nen unterschied wenn ich einen 72x 144GB grossen VRAM pool habe oder halt 6 einzelne 8x144GB pools...
 
  • Gefällt mir
Reaktionen: Zoba
Convert schrieb:
Macht es wirklich einen Unterschied, ob man am InfinitBand Cluster von je 8 GPUs oder Cluster von je 72-GPUs dran hängt? Am Ende limitiert die Gesamtgeschwindigkeit ja doch der InfiniBand, oder nicht?

Oder wird die Software irgendwie aufgeteilt, d.h. man lässt mehrere Instanzen parallel laufen und eine Instanz läuft dann auf 72 GPUs, während bei AMD eine Instanz maximal auf 8 GPUs laufen kann. Und am Ende muss man all die Instanzen synchronisieren? Was ist der Vorteil eines größeren Clusters (8 vs. 72) bei einem Verbund von mehren hundert GPUs?

Natürlich ist das nen Riesiger Unterschied. Die Limitierungen verschieben sich massiv. Du könntest doch die gleiche Frage stellen, was macht es für ein Unterschied ob 1 GPU oder 8, muss doch auch über Netzwerk. Aber du kannst einfach völlig andere Dinge zusammen berechnen und erst ab bestimmten Größen geht man über das Netzwerk. Desto früher du ins Netzwerk musst, desto länger warten die Grafikkarten auf Daten aus dem Netzwerk.


Plötzlich doppelt so schnell wie gedacht?​


Soweit, so gut. Bei den theoretischen Leistungswerten gibt es nun gemäß des anscheinend ausgedruckten Info-Blatts von AMD eine Überraschung: die Werte sind unterm Strich stets rund doppelt so hoch, wie bisher vermittelt. Hier und da gibt es leichte Abweichungen, was ganz normal ist, aber bereits der FP16-Wert ist gemäß der in der Ausstellung gezeigten Darstellung nun doppelt so hoch wie bisher, er entspricht dem, was AMD bisher als FP8-Leistung für MI355X verkauft hat.

Das dürfte reines Marketing sein. AMD hat bisher immer Werte ohne Sparsity angegeben, Nvidia mit. So wurden Nvidias Zahlen aufgebläht. Jetzt gibt AMD die Werte einfach genauso an wie Nvidia.
 
memory_stick schrieb:
PCIe klassisch hat bei nvidias AI servern nicht mehr so einen hohen Stellenwert....
Das mag bei Nvidia zutreffen, aber ich habe bei Level1Tech gehört, dass AMD für die MI300 PCIe nutzt...
 
HOCLN2 schrieb:
Die Karten werden über PCIe angebunden,

Wenn Du mehr als über zwei Nodes gehst und pro Node 8 GPus werkeln, scheidet PCIe schon mal aus, da Du darüber hinaus keine direkte Verbindung mehr bekommst. Mal davon abgesehen ist bei PCIe die Bandbreite für diese Größenordnung zu sehr beschränkt. Über die Latenz muss man erst gar nicht reden.
 
  • Gefällt mir
Reaktionen: HOCLN2
Convert schrieb:
Macht es wirklich einen Unterschied, ob man am InfinitBand Cluster von je 8 GPUs oder Cluster von je 72-GPUs dran hängt? Am Ende limitiert die Gesamtgeschwindigkeit ja doch der InfiniBand, oder nicht?
Die 72 GPUs kommunizieren nicht über Infiniband, sondern NVLink. Das ist ein großer Cluster mit 1,8 TB/s pro GPU, 130 TB/s aggregated. Das ist ne ganz andere Größenordnung als Infiniband.

Dazu hat jede GPU eine eigene Infiniband Anbindung zur Kommunikation nach außen.
 
Zuletzt bearbeitet:
Wie kann die Geschwindigkeit für FP6 doppelt so schnell wie FP8 sein?
 
@Rickmer https://en.wikipedia.org/wiki/Floating-point_arithmetic#Other_notable_floating-point_formats
Screenshot 2025-06-10 at 20-25-55 Floating-point arithmetic - Wikipedia.png

Vermutung: FP6 E2M3 und FP4 E2M1 nutzen die selbe Pipeline, nur dass bei FP4 am Schluss noch die Mantisse "gerundet" wird.
 
Piktogramm schrieb:
Vermutung: FP6 E2M3 und FP4 E2M1 nutzen die selbe Pipeline, nur dass bei FP4 am Schluss noch die Mantisse "gerundet" wird.
Was mich an der Sache irritiert ist, dass CPUs üblicherweise in Zweierpotenzen arbeiten.

Also Verdoppelung der Geschwindigkeit jeweils bei
FP32 -> FP16
FP16 -> FP8
FP8 -> FP4

Da springt FP6 aus der Reihe weil ich das ja eigentlich dann bei gleicher Geschwindigkeit wie FP8 sehen würde.

Aber gut, das ist ein 'up-to' Wert, daher kann sein, dass die Zahlen nur für FP2 E2M3 stimmen oder irgendeine andere Trickserei.
 
Convert schrieb:
Und was macht man bei über 72 GPUs? Da muss man dann wie bei AMD auch aufs Ehternet zugreifen?
Nvidia bietet ein Rack mit 72 GPUs an, AMD nur einen Einschub mit 8 GPUs.
Wenn man ein großes System bauen will geht das mit Nvidia einfacher weil Nvidia die größeren Bausteine bietet.

Außerdem bietet Nvidia die entsprechende Kommunikationstechnik mit an. AMD ist hier auf Partner angewiesen und ist deshalb auch bei UALink und Ultra Ethernet dabei.
Ergänzung ()

Nicht nur in Hamburg ist man vor der Zeit:
https://x.com/AnushElangovan/status/1932500260485804541
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: fox40phil
l
bensen schrieb:
Die 72 GPUs kommunizieren nicht über Infiniband, sondern NVLink.

Die GPUs kommunizieren intern im Node über Infinity Fabric, oder Slingshot. Wenn es Node übergreifend ist, InfiniBand. Für die kommende MI400 Gpus soll dann mal XSwitch kommen. Das Gegenpendant zu Nvidias NVlink. NVLink geht nämlich mit AMD Karten nicht, da es technisch anders funktioniert und auch Nvidia like
proprietär ist.
 
  • Gefällt mir
Reaktionen: racer3
input_iterator schrieb:
Joa da geht man über InfiniBand, oder RDMA.
Nicht zwingend, im Superpod werden 567 GPUs (Nvidias Zählweise) über ein zweites Layer NV-Link vernetzt.
1749601084038.jpeg
 
  • Gefällt mir
Reaktionen: input_iterator und Hannibal Smith
AffenJack schrieb:
Desto früher du ins Netzwerk musst, desto länger warten die Grafikkarten auf Daten aus dem Netzwerk.
Wobei es da je nach Software-Problem verschiedene Ansätze gibt und die "Langsamkeit" des Netzwerkes auch nicht immer eine Rolle spielt, sofern die Probleme sich entsprechend in Teilprobleme zerlegen lasen und diese dann unabhängig sind.

Die Entwicklung mit NVLink, ebenso aber auf bei AMD und Intel, zielen ja stark auf den AI-Markt, weil hier eben nicht die Probleme so einfach gesplittet und verteilt werden können.
Rickmer schrieb:
Was mich an der Sache irritiert ist, dass CPUs üblicherweise in Zweierpotenzen arbeiten.
Ja und Nein. Hier musst du einen Blick auf die Entwicklung der Formate werfen und wann diese Umgesetzt wurden. In den Anfängen des Computerzeitalters gab es bei den Formaten regelrechten Wildwuchs. Unter Zuse hat sich anfänglich ein 24 Bit-Format entwickelt, spätere Formate hatten dann 36 und 72 Bit. X87 hatte sogar 80 Bit. Erst 1985 ist mit dem IEEE 754 wurden die verschiedenen Floating-Point-Formate vereinheitlicht mit 32 und 64 Bit und mit der Zeit um 16, sowie 128 und 256 Bit erweitert.

Die jetzt kommenden Formate FP8, FP6, FP4 sind Formate, die erst in jüngerer Zeit entstanden sind auch das primär wegen Deepl-Learning/AI.

Und was für FP gilt, gilt auch für Word: In den Anfangstagen waren Computer mit unterschiedlicher Wortbreite durchaus normal, weil "Transistoren" teuer waren. Es gab von IBM und anderen Anbietern schon Computer mit verschiedenen Wortbreiten, die nicht 4, 8, 16, 32 und 64 Bit waren. Für "Supercomputer" der 60er und 70er findest du auch "ungewöhnliche" Wordbreiten ab seits der 4, 8, 16 sowie 32 Bit aus dem "Consumer"-Bereich. In den 60er und 70er bieten IBM aber auch andere Firmen Computer mit 12 und 18 sowie 20 und 24 Bit. Selbst 26 Bit und 30 sowie 31 Bit sind da zu finden. Wenn die "Genauigkeit" es erforderte, sind auch 48 und 60 Bit Systeme zu finden.

In den 60er bis Anfang der 90er wurden gerade Großrechner/Supercomputer teilweise sogar noch "maßgeschneidert" an die Anforderungen. Das sich final die 32 Bit sowie 64 Bit durchgesetzt haben, liegt auch zum Teil eher daran, dass die Interpolarität zwischen "PC" und "Großrechner" gefragt war und es die Kosten für Softwareentwicklung massiv reduzierte, da nun Entwickler auf günstigen PCs die Software programmieren und testen konnten und erst dann auf die Großrechner aufgespielt wurden.
ETI1120 schrieb:
AMD ist hier auf Partner angewiesen und ist deshalb auch bei UALink und Ultra Ethernet dabei.
Hat AMD da nicht letzten auch einen Spezialisten übernommen?
 
  • Gefällt mir
Reaktionen: SH4DOWtheFOX
Würde sich von dieser Basis auch eine Desktop Grafikkarte ableiten lassen oder sind das unterschiedliche Welten? Es ist ja immer noch von GPUs die rede. Frage für einen Freund 🙃
 
Zurück
Oben