Notiz AMD Advancing AI 2025: Stichtag zur Vorstellung neuer Instinct-GPU „MI355X“

MichaG

Redakteur
Teammitglied
Registriert
Juli 2010
Beiträge
13.728
  • Gefällt mir
Reaktionen: nERdWIN und eastcoast_pete
Wäre ja nett wenn sie mal langsam ROCm offiziell auf RDNA4 unterstützen würden
 
  • Gefällt mir
Reaktionen: mightyplow, tomgit, eastcoast_pete und eine weitere Person
Wie viel G steckt in so einem KI-GPU-Chip denn überhaupt noch?
 
@pioneer3001 Wie meinst Du das. Natürlich ist jemand von AMD da und Lisa Su wird das ganze eröffnen und schließen.

Klar ist aber auch daß einiges an Gästen kommt und es nicht in erster Linie um die Hardware geht.
 
  • Gefällt mir
Reaktionen: flo.murr
Bessere Software und starke Unterstützung für Inference ist für breitere Nutzung von Instincts in KI mindestens genauso wichtig wie nochmals verbesserte Hardware. Nvidia ist auch oder vor allem so dominant bei KI Beschleunigern, weil sie - angefangen mit CUDA - auf der Software Seite viel besser aufgestellt sind, oder Leute zumindest den Eindruck haben, daß dem so ist.
Und was @ATIst schreibt ist auch richtig und wichtig, denn die heutige Dominanz von Nvidia in KI stammt IMHO auch daher, daß man an KI Modellen mit der eigenen dGPU arbeiten bzw damit experimentieren kann.
Nvidia bringt zB die DGX Spark nicht aus Jux und Tollerei, Jensen Huang weiß schon sehr genau, was damit erreicht werden soll. Da wäre es auch zB gut, wenn AMD Strix Halo mit zB 256 GB RAM (gerne auch in Form von 4 DDR5 RAM Slots und Kanäle) bringen würde, also eine "echte" Baby Instinct mit Platz für etwas größere Modelle.
 
  • Gefällt mir
Reaktionen: MalWiederIch und ascer
eastcoast_pete schrieb:
Bessere Software und starke Unterstützung für Inference ist für breitere Nutzung von Instincts in KI mindestens genauso wichtig wie nochmals verbesserte Hardware.
Keine Frage.

Allerdings lief mit Ausnahme des FAD 2022 die Präsentation der Software bei AMD ziemlich dröge. Es war meist der netten Unterhaltungen und Beweihräucherungen, aber wenig konkretes zur Technik. Also viel von dem was diese Veranstaltungen eher uninteressant macht.

Natürlich gäbe es es einiges Interessante zur Software, aber das war nie Gegenstand von Advancing AI.

eastcoast_pete schrieb:
Nvidia ist auch oder vor allem so dominant bei KI Beschleunigern, weil sie - angefangen mit CUDA - auf der Software Seite viel besser aufgestellt sind, oder Leute zumindest den Eindruck haben, daß dem so ist.
Nvidia hat IMO den Vorteil, dass jeder weiß, dass die Lösungen mit Nvidia funktionieren. Daran haben alle anderen zu knappern. Die müssen das erst noch beweisen.

Der Vorteil auf der Softwareseite ist IMO weniger CUDA sondern dass der Softwarestack ausgereift ist und Nvidia deshalb beim Tuning ebenfalls einen Schritt voraus ist. Das heißt AFAIK sind die ganzen AI Frameworks auf Nvidia Hardware am effizientesten.

Bei der Hardware hat Nvidia einen Vorteil bei den kleinen Datentypen, da sind sie immer ganz vorne dabei.
eastcoast_pete schrieb:
Und was @ATIst schreibt ist auch richtig und wichtig, denn die heutige Dominanz von Nvidia in KI stammt IMHO auch daher, daß man an KI Modellen mit der eigenen dGPU arbeiten bzw damit experimentieren kann.
Das war generell das Problem, dass AMD nicht wahrhaben wollte, dass es nichts nützt nur die Server zu unterstützen. Die fehlende Unterstützung von ROCm auf dem Client ist auch ein Riesenproblem bei HPC. Bei Nvidia ist die Softwareentwicklung auf dem Client selbstverständlich. In dieser Beziehung war das Aufteilen in CDNA und RDNA keine gute Idee. Außerdem hat AMD bei der Hardwareentwicklung generell zu wenig auf die Software geachtet.

So wie ich es sehe hat AMD ROCm zu sehr auf die HPC und AI Beschleuniger zugeschnitten.

Die Frage ist, wie viel AMD am 12. Juni zuCDNANext/UDNA und zu den hardwareneutralen Schichten erzählt. Mit hardwareneutralen Schichten meine ich, dass AMD offensichtlich mit MLIR arbeitet. Aber ob AMD das Umsetzt was Victor Peng am FAD 2022 angedeutet hat, dieselbe Software für viele Ziele (CPU, NPU und GPU) kompilieren zu können, kann man nur erahnen und hoffen.
eastcoast_pete schrieb:
Nvidia bringt zB die DGX Spark nicht aus Jux und Tollerei, Jensen Huang weiß schon sehr genau, was damit erreicht werden soll. Da wäre es auch zB gut, wenn AMD Strix Halo mit zB 256 GB RAM (gerne auch in Form von 4 DDR5 RAM Slots und Kanäle) bringen würde, also eine "echte" Baby Instinct mit Platz für etwas größere Modelle.
LPDDR5X gibt es aktuell nur mit 16 GB je Package, deshalb sind es sowohl bei DGX Spark und Strix Halo maximal 128 GB. Beide Geräte wären IMO mit DDR5 DIMMS nicht umsetzbar, viel zu groß und ich habe meine Zweifel, ob man die Datenraten hinbekommen würde.

Strix Halo ist eigentlich schon gut so wie er ist. Es ist abzusehen, dass LPDDR5X mit 24 GB- Packages auf den Markt kommt und dann sind 192 GB drin. Das eigentlich bezieht sich darauf, dass Strix Halo nicht mit LPCAMM2 zusammenarbeiten kann. Wäre schön gewesen.
 
  • Gefällt mir
Reaktionen: eastcoast_pete
ETI1120 schrieb:
Der Vorteil auf der Softwareseite ist IMO weniger CUDA sondern dass der Softwarestack ausgereift ist und Nvidia deshalb beim Tuning ebenfalls einen Schritt voraus ist. Das heißt AFAIK sind die ganzen AI Frameworks auf Nvidia Hardware am effizientesten.
Sehe ich nicht so.

Zugegebenermaßen habe ich nie wirklich detailliert verglichen (insbesondere belastbare Benchmarks über viele GPUs hinweg), aber ich bin in der Branche tätig und wenn man ausreichend Zeit investiert hat, liefert die Rohleistung bei AMD schon sehr gut ab - nicht zuletzt auch, weil die ganzen "128te Tensor-Core-Generation"-Werbeversprechen von NVIDIA auf dem Papier zwar schön aussehen, aber in der Praxis kommen die ausschließlich in tot-optimierten Edge-Cases zum Tragen.

Der Hauptpunkt für mich und alle, mit denen ich jemals auf KI-Konferenzen gesprochen habe, war eigentlich immer:
  • Ein einfaches pip install (oder Anaconda, oder von NVIDIA vorbereitete Docker Container, oder ...) und innerhalb von Minuten läuft dein Modell mit CUDA / cuDNN. Auch zusätzliches Zeug über cuBLAS usw. Reproduzierbar. Stabil. Und verlässlich, egal wie exotisch man sein Modell designed hat.
  • Bei ROCm hat alleine das Setup meist deutlich länger benötigt, dann hingen Einzelheiten noch von der konkreten GPU Generation bei AMD ab und wirklich häufig liefen die Standardmodelle/-szenarien gut, aber sobald man auch nur etwas speziellere Experimente gemacht hat, haben häufig Dinge nicht funktioniert. Nicht selten dann auch einfach segfault ohne Fehlermeldung. Auf Stackoverflow und überall sonst findet man dann nur Tipps zu CUDA...und schon hat sich das AMD-Experiment selbst beendet.
An der Leistung oder Effizienz lag das nie. Selbst die HPC-Jungs lagen uns bei unserer Alma Mater in den Ohren, sie würden bei Performance pro Euro und daran gemessen Performance pro Watt lieber auf AMD setzen und letztendlich waren es KI-Kollegen, die dann meinten "Nein bitte NVIDIA - bei AMD ist mir die Entwicklungszeit und das Debugging zu langatmig. CUDA bitte."
 
ETI1120 schrieb:
Nvidia hat IMO den Vorteil, dass jeder weiß, dass die Lösungen mit Nvidia funktionieren. Daran haben alle anderen zu knappern. Die müssen das erst noch beweisen.
Auch ich sehe das überhaupt nicht so. Das gesamte Inferencing bei Meta läuft auf AMD Instict GPUs. Und das ist bereits eine Hausnummer.
 
  • Gefällt mir
Reaktionen: JarlBallin
@Bunhy Meta ist so groß, dass sie ihren eigenen Software-Support in-house aufbauen können. Da wird der Aufwand für Softwareanpassungen relativ gesehen geringer und die Kosten für die Hardware fallen stärker ins Gesicht. Bei kleineren Organisationen verschiebt sich dieses Verhältnis in Richtung Software und da gewinnt Nvidia einfach immer noch.
 
ATIst schrieb:
Wäre ja nett wenn sie mal langsam ROCm offiziell auf RDNA4 unterstützen würden
Und RDNA 3.5.
Dass die sogenannten AI APUs fast keinen Support für das eigene AI Framework haben, ist schon peinlich.
 
  • Gefällt mir
Reaktionen: ATIst
ascer schrieb:
Auf Stackoverflow und überall sonst findet man dann nur Tipps zu CUDA...und schon hat sich das AMD-Experiment selbst beendet.
naja, dass ist einwenig zu kurz gesprungen - nach der logik kann amd ihre software noch so aufpolieren, wenn stackoverflow die relevante anlaufstelle ist, dann gute nacht - dann will ich nicht wissen wie die code qualität der entwickler ist!

ich sehe die problematik auch darin das rocm die entwicklung auf dem client durch fehlende rdna unterstützung "ausbremst". meine ersten gehversuche mit gpu number crunching habe ich damals als student auch über matlab mit cuda support auf meiner gtx280 gemacht...da gab es von amd quasi garnichts vergleichbares, selbst wenn man wollte. (opencl war so das buzzword was ab und an fiel, aber ernsthaftes gab es da nie und meines wissens ist opencl heutzutage "tot" oder wird zumindest so gehandelt...)
jedenfalls kann man dreimal raten was die studenten von damals heute bevorzugen werden; mMn. sind zugänglichkeit und niedrige hürden beim einstieg auch in dem spezialisierten bereich wichtiger als man denkt..
 
  • Gefällt mir
Reaktionen: tomgit und JarlBallin
7H0M45 schrieb:
Wie viel G steckt in so einem KI-GPU-Chip denn überhaupt noch?
G steht dort nicht mehr für Graphics sondern General
 
@cha0shacker
Also das höre ich zum ersten mal und auch Google scheint das nicht zu kennen.

Zudem wäre das aber doch auch nicht logisch, da diese Processing Units alles andere als General sind
 
GPGPU kommt von General Purpose on GPU
 
Zurück
Oben