News AMD Ryzen AI Max+ 400: Das neue Halo-Produkt mit 192 GByte RAM ist offiziell

ofneo schrieb:
Wobei ich sogar auf der 8600g bei einem 7b-Modell (Q4) um die 40 -50 Tokens schaffe.

Mir bleibt aber die Frage, wenn ich 4k für massig Ram ausgebe, dann wird ein 128bModell auf der Kiste auch nicht mit 40 Tokens laufen, oder? Vermute auch hier wird es lauten, umso größer umso langsamer.

Inwieweit das groessere Modell die Verarbeitung langsamer macht, weiss ich nicht, aber jedenfalls hat der Ryzen 495 5 mal soviele CUs wie der 8600G und ca. 3 mal soviel Speicherbandbreite verteilt ueber vier mal soviele RAM-Kanaele (hilft ein Cache?), also kannst Du davon beim gleichen Modell eine um den Faktor 3-5 hoehere Verarbeitungsrate erwarten als beim 8600G. Das viele RAM erlaubt groessere Modelle, aber den 8600G kannst Du mit bis zu 256GB RAM betreiben (aber mit gleicher Bandbreite nur bis 128GB); wenn Du es Dir leisten kannst und willst.
 
steirerblut schrieb:
Das Problem ist halt das ne DGX Spark für 3-4k €
Setz mal noch nen k oben drauf

steirerblut schrieb:
in ein paar Minuten aufgebaut, Betriebsfähig und mit LLM Serving im Netzwerk beginnen kannst. Ohne Kopfschmerzen welche Distro,
Weil keine Auswahl

steirerblut schrieb:
welcher Kernel, welche Treiber, welche VLLM damit ROCm funktioniert.
Ist seit einigen Kernels kein Problem mehr, auch hat llama.cpp sehr gute native Fähigkeiten auf der GPU. Fallback auf Vulkan ist auch vorhanden.

steirerblut schrieb:
Ryzen AI Max scheint sich halt auch nicht in Massen verkauft zu haben obwohl der Markt viel Potential hätte. Mit etwas mehr Ambitionen würde da viel mehr gehen.
Und deswegen sind die Dinger mit wenigen Ausnahmen fast durchweg vergriffen? Die Angebote von Minisforum sind z.B. fast nie erhältlich und auch andere Anbieter haben stets vergriffene Hardware.
Ich sage nicht, dass die Hardware perfekt ist, sowohl Nvidia als auch Apple haben sehr gute Alternativen. Aber es wird die Hardware deutlich schlechter geredet als sie ist. Ich sitze ja quasi tagtäglich dran.
 
  • Gefällt mir
Reaktionen: nyster und chithanh
hippiemanuide schrieb:
In dem Fall ist es ein Super Allrounder PC von simpelsten Office Aufgaben über kleine Datenbanken (z.B. MSSQL) in Kombi mit leichter Local LLM Arbeit. Ein Traum.
Und dafür braucht man >100 GB?!
Ein großes Problem ist die maßlose Verschwendung durch Marketing-Quark und idiotische IT-Abteilungen. Wie viele millionen Gigabyte RAM schimmeln nutzlos in den Rechnern irgendwelcher Homeoffice-Teilzeitkräfte herum, die für ihre eMail-Schubserei und ein bisschen SAP / Excel 64 GB RAM im Rechner haben und davon maximal 10 nutzen?
Wäre das, was da schwachsinnig vergeudet wird, noch am Markt, wäre alles supi.
Aber so läuft dieses System eben nicht...
 
  • Gefällt mir
Reaktionen: ofneo
PaCuru schrieb:
Wie schnell ist denn so ein Rechner bei LLM? Meine 9070XT krebst ja mit 40-50 Sekunden selbst für einfache Fragen rum und die Antworten lesen sich als ob ein hirngeschädigter sie geschrieben hat. Was könnte man für Modelle maximal laufen lassen und wie schnell sind dann die Antworten?
Was nutzt du? Ollama? Und sicher dass deine 9070XT genutzt wird und nicht die CPU?
 
tomgit schrieb:
Setz mal noch nen k oben drauf

Weil keine Auswahl

Ist seit einigen Kernels kein Problem mehr, auch hat llama.cpp sehr gute native Fähigkeiten auf der GPU. Fallback auf Vulkan ist auch vorhanden.

Und deswegen sind die Dinger mit wenigen Ausnahmen fast durchweg vergriffen? Die Angebote von Minisforum sind z.B. fast nie erhältlich und auch andere Anbieter haben stets vergriffene Hardware.
Ich sage nicht, dass die Hardware perfekt ist, sowohl Nvidia als auch Apple haben sehr gute Alternativen. Aber es wird die Hardware deutlich schlechter geredet als sie ist. Ich sitze ja quasi tagtäglich dran.
Gibt doch genug DGX Spark Ableger unter 4k €, Kundenretouren um die 3k €. Aber klar, die Preise sind auch hier gestiegen. Ich glaub ja nichtmal das sich Spark wirklich gut verkauft hat. Fürs AI-Lab würd ich halt den Spark favorisieren und eben nicht mit Ollama, Llama-Server etc herumhantieren -> VLLM um das maximum an Performance raus zu kitzeln und nen Workfload mit 10-30 Concurrent Sessions um die Anschaffung irgendwie rechtfertigen zu können.
Da warens bei AMD halt vor 6 Monaten Leistungseinbrüche, Abbrüche mitten im Fine Tuning, wenig Ressourcen führten zu ewigen Frust. Ging nach 3 Tagen wieder an den Lieferanten zurück. Die Hardware war aus meiner Sicht nie das Problem, aber vor allem keine Erfahrungen, keine gute Doku, schlechter VLLM Support. Damals kosteten die Ryzen Max 128gb Geräte auch noch ca 2000 €, also gut 30-50% weniger als die Alternativen.
Mal schauen, ich denke Personal Compute wird im nächsten Jahr nach den IPOs bei OpenAI und Anthropic generell wieder wichtiger werden, wäre gut wenn Intel+AMD da mitmischen wollen. Zur Not bauen wir die Hardware aus den Rechenzentren aus und stellen sie lokal bei den Firmen auf. :D
 
Die extra 64 GB RAM im Vollausbau werden sich bei KI Modellen schon bemerkbar machen, da so auch größere Distills vollständig im Speicher gehalten werden können.

Ansonsten ist es gerade wegen KI wieder schade, daß die iGPU von Strix Halo keine RDNA 4 Architektur hat. Denn RDNA 4 bringt eben auch die Matrix Kerne mit, die für KI sehr praktisch sein könnten.
 
Rickmer schrieb:
Das höhere Speicherlimit kommt vermutlich von größeren NAND Chips?
Ja, AMD erlaubt für Gorgon Halo LPDDR5X-Chips mit 192 Gb anstatt bisher 128 Gb bei Strix Halo.
PaCuru schrieb:
Wie schnell ist denn so ein Rechner bei LLM? Meine 9070XT krebst ja mit 40-50 Sekunden selbst für einfache Fragen rum und die Antworten lesen sich als ob ein hirngeschädigter sie geschrieben hat. Was könnte man für Modelle maximal laufen lassen und wie schnell sind dann die Antworten?
Solange es ins VRAM passt sollte die 9070XT deutlich schneller sein. Sobald das LLM größer ist als das VRAM gehen nur noch MoE+offloading (z.B. KTransformers) annehmbar schnell.
Coenzym schrieb:
Der Spark ist recht lahm in Tokens/sec. Wird das dann hier auch so sein ?
Weiß man nicht, da für Inferenz die Speicherbandbreite der Flaschenhals ist, und der Speichertakt laut Artikel noch nicht genannt wurde.
eastcoast_pete schrieb:
Ansonsten ist es gerade wegen KI wieder schade, daß die iGPU von Strix Halo keine RDNA 4 Architektur hat. Denn RDNA 4 bringt eben auch die Matrix Kerne mit, die für KI sehr praktisch sein könnten.
Ich glaube nicht dass das viel bringen würde, da der Prozessor für die meisten KI-Aufgaben nicht der Flaschenhals ist.
Ewoodster schrieb:
Das große Problem des Halo AI: Der Apple M5 Max
Ich glaube das entwickelt sich eher in die andere Richtung. Apple hat doch gerade erst die Modelle mit hoher RAM-Ausstattung aus dem Programm genommen. Deren Fokus geht eher zu kleinen, effizienten Modellen die nebenbei laufen anstatt dedizierte Systeme auf denen das jeweils größtmögliche Modell läuft.
steirerblut schrieb:
Das Problem ist halt das ne DGX Spark für 3-4k € in ein paar Minuten aufgebaut, Betriebsfähig und mit LLM Serving im Netzwerk beginnen kannst. Ohne Kopfschmerzen welche Distro, welcher Kernel, welche Treiber, welche VLLM damit ROCm funktioniert.
Für Leute denen es da an Vorstellungsvermögen fehlt liefert AMD eine Anleitung wie sie das Schritt für Schritt einrichten können
https://www.amd.com/en/blogs/2025/how-to-vibe-coding-locally-with-amd-ryzen-ai-and-radeon.html

Für alle anderen halten sie sich zurück und gehen davon aus, dass die Kunden selbst am Besten wissen, was sie brauchen.
 
  • Gefällt mir
Reaktionen: nyster und Icke-ffm
Schade, dass beim Refresh die 88er- und 92er-Modelle nicht direkt mit erscheinen. Acht oder zwölf Kerne mit großer iGPU wären im Sinne der preislichen Attraktivität schon fein, um die Halo-APUs nicht nur für KI-Anwendungen attraktiv werden zu lassen…
 
Zu "normalen" Preisen vergangener Zeit würde ich mir glatt so en KI-Maschinchen zulegen. Aber zu heutigen Preisen? Ne las ma.
 
Wenn’s jetzt noch ’nen vollständigen PCIe-5.0 x16-Slot hätte, könnt man daraus eine Höllenmaschine (also für Gaming, aber auch AI-Kram) bauen. Aber bitte für unter 2000€. 😅
 
chithanh schrieb:
Ja, AMD erlaubt für Gorgon Halo LPDDR5X-Chips mit 192 Gb anstatt bisher 128 Gb bei Strix Halo.

Solange es ins VRAM passt sollte die 9070XT deutlich schneller sein. Sobald das LLM größer ist als das VRAM gehen nur noch MoE+offloading (z.B. KTransformers) annehmbar schnell.

Weiß man nicht, da für Inferenz die Speicherbandbreite der Flaschenhals ist, und der Speichertakt laut Artikel noch nicht genannt wurde.

Ich glaube nicht dass das viel bringen würde, da der Prozessor für die meisten KI-Aufgaben nicht der Flaschenhals ist.

Ich glaube das entwickelt sich eher in die andere Richtung. Apple hat doch gerade erst die Modelle mit hoher RAM-Ausstattung aus dem Programm genommen. Deren Fokus geht eher zu kleinen, effizienten Modellen die nebenbei laufen anstatt dedizierte Systeme auf denen das jeweils größtmögliche Modell läuft.
Für Leute denen es da an Vorstellungsvermögen fehlt liefert AMD eine Anleitung wie sie das Schritt für Schritt einrichten können
https://www.amd.com/en/blogs/2025/how-to-vibe-coding-locally-with-amd-ryzen-ai-and-radeon.html

Für alle anderen halten sie sich zurück und gehen davon aus, dass die Kunden selbst am Besten wissen, was sie brauchen.
Jein zum "Prozessor für die meisten KI-Aufgaben nicht der Flaschenhals "; das stimmt natürlich schon, denn wenn das Modell bzw Distill nicht mehr in den Speicher (VRAM) passt, dann wird's deutlich langsamer. Allerdings hat RDNA 4 gerade für KI einige sehr willkommene Änderungen vs RDNA 3, inklusive der Matrix Kerne. U.a. "kann" RDNA 4 auch nativ bfloat 8, was es gerade bei Inferenz bis zu 3-4 Mal schneller machen kann als RDNA 3. Chester Lam hat das etwas herausgearbeitet, und AMD gibt ähnliches auf ihren Webseiten an:
https://chipsandcheese.com/p/examining-amds-rdna-4-changes-in-llvm

Aber, AMD hat sich klar entschieden, daß Gorgon Halo bei RDNA 3.5 bleibt. Ist halt schade, denn sonst würde Gorgon Halo den Sparks wirklich einheizen.
 
Zuletzt bearbeitet:
DrFreaK666 schrieb:
Für ein leichtes LLM benötigt man keine 192GB. Die Modelle sind ca. 5GB groß, wenn ich mich nicht täusche
Die Größe des Models hat meiner Meinung nach nicht unbedingt was mit leichter oder schwerer Arbeit zu tun. Zu mal man ja auch mehrere kleine Modelle laufen lassen kann oder einen MultiAgent etc., wo es sich dann bezahlt macht wenn ein wenig mehr RAM hat.
Nerdpatrol schrieb:
Und dafür braucht man >100 GB?!
Ein großes Problem ist die maßlose Verschwendung durch Marketing-Quark und idiotische IT-Abteilungen. Wie viele millionen Gigabyte RAM schimmeln nutzlos in den Rechnern irgendwelcher Homeoffice-Teilzeitkräfte herum, die für ihre eMail-Schubserei und ein bisschen SAP / Excel 64 GB RAM im Rechner haben und davon maximal 10 nutzen?
Wäre das, was da schwachsinnig vergeudet wird, noch am Markt, wäre alles supi.
Aber so läuft dieses System eben nicht...
Ja, wenn man es richtig verwendet. Geräte mit "mehr" Ram gibt es schon länger, was die Verknappung gerade ausreizt ist einfach das übertriebe Marketing bzw. der. Hype und der schier unendliche Hunger nach mehr Datencentern für A.I. Hier haben Chiphersteller einfach nicht genug Bandbreite aufgebaut und den Peak abzudecken (weils vorher nie wirklich nötig war) + man hat eben gemerkt, womit man gut Geld verdienen kann. Ich sage es mal so, der Consumer Markt ist es aktuell nicht mehr. Alles andere wird die Zeit zeigen. Aber das was du beschreibst klingt eher nach Grundsatzdiskussion. Das kannst du dann auch auf andere "verschwenderische" Beispiele anwenden, Auto, Fashion, Lifestyleprodukte etc. Such dir was aus.
 
Sapphire Forum
Zurück
Oben