Unseriöser AI-Benchmark: MacBook Pro M4 Max vs. ASUS Ascent GX10 (DGX Spark) vs. RTX 5090 PC

Zhan

Commander Pro
Registriert
Juni 2006
Beiträge
2.369
TL;DR: Ich habe ein MacBook Pro M4 Max (128 GB, 16"), eine ASUS Ascent GX10 (Consumer-Variante der DGX Spark mit Blackwell-GPU, 128 GB) und einen Desktop-PC (9950X3D, 192 GB RAM, ASUS Astral LC RTX 5090) gegeneinander antreten lassen – bei LLM-Inferenz und Bildgenerierung.

Disclaimer vorweg: Das hier ist kein wissenschaftlicher Benchmark. Ich habe stumpf ComfyUI und LM Studio draufgeworfen und geschaut, was passiert. Kein Warmup, keine Wiederholungsmessungen, keine Framework-Optimierung. Wollte eigentlich nur für die Redaktion einen Vorschlag machen, wie die AI-Performance des M5 Max mit möglichst wenig Aufwand getestet werden könnte, aber dann hat sich das irgendwie verselbständigt :utpulsegun: Auch wenn der Test nicht so wirklich seriös ist, wird zumindest die Tendenz klar, denke ich. Achja: AI hat massiv beim Text verfassen geholfen 🤷‍♂️

Die Kontrahenten​


MacBook Pro M4 MaxASUS Ascent GX10 (DGX Spark Variante)Desktop-PC
CPUM4 Max (16-Core)Grace (ARM, 20-Core)AMD 9950X3D
GPUM4 Max (integriert, 40-Core)Blackwell GB10ASUS Astral LC RTX 5090
RAM/VRAM128 GB Unified (546 GB/s)128 GB Unified (~273 GB/s)192 GB DDR5 RAM + 32 GB GDDR7 VRAM
TDP System (geschätzt)~110W (Gesamtsystem inkl. Display)~240W (Peak, typisch ~100-150W unter Last)~800-900W unter Last (GPU allein 600W TDP)
KühlungLuft (meist unhörbar, unter Last erträglich)Luft (meist unhörbar, unter Last erträglich)CPU AIO, 5090 Astral LC AIO

Setup​

  • LLM-Tests: LM Studio auf allen Geräten, immer GGUF-Modelle via llama.cpp-Backend. Testcase war eine Textzusammenfassung (Kafkas "Die Verwandlung", ~32.000 Token Kontext).
  • Bildgenerierung: ComfyUI mit Z-Image (NICHT Turbo), offizieller Default-Workflow.
  • Keine Framework-Optimierung – kein TensorRT-LLM, kein vLLM auf der Spark, kein MLX auf dem Mac. Einfach LM Studio installieren, Modell laden, loslegen.

Ergebnis 1: LLM-Inferenz – Token Generation (t/s, höher = besser)​


ModellM4 MaxDGX SparkDesktop (5090)Anmerkungen
Nemotron Super 120B Q430,5817,710,74PC: nur teilweiser GPU-Offload möglich
Qwen 3.5 27B Q89,756,593,84PC: nur 64k Kontext (statt 260k bei Mac/Spark) und nur teilweiser GPU Offload
Qwen 3.5 9B Q833,5117,03105,36PC spielt hier seine volle Leistung aus

Was passiert hier?​

Der M4 Max dominiert bei den großen Modellen, die nicht in 32 GB VRAM passen. Der Grund: LLM-Inferenz beim Token-Generieren ist memory-bandwidth-bound. Das gesamte Modell muss für jedes einzelne Token einmal aus dem Speicher gelesen werden. Der M4 Max hat ~546 GB/s Unified-Memory-Bandbreite, die DGX Spark ~273 GB/s Das Verhältnis 30,58 vs. 17,71 t/s (~1,73x) passt fast perfekt zum Bandbreitenverhältnis.
Der Desktop-PC mit 5090 bricht bei Nemotron 120B komplett ein (0,74 t/s!), weil das Modell mit ~65 GB in Q4 nicht in die 32 GB VRAM passt. Selbst bei Qwen 27B Q8 sind es nur 3,84 t/s, weil auch hier der KV-Cache drüberhinausgeht.
Aber: Sobald ein Modell komplett ins VRAM der 5090 passt (Qwen 9B Q8, explodiert die Leistung: 105 t/s.Die GDDR7-Bandbreite der 5090 (~1,8 TB/s) ist einfach eine andere Liga. Der Mac schafft hier "nur" 33 t/s, die Spark 17 t/s. Da liegen Welten dazwischen.

Ergebnis 2: Prompt Processing / TTFT (Sekunden, niedriger = besser)​



ModellM4 MaxDGX SparkDesktop (5090)
Nemotron Super 120B Q4124,7476,86342,77
Qwen 3.5 27B Q8196,1278,5548,10
Qwen 3.5 9B Q850,4725,514,90

Ganz anderes Bild!​

Die TTFT (Time to First Token) misst den Prefill – also wie schnell der gesamte Prompt (hier: 32k Token) parallel verarbeitet wird. Das ist compute-bound, nicht bandwidth-bound. Hier zählt rohe Rechenleistung.
Die DGX Spark gewinnt bei Nemotron 120B klar gegen den Mac (77s vs. 125s), weil die Blackwell-GPU deutlich mehr Compute hat. Bei den kleineren Modellen, die in die 5090 passen, räumt der Desktop ab: Qwen 9B in unter 5 Sekunden Prefill für 32k Token – da sieht alles andere alt aus.
Auch hier: Der Desktop bricht bei Nemotron ein (342s!), weil der Prefill nicht rein auf der GPU laufen kann.

Ergebnis 3: Bildgenerierung (ComfyUI, Z-Image)​


M4 MaxDGX SparkDesktop (5090)
Iterations/s0,0920,5021,85
Faktor vs. Mac1x5,5x20x
Bildgenerierung ist reines GPU-Compute, und da herrscht NVIDIA. Auf dem Mac ist das ein Trauerspiel – nicht, weil die Workflows nicht laufen, sondern weil die meisten Modelle auf CUDA optimiert und ausgelegt sind. Es gibt zwar Workarounds, aber das Gebastelt macht einfach keinen Spaß und der Aufwand ist unverhältnismäßig, da die Performance am Ende derart unterirdisch ist, dass es sich schlicht nicht lohnt. Die Spark schlägt sich respektabel, aber die 5090 ist nochmal ~3,7x schneller. Ausserdem bemerkenswert: Der Mac leidet unter Thermalthrottling bei diesem Testlauf. Bei mehreren Runs hintereinander schwanken die s/it sichtbar. Ich habe bei allen Geräten den zweiten Run als Messgrundlage genommen. PC und Spark sind aber fast bis auf die Nachkommastelle konstant bei den Messwerten.

Energieverbrauch ...​



M4 Max (Laptop)DGX SparkDesktop-PC
Peak unter Last (geschätzt)~110W (ganzes System inkl. Display)~150-240W (ganzes System)~800-900W (ganzes System)
GPU allein (geschätzt)~75W (integriert)~100-140W (GB10 SoC)~600W
Idle (geschätzt)~8-12W~35-40W~120-150W
Kühlung Lüfter (relativ leise)Lüfter (relativ leise)WaKü (CPU+GPU)
Stromkosten/Jahr (8h/Tag, 0,35€/kWh)~110€~170€~570-800€
Wer den Desktop als AI-Workstation dauerhaft unter Last betreibt, zahlt im Jahr locker 500-800€ nur für Strom. Auch in der Anschaffung sind Mac und Asus GX10 die günstigeren Optionen verglichen mit meinem PC .....

Wilde Vermutungen: Was der M5 Max verändern wird (CB wird's hoffentlich auch für AI testen)​

Apple hat gerade letzte Woche den M5 Max vorgestellt – mit einigen sehr relevanten Upgrades für LLM-Inferenz:

  • 614 GB/s Speicherbandbreite (statt 546 GB/s beim M4 Max) – das ist ~12% mehr
  • 18-Core CPU mit neuer Fusion-Architektur (6 "Super Cores" + 12 Performance Cores)
  • Bis zu 40-Core GPU mit Neural Accelerators in jedem Kern
  • Apple selbst sagt: bis zu 4x schnelleres LLM Prompt Processing als M4 Max
Was heißt das konkret für diese Benchmarks?

  • Token/s: Moderate Verbesserung. Die Bandbreite steigt um ~12%, also erwarte ich statt 30 t/s bei Nemotron eher ~34 t/s. Nicht weltbewegend, aber nett. Das Grundprinzip ändert sich nicht – Decode bleibt bandwidth-bound.
  • TTFT/Prefill: Hier wird es spannend. Wenn Apples "4x schneller"-Behauptung auch nur halbwegs stimmt, dann reden wir bei Nemotron 120B statt 125s vielleicht von 30-60 Sekunden. Die Neural Accelerators in der GPU könnten den Prefill massiv beschleunigen. Damit würde der M5 Max die Spark bei Prefill einholen oder überholen.
  • Bildgenerierung: Ob sich hier was ändert, hängt weniger an der Hardware als am Software-Ökosystem. Solange Modelle primär auf CUDA optimiert sind, bleibt der Mac im Nachteil – egal wie schnell der Chip ist. Wäre aber spannend zu sehen, ob die Neural Accelerators hier was reißen können. Das müssen aber andere testen.
Der M5 Max könnte damit der erste Apple-Chip werden, der bei LLM-Workloads keine relevante Schwäche mehr hat – schnelle Token-Generierung dank Bandbreite UND schneller Prefill dank GPU-Compute. Alles bei ~110W Systemleistung aus einem Laptop-Akku.

Fazit​

  • Desktop + 5090: Unschlagbar bei allem, was in 32 GB VRAM passt. Aber bei großen Modellen komplett unbrauchbar, frisst absurd viel Strom, kostet zu aktuellen Preisen mit RAM-/Speicherkrise und den 5090 Preisen wohl auf über 7.000€.
  • MacBook Pro M4 Max: Ein absolut solider "mittelgroße Modelle lokal laufen lassen"-Computer – als Laptop. 128 GB Unified Memory mit 546 GB/s Bandbreite sind für LLM-Decode absolut OK. Bildgenerierung ist quasi nicht existent. Und mit dem M5 Max (614 GB/s, Neural Accelerators) wird die Schwäche beim Prompt Processing vermutlich hinfällig.
  • DGX Spark / ASUS Ascent GX10: Der Allrounder. Nie der Schnellste, aber nie komplett abgehängt. Dazu kommt: Ich habe nur llama.cpp via LM Studio genutzt – mit TensorRT-LLM oder vLLM könnte die Spark noch deutlich zulegen, weil die Blackwell-GPU damit wesentlich besser ausgereizt wird. Und nach den ersten paar Tagen mit der Kiste: Nvidia hat sich wirklich Mühe gegeben die Spark-Klasse als Dev-Boxen attraktiv zu machen. Die Playbooks sind Gold wert, das Grundsystem macht wirklich einen guten Eindruck. Als reine Inference Kiste wäre die Spark fast verschwendet.
Hier nochmal visualisiert:

Bildschirmfoto 2026-03-17 um 01.43.15.png

Bildschirmfoto 2026-03-17 um 01.43.23.png

Nochmal deutlich: Das ist kein kontrollierter Benchmark. Die Software-Stacks sind unterschiedlich und LMStudio macht auf der Spark eher wenig Sinn. Es gab kein Warmup, keine Wiederholungsmessungen, und beim Qwen 27B-Test hatte der Desktop ein kleineres Kontextfenster (64k statt 260k). Die Energieverbrauchswerte sind teilweise recherchierte Herstellerangaben, keine eigenen Messungen am Gerät.
Die absoluten Zahlen sind mit Vorsicht zu genießen – aber die relativen Verhältnisse und qualitativen Erkenntnisse sind hoffentlich schlüssig: VRAM ist King, Bandbreite entscheidet beim Decode, Compute beim Prompt Processing, und Strom kostet Geld.
 
Zuletzt bearbeitet von einem Moderator:
  • Gefällt mir
Reaktionen: Azdak, MechanimaL, Garmor und 9 andere
Wieso hast du eine weiße Textfarbe gewählt?
 
  • Gefällt mir
Reaktionen: Kuristina, Physikbuddha, frazzlerunning und 3 andere
1773730259824.png

Damit es gut aussieht.

Ein Vergleich mit Framework Desktop (oder anderem Ryzen AI Max+ 395 mit hoher TDP) wäre hier noch interessant.
 
Zuletzt bearbeitet:
Weil Darkmodefan!!!1111einself
 
Aber für Darkmode muss man einfach bei Standartfarbe lassen und KI/AI zum Texte erstellen ist zwar schön und gut, nur sollte man danach es nach Fehler koorigieren. Beim Einsetzen der KI braucht man auch mehr Qualitätskontrollen.
 
  • Gefällt mir
Reaktionen: derchris
Schriftfarbe entfernt. Musste dazu in den "Modus der Tausend Sonnen" und mir meine Netzhaut wegbrennen lassen. Und jetzt zurück ins Dunkle.

Aber ja, bitte Schriftfarbe auf automatisch lassen!
 
  • Gefällt mir
Reaktionen: Rickmer, Maxysch und Zhan
Ah sorry für Darkmode - Notiz ab mich selbst - nicht morgens um zwei Beiträge verfassen .... Danke fürs anpassen @Smily
 
Zurück
Oben