TL;DR: Ich habe ein MacBook Pro M4 Max (128 GB, 16"), eine ASUS Ascent GX10 (Consumer-Variante der DGX Spark mit Blackwell-GPU, 128 GB) und einen Desktop-PC (9950X3D, 192 GB RAM, ASUS Astral LC RTX 5090) gegeneinander antreten lassen – bei LLM-Inferenz und Bildgenerierung.
Disclaimer vorweg: Das hier ist kein wissenschaftlicher Benchmark. Ich habe stumpf ComfyUI und LM Studio draufgeworfen und geschaut, was passiert. Kein Warmup, keine Wiederholungsmessungen, keine Framework-Optimierung. Wollte eigentlich nur für die Redaktion einen Vorschlag machen, wie die AI-Performance des M5 Max mit möglichst wenig Aufwand getestet werden könnte, aber dann hat sich das irgendwie verselbständigt

Auch wenn der Test nicht so wirklich seriös ist, wird zumindest die Tendenz klar, denke ich. Achja: AI hat massiv beim Text verfassen geholfen 🤷♂️
Die Kontrahenten
| MacBook Pro M4 Max | ASUS Ascent GX10 (DGX Spark Variante) | Desktop-PC |
|---|
| CPU | M4 Max (16-Core) | Grace (ARM, 20-Core) | AMD 9950X3D |
| GPU | M4 Max (integriert, 40-Core) | Blackwell GB10 | ASUS Astral LC RTX 5090 |
| RAM/VRAM | 128 GB Unified (546 GB/s) | 128 GB Unified (~273 GB/s) | 192 GB DDR5 RAM + 32 GB GDDR7 VRAM |
| TDP System (geschätzt) | ~110W (Gesamtsystem inkl. Display) | ~240W (Peak, typisch ~100-150W unter Last) | ~800-900W unter Last (GPU allein 600W TDP) |
| Kühlung | Luft (meist unhörbar, unter Last erträglich) | Luft (meist unhörbar, unter Last erträglich) | CPU AIO, 5090 Astral LC AIO |
Setup
- LLM-Tests: LM Studio auf allen Geräten, immer GGUF-Modelle via llama.cpp-Backend. Testcase war eine Textzusammenfassung (Kafkas "Die Verwandlung", ~32.000 Token Kontext).
- Bildgenerierung: ComfyUI mit Z-Image (NICHT Turbo), offizieller Default-Workflow.
- Keine Framework-Optimierung – kein TensorRT-LLM, kein vLLM auf der Spark, kein MLX auf dem Mac. Einfach LM Studio installieren, Modell laden, loslegen.
Ergebnis 1: LLM-Inferenz – Token Generation (t/s, höher = besser)
| Modell | M4 Max | DGX Spark | Desktop (5090) | Anmerkungen |
|---|
| Nemotron Super 120B Q4 | 30,58 | 17,71 | 0,74 | PC: nur teilweiser GPU-Offload möglich |
| Qwen 3.5 27B Q8 | 9,75 | 6,59 | 3,84 | PC: nur 64k Kontext (statt 260k bei Mac/Spark) und nur teilweiser GPU Offload |
| Qwen 3.5 9B Q8 | 33,51 | 17,03 | 105,36 | PC spielt hier seine volle Leistung aus |
Was passiert hier?
Der M4 Max
dominiert bei den großen Modellen, die nicht in 32 GB VRAM passen. Der Grund: LLM-Inferenz beim Token-Generieren ist
memory-bandwidth-bound. Das gesamte Modell muss für jedes einzelne Token einmal aus dem Speicher gelesen werden. Der M4 Max hat ~546 GB/s Unified-Memory-Bandbreite, die DGX Spark ~273 GB/s Das Verhältnis 30,58 vs. 17,71 t/s (~1,73x) passt fast perfekt zum Bandbreitenverhältnis.
Der Desktop-PC mit 5090 bricht bei Nemotron 120B komplett ein (0,74 t/s!), weil das Modell mit ~65 GB in Q4 nicht in die 32 GB VRAM passt. Selbst bei Qwen 27B Q8 sind es nur 3,84 t/s, weil auch hier der KV-Cache drüberhinausgeht.
Aber: Sobald ein Modell komplett ins VRAM der 5090 passt (Qwen 9B Q8, explodiert die Leistung:
105 t/s.Die GDDR7-Bandbreite der 5090 (~1,8 TB/s) ist einfach eine andere Liga. Der Mac schafft hier "nur" 33 t/s, die Spark 17 t/s. Da liegen Welten dazwischen.
Ergebnis 2: Prompt Processing / TTFT (Sekunden, niedriger = besser)
| Modell | M4 Max | DGX Spark | Desktop (5090) |
|---|
| Nemotron Super 120B Q4 | 124,74 | 76,86 | 342,77 |
| Qwen 3.5 27B Q8 | 196,12 | 78,55 | 48,10 |
| Qwen 3.5 9B Q8 | 50,47 | 25,51 | 4,90 |
Ganz anderes Bild!
Die TTFT (Time to First Token) misst den
Prefill – also wie schnell der gesamte Prompt (hier: 32k Token) parallel verarbeitet wird. Das ist
compute-bound, nicht bandwidth-bound. Hier zählt rohe Rechenleistung.
Die DGX Spark gewinnt bei Nemotron 120B klar gegen den Mac (77s vs. 125s), weil die Blackwell-GPU deutlich mehr Compute hat. Bei den kleineren Modellen, die in die 5090 passen, räumt der Desktop ab: Qwen 9B in unter 5 Sekunden Prefill für 32k Token – da sieht alles andere alt aus.
Auch hier: Der Desktop bricht bei Nemotron ein (342s!), weil der Prefill nicht rein auf der GPU laufen kann.
Ergebnis 3: Bildgenerierung (ComfyUI, Z-Image)
| M4 Max | DGX Spark | Desktop (5090) |
|---|
| Iterations/s | 0,092 | 0,502 | 1,85 |
| Faktor vs. Mac | 1x | 5,5x | 20x |
Bildgenerierung ist reines GPU-Compute, und da herrscht NVIDIA. Auf dem Mac ist das ein Trauerspiel – nicht, weil die Workflows nicht laufen, sondern weil die meisten Modelle auf CUDA optimiert und ausgelegt sind. Es gibt zwar Workarounds, aber das Gebastelt macht einfach keinen Spaß und der Aufwand ist unverhältnismäßig, da die Performance am Ende derart unterirdisch ist, dass es sich schlicht nicht lohnt. Die Spark schlägt sich respektabel, aber die 5090 ist nochmal ~3,7x schneller. Ausserdem bemerkenswert: Der Mac leidet unter Thermalthrottling bei diesem Testlauf. Bei mehreren Runs hintereinander schwanken die s/it sichtbar. Ich habe bei allen Geräten den zweiten Run als Messgrundlage genommen. PC und Spark sind aber fast bis auf die Nachkommastelle konstant bei den Messwerten.
Energieverbrauch ...
| M4 Max (Laptop) | DGX Spark | Desktop-PC |
|---|
| Peak unter Last (geschätzt) | ~110W (ganzes System inkl. Display) | ~150-240W (ganzes System) | ~800-900W (ganzes System) |
| GPU allein (geschätzt) | ~75W (integriert) | ~100-140W (GB10 SoC) | ~600W |
| Idle (geschätzt) | ~8-12W | ~35-40W | ~120-150W |
| Kühlung | Lüfter (relativ leise) | Lüfter (relativ leise) | WaKü (CPU+GPU) |
| Stromkosten/Jahr (8h/Tag, 0,35€/kWh) | ~110€ | ~170€ | ~570-800€ |
Wer den Desktop als AI-Workstation dauerhaft unter Last betreibt, zahlt im Jahr locker 500-800€ nur für Strom. Auch in der Anschaffung sind Mac und Asus GX10 die günstigeren Optionen verglichen mit meinem PC .....
Wilde Vermutungen: Was der M5 Max verändern wird (CB wird's hoffentlich auch für AI testen)
Apple hat gerade letzte Woche den M5 Max vorgestellt – mit einigen sehr relevanten Upgrades für LLM-Inferenz:
- 614 GB/s Speicherbandbreite (statt 546 GB/s beim M4 Max) – das ist ~12% mehr
- 18-Core CPU mit neuer Fusion-Architektur (6 "Super Cores" + 12 Performance Cores)
- Bis zu 40-Core GPU mit Neural Accelerators in jedem Kern
- Apple selbst sagt: bis zu 4x schnelleres LLM Prompt Processing als M4 Max
Was heißt das konkret für diese Benchmarks?
- Token/s: Moderate Verbesserung. Die Bandbreite steigt um ~12%, also erwarte ich statt 30 t/s bei Nemotron eher ~34 t/s. Nicht weltbewegend, aber nett. Das Grundprinzip ändert sich nicht – Decode bleibt bandwidth-bound.
- TTFT/Prefill: Hier wird es spannend. Wenn Apples "4x schneller"-Behauptung auch nur halbwegs stimmt, dann reden wir bei Nemotron 120B statt 125s vielleicht von 30-60 Sekunden. Die Neural Accelerators in der GPU könnten den Prefill massiv beschleunigen. Damit würde der M5 Max die Spark bei Prefill einholen oder überholen.
- Bildgenerierung: Ob sich hier was ändert, hängt weniger an der Hardware als am Software-Ökosystem. Solange Modelle primär auf CUDA optimiert sind, bleibt der Mac im Nachteil – egal wie schnell der Chip ist. Wäre aber spannend zu sehen, ob die Neural Accelerators hier was reißen können. Das müssen aber andere testen.
Der M5 Max könnte damit der erste Apple-Chip werden, der bei LLM-Workloads keine relevante Schwäche mehr hat – schnelle Token-Generierung dank Bandbreite UND schneller Prefill dank GPU-Compute. Alles bei ~110W Systemleistung aus einem Laptop-Akku.
Fazit
- Desktop + 5090: Unschlagbar bei allem, was in 32 GB VRAM passt. Aber bei großen Modellen komplett unbrauchbar, frisst absurd viel Strom, kostet zu aktuellen Preisen mit RAM-/Speicherkrise und den 5090 Preisen wohl auf über 7.000€.
- MacBook Pro M4 Max: Ein absolut solider "mittelgroße Modelle lokal laufen lassen"-Computer – als Laptop. 128 GB Unified Memory mit 546 GB/s Bandbreite sind für LLM-Decode absolut OK. Bildgenerierung ist quasi nicht existent. Und mit dem M5 Max (614 GB/s, Neural Accelerators) wird die Schwäche beim Prompt Processing vermutlich hinfällig.
- DGX Spark / ASUS Ascent GX10: Der Allrounder. Nie der Schnellste, aber nie komplett abgehängt. Dazu kommt: Ich habe nur llama.cpp via LM Studio genutzt – mit TensorRT-LLM oder vLLM könnte die Spark noch deutlich zulegen, weil die Blackwell-GPU damit wesentlich besser ausgereizt wird. Und nach den ersten paar Tagen mit der Kiste: Nvidia hat sich wirklich Mühe gegeben die Spark-Klasse als Dev-Boxen attraktiv zu machen. Die Playbooks sind Gold wert, das Grundsystem macht wirklich einen guten Eindruck. Als reine Inference Kiste wäre die Spark fast verschwendet.
Hier nochmal visualisiert:
Nochmal deutlich: Das ist kein kontrollierter Benchmark. Die Software-Stacks sind unterschiedlich und LMStudio macht auf der Spark eher wenig Sinn. Es gab kein Warmup, keine Wiederholungsmessungen, und beim Qwen 27B-Test hatte der Desktop ein kleineres Kontextfenster (64k statt 260k). Die Energieverbrauchswerte sind teilweise recherchierte Herstellerangaben, keine eigenen Messungen am Gerät.
Die absoluten Zahlen sind mit Vorsicht zu genießen – aber die relativen Verhältnisse und qualitativen Erkenntnisse sind hoffentlich schlüssig:
VRAM ist King, Bandbreite entscheidet beim Decode, Compute beim Prompt Processing, und Strom kostet Geld.