Slowz schrieb:
Wenn man lediglich Inferenz betreiben möchte und keine eigenen Modelle trainiert, führt kein Weg an einem Mac Studio für den Preis vorbei.
Sweepi schrieb:
Die einzige alternative
APU ist die AMD 395 (Max: 128 GiB), der Nachfolger 495 wird maximal 192 GiB unterstützen.
GPUs mit 512 GiB kosten deutlich mehr.
Zudem ist das Setup "Mac Studio kaufen" wesentlich aufwändiger als "PC mit 5x/6x
Blackwell 6000 aufstellen".
stefan92x schrieb:
Und gerade beim großen RAM ist es ja so, dass der besonders beliebt ist für LLMs etc.
man muss aber auch relativieren: mehr ram bedeutet, man kann ein größeres modell mit weniger quantisierung benutzen. aber die geschwindigkeit ist auch ein aspekt.
hier ein benchmarkvergleich zwischen nvidia und apple mit unterschiedlichen modellgrößen:
https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
mal rausgepickt: 3070 8gb, einzelne/doppelte 4090 24gb, m2ultra mit 76c gpu und 192gb ram:
(oom=modell passt nicht in den ram, also nicht benutzbar)
llama3 ram verbrauch:
| Model | Quantized size (Q4_K_M) | Original size (f16) |
|------:|--------------------:|-----------------------:|
| 8B | 4.58 GB | 14.96 GB |
| 70B | 39.59 GB | 131.42 GB |
llama3 tokengenerierung:
| GPU | 8B Q4_K_M | 8B F16 | 70B Q4_K_M | 70B F16 |
|----------------------------|-----------|--------|------------|---------|
| 3070 8GB | 70.94 | OOM | OOM | OOM |
| 4090 24GB | 127.74 | 54.34 | OOM | OOM |
| 4090 24GB * 2 | 122.56 | 53.27 | 19.06 | OOM |
| M2 Ultra 76-Core GPU 192GB | 76.28 | 36.25 | 12.13 | 4.71 |
llama3 tokenverarbeitung:
| GPU | 8B Q4_K_M | 8B F16 | 70B Q4_K_M | 70B F16 |
|----------------------------|-----------|---------|------------|---------|
| 3070 8GB | 2283.62 | OOM | OOM | OOM |
| 4090 24GB | 6898.71 | 9056.26 | OOM | OOM |
| 4090 24GB * 4 | 9609.29 | 12304.19| 898.17 | OOM |
| M2 Ultra 76-Core GPU 192GB | 1023.89 | 1202.74 | 117.76 | 145.82 |
also wenn man ein llm mit 131gb verwenden will, dann müsste man 6 4090 verwenden. wenn man allerdings das gleiche modell quantisiert und es nur noch 40gb braucht, sind 2 4090 schneller als der m2ultra. und zwar deutlich: bei der generierung 60% schneller und bei der verarbeitung 660% schneller.
der m2ultra hat ca 12000euro gekostet und die 4090 ca 1800, also 6 davon und noch cpu/ram/ssd etc ist preislich gar nicht so weit voneinander entfernt. aber 2 4090 sind für gewisse einsatzzwecke schon schneller und billiger.
wenn ein kleines llm reicht, ist sogar eine einzelne 3070 bei der generierung wenig langsamer, aber bei der verarbeitung doppelt so schnell. sehr interessant finde ich auch, dass bei der generierung die doppelte gpu minimal langsamer ist als eine einzelne statt doppelt so schnell, da limitiert dann vllt pcie.
dank quantisierung und neuen komprimierungsverfahren von deepseek und google wird mittlerweile nicht mehr soviel ram benötigt.
das fazit vom test lautet:
Buy NVIDIA gaming GPUs to save money. Buy professional GPUs for your business. Buy a Mac if you want to put your computer on your desk, save energy, be quiet, don't wanna maintenance, and have more fun.