Highend AI PC mit max RAM - viele Fragen

Zhan · 12. April 2025

Hallo zusammen,

ich habe aktuell die etwas merkwürdige Kombination 5800x mit 96GB Ram und einer 4090. Ich nutzen den PC zu 90% für lokal laufende KI-Experimente - und dabei die volle Palette: Lokale LLMs mit RAG und Pipapo, Bildgenerierung (SD, FLUX, etc), Videogenerierung (WAN 2.1) und so Sachen wie TTS etc. Ab und an mal gespielt wird auch.

Ich laufe nun zuletzt immer wieder in RAM-Engpässe (primär VRAM, aber auch der normale RAM läuft je nach Anwendungsfall voll). Zudem kriege ich graue Haare, weil die 4090 zwar schnell ist, aber gerne schneller sein könnte.

Ich bin jetzt nicht reich, habe aber etwas Budget um mein Hobby zu supporten. Sprich: Für ein Fullblown Threadripper-System oder irgendwas über einer 5090 reicht es nicht - auch nicht für einen M3 Ultra mit 512GB Unified RAM, der zumindest die LLM Flanke schliessen würde - vieles im Bild/Videobereich verlangt aber ohnehin zwingend Nvidia.

Ich liebäugele jetzt mit folgender (immer noch recht teuren - aber im Rahmen liegenden) Kombination die auf normal AM5 und eine 5090 setzt.

Irgendeine erhältliche 5090
ASUS ProArt X870E-Creator
9950x3d + Plus Noctua D15 G2
BeQuiet DarkPower Pro13 1600W (ich spiele mit dem Gedanken meine 4090 auch mal zusätzlich rein zu stecken (MultiGPU gerade mit unterschiedlichen Speichergrößen ist bei AI-Themen zwar Pain pur, aber was soll's)
2 Kits hiervon: https://www.galaxus.de/de/s1/produc...-pmic-amd-expo-intel-xmp-vengeance-2-47988654 (also 192GB insgesamt - Problem anscheinend - das wird dann nicht mehr 6000MT/s sondern eher zwischen 3000-4000 -> wie schlimm ist das in der Praxis?)
Gehäuse, SSD etc. halt irgendwas passendes - das findet sich dann schon

Ergibt diese Konfiguration halbwegs Sinn, übersehe ich was dramatisches, hat irgendwer Erfahrungen mit einer ähnlichen Konfiguration? Komplett andere Empfehlungen? Einwände?

Bin für jeden Input dankbar.

TorenAltair · 12. April 2025

Für die RAM-Mengen und Anforderungen bietet sich ein Threadripper-System besser an.

madmax2010 · 12. April 2025

Zhan schrieb:
ASUS ProArt X870E-Creator

Hast du da abgesehen vom Aussehen einen Grund fuer? Das Board ist sehr teuer, aber bei deinen sonstigen anfoderungen tut es eigentlich ein 150 Euro board genau so gut.

Zhan schrieb:
Sprich: Für ein Fullblown Threadripper-System oder irgendwas über einer 5090 reicht es nicht - auch nicht für einen M3 Ultra mit 512GB Unified RAM, der zumindest die LLM Flanke schliessen würde - vieles im Bild/Videobereich verlangt aber ohnehin zwingend Nvidia.

Ich finde 7000 Euro fuer einen PC der bei LLMs gerade mit einem 1000 Euro Mac Mini mithalten kann.
Fuer 7000 Euro bekommst du inzwischen 1 Jahr Vollzeit Rechenzeit auf einer Nvidia B100 und so wie die preise sich gerade entwickeln auch auf einer B200.
Und damit geht ein vielfaches dessen, was mit einer kleinen 4090 geht

Zhan schrieb:
(also 192GB insgesamt - Problem anscheinend - das wird dann nicht mehr 6000MT/s sondern eher zwischen 3000-4000 -> wie schlimm ist das in der Praxis?)

Speicherbandbreite ist der wichtigste Performancefaktor bei solchen Modellen.

Khorneflakes · 12. April 2025

Sind das denn wirklich viele Fragen? Eigentlich ist das doch nur eine, oder? Die Vollbestückung mit RAM führt zu dem geringeren Takt und das wirkt sich eher auf Spiele aus, auf alles andere eher nicht. Es sei denn, du hast noch einen spezifischen Workload, der von Speichertakt und Zugriffszeiten und so profitiert. Wenn dem so wäre, dann wüsstest du das vermutlich schon. Bei den meisten generischen Workloads ist das nicht so, da ist die Menge und der Durchsatz, der trotz geringerem Takt durch doppelte Bestückung ja gegeben ist, wichtiger.

Man könnte jetzt noch drauf hinweisen, dass das Board vielleicht unnötig teuer ist, ebenso der Kühler. Aber bei dem Gesamtpreis ist das schon beinahe egal.

Zhan · 12. April 2025

Vielen Dank für euer umfangreiches Feedback!

Threadripper: Das wird dann massiv teurer - aber ich kann den Ram noch weiter aufstocken. Aber vieles wird auch langsamer - daher denke ich über AM5 nach. Wenn ich mir mit der Tendenz sicher wäre, hätte ich nicht gepostet - insofern hoffe ich wirklich auf eventuelle Erfahrungswerte von euch. Auf das Board bin ich primär wegen der Schnittstellenausstattung gekommen und weil ich das unbestätigte Gefühl habe, dass es mit evtl. zwei Grakas evtl. besser klar kommen würde, als billigere Boards. Am CPU-Kühler wollte ich bei dem Gesamtpaket einfach nicht sparen.

Was das Cloud-Rechenzeit-Thema betrifft: Man kann, wenn man gerne reist, auch immer in schicke Hotels gehen. Oder sich für brutal viel Geld und Arbeit ein TinyHome auf Rädern bauen - das sich erst nach vielen Jahren rechnet. Ist nicht rational, machen trotzdem einige. Ich will halt alles lokal machen. Wie gesagt: Ist ein Hobby.

Und @madmax2010 : Das ist so vereinfacht nicht ganz richtig aus meiner Sicht. Ich habe hier noch einen M3 Max im Einsatz - ja, der kann größere Modelle als übliche PC-Kombinationen - aber er ist deutlich langsamer - auch als mein derzeitiger Rechner mit 4090. Zudem geht vieles im Bild/Video-Bereich garnicht oder nur extremst langsam auf einem Mac. Ist nicht so, dass ich nicht auch über einen M4 Max Studio mit 128 Ram nachgedacht habe - der löst aber das Problem wie eben erläutert nur teilweise.

Fährt jemand von euch ambitioniertere AI-Workloads auf normaler Consumer-Hardware und hat ggf. eine alternative Empfehlung in der Preisrange?

freekymachine · 12. April 2025

7000 € ?

WRX90 = 1200€
Threadripper 7965WX = 2600€
128GB ram Kit = 1000€ ?!

Eigentlich im Rahmen - machbar - oder kleiner ansetzen, gebraucht CPU/Ram besorgen und über die Jahre upgraden - passen wenigstens 2TB = 2048GB !! Ram rein

+ 128 PCI-E Lanes / 7x PCI-E 5.0 / Octo-Channel DDR5 ECC Reg.

Und Threadripper 9000 kommt wohl auch noch.

madmax2010 · 12. April 2025

Khorneflakes schrieb:
Es sei denn, du hast noch einen spezifischen Workload, der von Speichertakt und Zugriffszeiten und so profitiert.

LLMs halt.. Je nach Architektur und Format braucht es für jeden generierten Token 2-3 Forward passes durchs Modell. Bei einem 160b q8 Modell sind das dann 500GB die aus dem RAM gelesen werden müssen um ein einzelnes (Teil-)Wort zu erzeugen. Ein Satz mit ~20 Token sind dann schon 10TB und das ist noch vor MoE, Resoning, usw..
Desktop RAM schafft pro kanal so ~50 GB/s. Macht mit Ryzen dann ~100GB/s und mit Threadripper ~400GB/s . Der HBM3 auf einer B100 liegt bei ~3.5TB/s

Bei der mickrigen Bandbreite die DDR5 schafft, kann man sich diese Menge an RAM eigentlich gleich schenken, wenn da am ende 1 Token alle paar Sekunden das Ergebnis ist.

Zhan schrieb:
Man kann, wenn man gerne reist, auch immer in schicke Hotels gehen. Oder sich für brutal viel Geld und Arbeit ein TinyHome auf Rädern bauen - das sich erst nach vielen Jahren rechnet. Ist nicht rational, machen trotzdem einige. Ich will halt alles lokal machen. Wie gesagt: Ist ein Hobby

Ich bin nicht sicher, dass ich dein Argument richtig herum lese:
schicke hotels / brutal teures tiny house => gut kosten nicht relevant weil Hobby?
Wenn du LLMs, die 192GB RAM ausreizen, lokal laufen lassen willst, braucht du deutlich mehr Budget.
Ein High End AI PC wie du ihn dir vorstellst kostet eher 6-Stellig.

Bildmodelle hingegen sind absolute Leichtgewichte mit in der Regel unter 10 Milliarden Parametern.

Zhan schrieb:
Threadripper: Das wird dann massiv teurer

Dafür 4-Facher LLM Durchsatz

Zhan schrieb:
dass es mit evtl. zwei Grakas evtl. besser klar kommen würde, als billigere Boards.

das ist quatsch. Sobald die GPU die PCIe Schnitztelle nutzen muss, weil der VRAM nicht reicht, is es egal ob du die GPU mit einer einzelnen oder 16 Lanes angebunden hast. Sowald die swappen muss, verlierst du 2 Größenordnungen Performance.

Auch "billige" Boards funktionieren so gut wie teure. Da verbrennst du gerade ordentlich Geld ohne mehr Performance zu gewinnen. Zu dem Preis gibt es auch schon ein threadripper Board

Zhan schrieb:
Fährt jemand von euch ambitioniertere AI-Workloads auf normaler Consumer-Hardware und hat ggf. eine alternative Empfehlung in der Preisrange?

Wird aus dem was ich versuche hier zu tippen klar, dass das nicht so einfach geht und vor allem warum?

Ich habe auf meinem Desktop kleine Terraform Skripte. Wenn ich will, wird beim PC Start ein LLM auf einer Cloud Instanz gestartet und verbindet sich mit meiner lokal laufenden UI und kann einfach genutzt werden.
Funktionierst selbst mit einem 10 Jahre alten 200 Euro Laptop performanter, als das auf einem 10.000 Euro PC der Fall wäre.

Zhan · 12. April 2025

madmax2010 schrieb:
Ich bin nicht sicher, dass ich dein Argument richtig herum lese:
schicke hotels / brutal teures tiny house => gut kosten nicht relevant weil hobby?

Nee, eher kurzfristige Kosten (die sich wenn überhaupt erst langfristig rechnen) sind nicht alles, weil es auch andere Anforderungen gibt (wie z.B. unabhängig zu sein). Vielleicht war das Beispiel auch falsch. Evtl. ist es aus meiner Perspektive auch einfach ein Sport ohne Clouddienste handlungsfähig zu sein (komplett ohne Ideologie)

madmax2010 schrieb:
Auch "billige" Boards funktionieren so gut wie teure. Da verbrennst du gerade ordentlich Geld ohne mehr Performance zu gewinnen. Zu dem Preis gibt es auch schon ein threadripper Board

Dank euch verbrenne ich ja zum Glück noch garnichts.

Aber gut, ich versuche mich mal an einer alternativen Threadripper-Variante. Mal schaun. Nochmals Danke für euren Input.

freekymachine · 12. April 2025

Zhan schrieb:
Aber gut, ich versuche mich mal an einer alternativen Threadripper-Variante. Mal schaun. Nochmals Danke für euren Input.

Ich weiß jetzt gar nicht ob erlaubt ?! Wenn ja - tut mir leid Admins, natürlich löschen.
n paar Marktlinks.

https://www.kleinanzeigen.de/s-anze...rd-nagelneu-und-unbenutzt/3038903428-225-6443

WRX90 Mainboard -700€ - gebraucht, angeblich unbenutzt - natürlich nur Käuferschutz/Paypal/Klarna oder so nutzen

https://www.kleinanzeigen.de/s-anze...128gb-8x16gb-ddr5-5600mhz/2934915981-225-8929

Ram - 700€ - Octo-Kit, sofern der jetzt überhaupt für AMD EXPO gedacht ist, kanns nicht genau lesen was auf dem Speicher steht - gibt die halt nur für Intel, nur für AMD und als Plug&play = beides.
Aber sieht man immer wieder mal - "fehlkauf" weil leute keine Ahnung haben, das das ECC Reg. Ram ist - schon sogar für 400€ gesehn, weil sie es halt nicht loswerden - wer kauft auch schon sowas^^

https://www.ebay.de/itm/167439459606?_skw=threadripper+7955wx&itmmeta=01JRKJQ0G1S26VZHHZ7C795PF1&hash=item26fc2b6516:g:yGsAAOSwN51n9lyM&itmprp=enc:AQAKAAAA8FkggFvd1GGDu0w3yXCmi1efuxkENznBnpj+NmRjf4jmVd5bdqRVyBm8cLyaZWzH5J+1bnleYYDzAn6v6eehF/FtJCraMHT3xDzxAgMxe0VvOAkpJDJOof9XZUz+fh/a3fKw+G4tFCVqhNp0vBW49DFsAwkrvyAjS3XYkt5iBRddMl1pUTOaR0VIMY5NfNhVnnm73Vl4jwf4H/4hX87DN8YdFREvz7gUV9CW7EbKNLdC4BsIaVsMbuzTmuvdE+Khp32yCcC/xLK+ckHKql7iZ+vbst3gbNhapeya15IoaRQIWaEoNXX9JIpWxwo8xLAnNQ==|tkp:Bk9SR5CJ3PLEZQ

AMD Threadripper 7955wx - 16-Kerne, hat nur 2x CCD = im Ramchannel n bisschen schwach auf der Brust - 7965WX 24-Kern hat 4x CCD = doppelt soviel Ram-Bandbreite.
7945er und 7955er stammen aus HP/Lenovo/Dell Wokrstations - gibs nicht offziell einzeln zu kaufen - haben auch kein Lock - nicht wie bei den vorigen - gabs z.b. Threadripper 3000 mit Lenovo-Lock.

Alternative, testen, ausprobieren, bevor man zuviel Geld verbrennt ob einem son System überhaupt zusagt ?!

TorenAltair · 12. April 2025

Alternativ, wenn Du Garantie willst, dann mal nach refurbished Workstations mit Threadripper schauen.

Nur ein Beispiel auf die Schnelle: https://www.europc.com/de/dell-prec...-jahre-garantie-englisch-tastatur-166291.html
Grafikkarte ggf verkaufen und Deine 5090 rein.

HerrRossi · 12. April 2025

Ein Vorschlag: Mac Studio mit M4 Max, 16‑Core CPU, 40‑Core GPU, 16‑Core Neural Engine, 128 GB gemeinsamer Arbeitsspeicher, 1TB SSD für ca. 4.600 EUR.

Alternative: Framework Desktop Max+ 395, 16-core/32-thread CPU, up to 5.1GHz, 40 Graphics Cores, up to 2.9GHz 128GB RAM, 128GB of non-upgradeable LPDDR5x, 2.329 EUR plus weitere Optionen.
https://frame.work/de/de/products/desktop-diy-amd-aimax300/configuration/new

Damit kannst du viel größere Modelle nutzen als mit den 32GB der 5090. Die auf der CPU laufen zu lassen wird ziemlich langsam.

KarlsruheArgus · 12. April 2025

Zhan schrieb:
Ergibt diese Konfiguration halbwegs Sinn, übersehe ich was dramatisches, hat irgendwer Erfahrungen mit einer ähnlichen Konfiguration?

Der Leistungszuwachs ist mehr schlecht als recht.

Zhan schrieb:
Komplett andere Empfehlungen?

Miete dir die entsprechende Hardware, davon hast du effektiv mehr und kannst dadurch dein eigentliches Hobby deutlich besser ausleben.

MORPEUS · 12. April 2025

Zhan schrieb:
ich spiele mit dem Gedanken meine 4090 auch mal zusätzlich rein zu stecken (MultiGPU gerade mit unterschiedlichen Speichergrößen ist bei AI-Themen zwar Pain pur, aber was soll's)

Würde für die aufgerufenen 3000+ Euro was eine 5090 kostet, so viel mehr Performance rausspringen?

Würde im aktuellen System eine zweite (gebrauchte) 4090 Sinn ergeben?

HerrRossi · 12. April 2025

MORPEUS schrieb:
Würde im aktuellen System eine zweite (gebrauchte) 4090 Sinn ergeben?

Das wird dann nicht schneller, man kann aber größere Modell laden.

MORPEUS · 12. April 2025

Aber ich habe doch dann nicht nur die doppelte Menge VRAM, sondern auch die doppelte Menge GPU-Recheneinheiten. Warum wird es dann nicht schneller?

Noch einige Fragen zu den vorgeschlagene PC mit der AI Max+ 395 APU.

Er nutzt nicht die maximal möglichen 256 GB RAM (was Performance kostet)?
Die verlöteten 128 GB sind nicht aufrüstbar?
Interpretiere ich die AMD Benchmarks richtig, dass die APU bei RAM-Intensiven Workloads ca. 2x schnell, aber bei rechenintensiven Workloads nur ca. 20% schneller als eine 4090 ist?

Sorry für die ahnungslose Fragerei.

HerrRossi · 12. April 2025

MORPEUS schrieb:
Warum wird es dann nicht schneller?

Weil das gleiche Modell auf die zwei GPUs aufgeteilt wird, die eine GPU rechnet an Layer 1 bis X/2, die zweite an Layer X/2 bis X, dafür müssen die GPUs ständig kommunizieren, PCIe ist hier Bottleneck, der die Tokengenerierung ausbremst. Bei der 3090 gäbe es noch NVLINK, das soll beim inferencing aber auch nicht sehr viel bringen, wohl aber beim training. Zumindest habe ich das so verstanden.

Er nutzt nicht die maximal möglichen 256 GB RAM (was Performance kostet)?

Vermutlich gibt es noch keine so großen RAM-Module.

Die verlöteten 128 GB sind nicht aufrüstbar?

Richtig.

Interpretiere ich die AMD Benchmarks richtig, dass die APU bei RAM-Intensiven Workloads ca. 2x schnell, aber bei rechenintensiven Workloads nur ca. 20% schneller als eine 4090 ist?

Welche Benchmarks sind das?

Der Vorteil bei Apple und bei dem AMD System ist, dass die GPU/NPU auf viel RAM zugreifen kann. Ich denke, dass 4090/5090 schneller sind, die haben aber eben nur 24/32GB RAM und können damit nur kleinere Modelle laden, was zu Lasten der Qualität der Antworten geht.

Zhan · 12. April 2025

Das Framework-Gerät sieht interessant aus - das hatte ich nicht auf dem Schirm. Löst aber leider auch nicht den Punkt, dass einiges was ich mache zwingend eine Nvidia GPU verlangt (derzeit) und der Unterschied zwischen 4090 und 5090 nicht nur Geschwindigkeit - sondern eben auch läuft/läuft nicht - respektive Qualität ist (weil dann doch eine kleinere Variante genommen werden muss, wenn verfügbar). In meinem aktuellen Rechner bringe ich keine zweite GPU unter - daher die Überlegung gleich das ganze Gerät auszutauschen.

Ihr habt mich jetzt aber nochmal gründlich ans Nachdenken gebracht. Vielleicht sollte ich einfach die 4090 gegen eine 5090 austauschen (und die alte verkaufen) - dann habe ich zumindest etwas mehr Spielraum gewonnen (24-32) bei den Dingen, die eine NVIDIA wollen. Die Investition ist dann auch überschaubar (für die 4090 bekommt man ja noch gutes Geld). Vielleicht den Prozessor noch gegen etwas größeres für AM4 auf dem Gebrauchtmarkt aufrüsten.

Dann meinen aktuellen Mac verkaufen und gegen einen mit M4 Max mit 128GB Ram austauschen für große LLMs (die eigentlich alle auch auf dem Mac laufen - teilweise gibt es ja sogar MLX Varianten). Wäre dann vermutlich auch im Budget am Ende. Hmmm.

Danke nochmal jedenfalls für euren Input!

HerrRossi · 12. April 2025

Die 4090 durch eine 5090 zu ersetzen dürfte die einfachste Möglichkeit sein, der Aufpreis dürfte dann ca. 1k€ sein.
Wie hoch ist deine CPU und RAM Auslastung beim inferencing?

madmax2010 · 12. April 2025

Zhan schrieb:
Vielleicht war das Beispiel auch falsch. Evtl. ist es aus meiner Perspektive auch einfach ein Sport ohne Clouddienste handlungsfähig zu sein (komplett ohne Ideologie)

Vertraue niemandem. Das gilt besonders bei Cloud Diensten und da bin ich voll und ganz bei dir.
Was ich an Diensten nutze, betreibe ich selbst.

GPUs stundenweise mieten würde ich jedoch eher als Server hosting sehen. Die Modelle laufen ja auch weiterhin bei dir lokal, nur halt 1-2 Größenordnungen langsamer und deutlich teurer. 7000 Euro muss man erst mal verbrauchen, wenn eine Stunde dich ca.Gerade kostet dich halt eine Karte mit 80GB VRAM ca 70 Cent / Stunde. Aus dem Bauch heraus bekommst du in gut einem Jahr eine B300 mit ca 300GB VRAM für 1 Euro/h
Bis dahin hast du dann noch immer eine 24GB VRAM karte daheim.

Darauf gehen richtig dicke Modelle, die du lokal nur sehr langsam betrieben bekommst. Am billigstem scheinen da gerade Mac Mini Cluster zu sein.

Ergänzung (12. April 2025)

HerrRossi schrieb:
, das soll beim inferencing aber auch nicht sehr viel bringen, wohl aber beim training. Zumindest habe ich das so verstanden.

korrekt

HerrRossi schrieb:
Welche Benchmarks sind das?

Ich habe da die Tage nur H100/200 vs Mi300X gesehen:
https://www.linkedin.com/posts/tng-...eats-nvidia-activity-7308218545685864450-07E0
https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1_Perf/README.html

An der Front gibt AMD gerade richtig gas.
Fucking finally

HerrRossi · 12. April 2025

madmax2010 schrieb:
An der Front gibt AMD gerade richtig gas.

Das ist schön, hoffentlich kommt das dann auch bei uns an, wenn wir unsere LLM lokal hosten willen. Besonders ROCm fehlt mW. noch einiges. 2x RX 7900XTX mit zusammen dann 48GB RAM wären ja schon nicht schlecht.

Highend AI PC mit max RAM - viele Fragen

Commander Pro

Vice Admiral

Fleet Admiral

Lt. Commander

Commander Pro

Ensign

Fleet Admiral

Commander Pro

Ensign

Vice Admiral

Fleet Admiral

Admiral Pro

Commander Pro

Fleet Admiral

Commander Pro

Fleet Admiral

Commander Pro

Fleet Admiral

Fleet Admiral

Fleet Admiral

Ähnliche Themen

Passend zum Thema