der Vorgesetzte will eine LLM box...

SirKhan schrieb:
Nö. Das Ding steht im Serverraum/Keller/Abstellkammer. Da ist die Lautstärke total egal.
Ich hab gedacht weil im Ausgangsposting von "Mac Mini hinstellen" die Rede war.

SirKhan schrieb:
Viel wichtiger als RAM ist VRAM und da sind 16GB schon etwas mager...
Wenn man nicht auf die RTX Super Reihe warten will geht es aber nicht anders, selbst eine RTX 5080 hat ja auch nur 16GB VRAM.

Und eine RTX 5090, RTX 5090D als China-Reimport oder eine gebrauchte RTX 4090 würden alle das Budget massivst reissen.

SirKhan schrieb:
Die GPU kann sowieso komplett dazu dienen, wenn der Rechner headless betrieben wird und selbst wenn nicht, jede Mini-iGPU der anderen CPUs reicht für den Desktop dicke aus, da braucht es keine G-APU.
Ich wäre eher davon ausgegangen das es ein Dual-Use System fürs Büro werden soll, mit dem man LLMs lokal ausprobieren und entwickeln kann, aber eben auch andere Alltagsanwendungen nutzen will, oder wo man direkt LLM-Output in anderen Anwendungen weiterverarbeiten will.
 
Es geht nicht mehr darum ein System zusammenzustellen/irgendwas zu empfehlen das in das genannte Budget hinein passt.
Es geht darum klar zu erkennen das die formulierten Anforderungen/Wünsche für das Budget schlicht nicht umsetzbar sind.

Irgendein Mac Mini oder Ryzen Embebbed o.ä. ist viel, viel, viel zu leistungsschwach dafür.
Wenn das ganze wirklich so wie gewünscht funktionieren soll, muss man da deutlich drüber ansetzen.
Und kann dann auch was entsprechendes empfehlen.

Die Anforderungen wurden ja relativ klar genannt. Jetzt wäre höchstens noch interessant zu wissen wie groß die Datenbasis wirklich ist.
Man muss aber klar erkennen und benennen das das ganze für das vorgegebene Budget nicht umsetzbar ist.
Da muss man nicht auf Krampf versuchen irgendwas hinzubiegen, da muss man erkennen wo die Grenzen des Machbaren sind
und wie viel Rechnerleistung an welcher Stelle ganz einfach benötigt wird, um das genannte Ziel auch erreichen zu können.

Wenn man das Budget auf 10.000-15.000€ aufblasen würde, ginge das. Aber nicht für 2.000€. Das ist Kindergarten-Spielkram.
 
Die Rohdaten haben anscheinend um die 60gb. Keine Ahnung wie viel das dann vektorisiert wäre
Dass das ganze kein Wochenendprojekt sein würde sondern sich über mehrere Monate hinziehen kann kam wohl ein wenig unerwartet für ihn... aber noch hat er es nicht gedropt.

Was das Budget angeht... schwer zu sagen wie flexibel er da sein will... ich würd ja vielleicht darauf hoffen, dass der KI Bubble crash endlich kommt und da ein wenig die Preise normalisiert ...
 
Zuletzt bearbeitet:
KnolleJupp schrieb:
Irgendein Mac Mini oder Ryzen Embebbed o.ä. ist viel, viel, viel zu leistungsschwach dafür.
Kommt darauf an, was man genau erwartet. Die Antworten ploppen bei gemma4-31B schon recht flott aus meiner PRO R9700. Die 8060S (mit 96GB VRAM!) ist zwar etwas langsamer, aber kann dafür auch mit recht großen Modellen umgehen und für die Evaluierung kann man das durchaus verwenden bevor man dann die 15k€ ausgibt. Dann weiß man, dass das Konzept funktioniert (oder halt nicht) und kann dann mehr Geld in die Hand nehmen.
Die PRO R9700 gibt es für ~1.4k€. Also unter 2k€ zu bleiben ist sportlich aber nicht unmöglich. Besser wäre ein etwas größeres Budget oder man verwendet einen bestehenden PC in der Firma und steckt lediglich diese GPU rein (den PC des Chefs z.B. oder wenn es ein Notebook ist halt noch ein USB4-GPU-Gehäuse dazu).

Zornica schrieb:
Die Rohdaten haben anscheinend um die 60gb.
Hat gemma4-31B ebenfalls. Das passt bei mir mit ~200k Context-Windows quantisiert auf Q6 problemlos in 32GB VRAM. Also die AMD PRO R9700 oder die 5090 (wobei letztere alleine schon das Budget sprengt).
Oder halt der Mac Mini oder AI Max 395+ (welche dann deutlich mehr VRAM haben können).
 
Zuletzt bearbeitet:
Zornica schrieb:
eigentlich perfekt?
Wenn man es kaufen könnte. Dazu kommt das hier:
And AMD’s Strix Halo processors only have 16 lanes of PCIe 4.0. So while you can use that PCIe x16 slot to connect any standard desktop graphics card that will fit in a mini ITX chassis, you’re unlikely to be able to get 16 lanes of throughput.

As far as I’m aware MINISFORUM hasn’t said how many PCIe lanes are supported, but I wouldn’t be surprised if its limited to PCIe 4.0 x4 speeds, much like the board that powers the MINISFORUM MS-S1 Max.
Der Chip hat nicht genug Lanes, wird vermutlich nur x4 sein (M.2 slots und andere Chips brauchen ja auch noch was). Dann kann man gleich einen Mini-PC kaufen und die GPU per Oculink dranhängen. Ist das selbe.
 
wird sich zeigen wenn es dann mal rauskommt...
Ich hatte ein ähnliches mITX board mit 2 m.2 slots, da konnte man einen davon deaktivieren um mehr Bandbreite für den pci-e-slot verfügbar zu machen. Die wären ja blöd sowas zu veröffentlichen um es dann auf unbrauchbare weise umzusetzen?
 
Zuletzt bearbeitet:
Zurück
Oben