der Vorgesetzte will eine LLM box...

Zornica

Lt. Commander
Registriert
Juni 2010
Beiträge
1.194
Wie dem Titel zu entnehmen ist will mein hype-geplagter Vorgesetzer unbedingt seine eine openclaude box für local llm oder so (ich hab sein dilettantisches Gebrabbel nicht ganz verstanden). Normalerweise würd ich ihm einfach einen Mac Mini hinstellen, nachdem ich in Hardwaresachen aber pro Stunde bezahlt werde, würd ich dann doch lieber etwas bauen... nachdem quasi alle Ergebnisse einer kurzen Recherche selbst Ki-generierter Müll zu sein scheint, wollt ich mal hier nach ein paar Eckpunkte fragen um ne einigermaßen anständige Kiste zusammenzuzimmern.

Hab im moment eigentlich keinerlei Vorstellungen, er würds aber gern um die/unter 2000€ halten. Meinte auch es soll "definitiv mehr als 8B leisten", was auch immer das heißt.

Danke schonmal!
 
  • Gefällt mir
Reaktionen: AB´solut SiD
Stell ihm eine DGX Spark hin, gibts bei Asus schon unter 4000 €.
 
  • Gefällt mir
Reaktionen: AB´solut SiD, Tornhoof und konkretor
KI heist in Consumer Hardware Möglichst große Nvidia GPU und möglichst viel RAM ... Beides gerade, du kannst es dir vermutlich denken, aufgrund des KI Hypes, eher überteuert.
 
  • Gefällt mir
Reaktionen: konkretor
Zornica schrieb:
Hab im moment eigentlich keinerlei Vorstellungen, er würds aber gern um die/unter 2000€ halten. Meinte auch es soll "definitiv mehr als 8B leisten", was auch immer das heißt.
Not for that money.
 
  • Gefällt mir
Reaktionen: AB´solut SiD
Zornica schrieb:
es soll "definitiv mehr als 8B leisten", was auch immer das heißt.
Das ist die Anzahl der Parameter, hier 8 billions (eng) = 8 Milliarden (deu). Je mehr Parameter desto "intelligenter" wird die KI. Eine Faustregel ist, für 1B werden 1 GB VRAM benötigt. Das ist aber wirklich nur eine grobe Richtlinie, da in dem VRAM-Verbrauch auch andere Faktoren einfließen. Aber zumindest hat man eine Idee, in welche Richtung es geht.

Du kannst ja man hier schauen, wie viel B die großen Modell benötigen. Und dann kannst du nachschauen, wie viel Asche man ausgeben muss, um Hardware in der Größenordnung zu kaufen.
Schon mal ein Tipp vorneweg: Die 2000 € Budget reichen nicht. ;)
 
  • Gefällt mir
Reaktionen: AB´solut SiD
@nutrix na ja so pauschal würde ich das nicht sagen, ich hab auf meiner 3060 12GB auch teilweise 13b modelle laufen. Das geht schon :) RTX 5070 hat doch auch 12GB VRam und kostet laut preisvergleich ca 600€ da kann man schon einen PC für 2000€ drum herhum bauen, der ganz Knapp die gestellte Hürde nimmt. Aber wirklich nur gerade so!

Um wirklich etwas Sinnvolles und etwas zukunftssicher zu sein, brauchts eigentlich schon eine 5090 mit 32GB VRam und dafür reicht das Budget definitiv nicht aus. Da geht die GPU schon bei 3800€ los und den Rest vom PC brauchst du ja auch noch.
 
Zuletzt bearbeitet:
Was kostet denn mittlerweile so eine Ryzen AI Max Büchse mit 128GB RAM? Das sollte doch nicht so weit weg vom Budget sein.

€dit:
4k, also rund das doppelte vom Budget.
€dit2:
Bei Framework könnte man sich die 64GB Variante mit 1TB SSD für 2500€ zusammenklicken
 
  • Gefällt mir
Reaktionen: AB´solut SiD
20b Modelle lassen sich auch mit 32GB RAM gut betreiben. U.A. mit OpenVINO von Intel: https://geizhals.de/asus-nuc-16-pro...s76c4n2-90as00q1-m000h0-a3797412.html?hloc=de

Mehr RAM ist natürlich immer mehr besser, aber mit ca. 2k kann man durchaus einsteigen. Ich würde auch nichts mehr unter 64GB nehmen, aber ich habe auch andere Ansprüche.
Lunar Lake kann man da auch noch verwenden, spart evtl. noch mehr Geld.

konkretor schrieb:
Klick dich da durch.
Sorry, aber viel mehr unkonstruktiven Unsinn kann man Fragestellenden nicht an den Kopf werfen.
Ergänzung ()

Oh, und natürlich die offensichtliche Alternative: https://geizhals.de/apple-mac-mini-2024-z1jv-a3344493.html?hloc=de
 
  • Gefällt mir
Reaktionen: AB´solut SiD
Zornica schrieb:
Meinte auch es soll "definitiv mehr als 8B leisten", was auch immer das heißt.

Dann lass das jemand mit einem Minimum mit Grundkenntnissen machen.


Zornica schrieb:
ich hab sein dilettantisches Gebrabbel nicht ganz verstanden

Dann möge sich das jemand anders antun. Das ist die Grundlage für die Planung.
 
  • Gefällt mir
Reaktionen: gman32 und h2f
wie ist das so verglichen mit Mac Minis (die ja anscheinend immer empfohlen werden?)?
Ist das tatsächlich ne realistische alternative? oder auch nur ein Geldloch ohne Zukunft? (wegen fehlender Aufrüstungsmöglichkeit und so...)

edit: um das nochmal klar zu stellen: es geht nicht darum um irgendwas professionelles (blade server und co) oder produktives zusammenzustellen, sondern bloß darum den Vorgesetzten der ständig auf jeden Hype aufspringt zufriedenzustellen bis er dem nächsten blingbling abgelenkt weiterzieht.
 
Zuletzt bearbeitet:
Ob jetzt ein Mac Mini oder einen PC mit Ryzen AI Max ist mMn vergleichbar und schenkt sich wenig. Beides sind Chips die auf ihrem Motherboard fest verlötet sind um so nah wie möglich auf den ebenfalls verlöteten RAM zuzugreifen und beide haben spezielle Sektionen in ihren Chips die für KI Optimiert sind. Daher können diese CPU/GPU/NPU kombinationen Dinge tun, für die du sonst eine sehr Teure GPU brauchst.

Was die jedoch alle gemeinsam haben: Du wirst ein fertiges Gesamtpaket kaufen müssen, dass dan auch nicht modular im nachhinein aufgerüstet werden kann. Dh aus deinem Plan für den Zusammenbau des PCs ein paar Stunden aufschreiben zu können wird vermutlich nicht viel werden, wenn du nicht gerade für die KI schwächste variante gehst und einen normalen PC um eine 5070 aufbaust. Das ist glaube ich die einzige Variante bei der du im Budget bleibst und tatsächlich einen Klassischen PC zusammenschraubst aus einzelteilen. Alles Andere sind hochgradig integrierte und verlötete Systeme
 
Zornica schrieb:
Hab im moment eigentlich keinerlei Vorstellungen, er würds aber gern um die/unter 2000€ halten. Meinte auch es soll "definitiv mehr als 8B leisten", was auch immer das heißt.
Da LLM-Box eine virtuelle Box nicht ausschließt und du mit der Bereitstellung+"Service" ggf. einen Wartungsvertrag abschließen kannst: RunPod und Co.

Für 2000€ kriegst du lokal nichts brauchbares zusammen, allerdings kommst du damit auch nicht lange "virtuell" aus. Das kommt darauf an, was damit geplant ist. Heavy Usage? Zeitmodell (du zahlst pro Minute, die das Ding läuft, egal ob Idle oder 100% Last). Eher sporadische Nutzung? Dann einen Pod mit API-Usage (nutzungsbasierte Abrechnung).

## Kurz ein bisschen Kontext für dich (falls dich Details interessieren):
8B bedeutet nix anderes, als dass ein LLM mit 8B (8 Milliarden Parametern) laufen soll - was an sich nicht viel aussagt, es ist praktisch die Intelligenz des Modells, sagt aber nichts über dessen Genauigkeit/Präzision aus, das gibt die Quantisierung an (und beides zusammen ergibt dann den Speicherbedarf).

Ein 26B Modell in einer 2-bit Quantisierung (ca. 6,5 GB VRAM) ist quasi unbrauchbar, während ein 8B mit 4-bit Quantisierung (ca. 4 GB VRAM) hier deutlich besser abschneidet - und dabei sogar weniger Speicher braucht. Die "Intelligenz" steckt in den Gewichten, und Q2 "komprimiert" so aggressiv, dass ein Großteil davon verloren geht: mehr Wiederholungen, instabileres Reasoning, schlechtere Ausgaben. Mehr Parameter helfen nur, wenn die Quantisierung hoch genug ist, sie auch zu erhalten.

Man kann das mit MP3s oder der Auflösung von Videos vergleichen: Auflösung sind die Parameter, Bitrate die Quantisierung - mit dem Unterschied, dass ein 4K-Video in extremer Komprimierung schlechter aussehen kann als ein solides 1080p ohne Artefakte.
## Kontext Ende

Wenn man also weiß, was dein Vorgesetzter damit machen will, kann man geeignete Modelle finden (und in welchen Quantisierungen diese "vorliegen"). Mit diesem Speicherbedarf kann man dann schauen, was man an Hardware braucht. Vielleicht reichen 16GB VRAM, vielleicht braucht ihr 24GB (gebrauchte RTX 3090 z.B.).

Die Macs sind langsamer bei der Inferenz (also dem Nachdenken), als NVIDIA GPUs und Punkten durch viel RAM/VRAM (ist bei Macs shared und beides sehr schnell). Die AMD RYZEN AI+ Max 395 (oder so ähnlich) von AMD sind langsam und punkten nur durch RAM aber irgendwann ist der Vorgang einfach so langsam, dass man keine Freude damit hat (und schon gar nicht produktiv damit ist).

Edit: man muss nicht alles im VRAM haben, sondern Layer auf GPU und RAM verteilen (deswegen sind die RAM Preise aktuell, wo sie sind) aber das (technisch) zu erklären, würde den Rahmen hier etwas sprengen, der Text ist eh schon zu lang.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Col. Jessep
so motherboards mit embedded cpu gibts heutzutage keine mehr separate zu kaufen? so ein geschlossenes system wär schon eher Verschwendung aus meiner Sicht... Ich geh davon aus, dass die arme Kiste ziemlich schnell sein Interesse verlieren wird sobald er feststellt, dass ihm das eh alles zu kompliziert ist... (wir sprechen hier von einer person die für unsere XLR Soundkarten klinken und usb Mikrophone gekauft hat...)
entsprechend würd ich halt auch was offeneres kaufen wollen- nicht nur für die Arbeitstunden, sondern auch um die Kiste dann für etwas nützlichers umzufunktionieren zu können.

Also sagen wir mal so ganz generell, vergessen wir die 2000€, was wär da ein "realistischeres budget" um was ordentliches mit Erweiterungsspielraum zu bekommen?

edit:
mscn schrieb:
Wenn man also weiß, was dein Vorgesetzter damit machen will, kann man geeignete Modelle finden (und in welchen Quantisierungen diese "vorliegen"). Mit diesem Speicherbedarf kann man dann schauen, was man an Hardware braucht. Vielleicht reichen 16GB VRAM, vielleicht braucht ihr 24GB (gebrauchte RTX 3090 z.B.).
das ist ja das Problem... der weiß das doch selbst nicht was er will. Ich hab gesagt gib mir ne liste mit Modellen die laufen sollen, und er meinte nur so "na die lokalen eben"
...
danke für die Ausführliche Erklärung darüber btw
 
wenn die Anforderung tatsächlich nur ein 8B Dense Modell ist, kann man doch, auch zukunftsorientiert, um eine B60 mit 24GB ein System aufbauen und das LLM rein auf der GPU ausführen.

Die GPU lässt mit 680€ doch noch etwas an Budget über.
https://geizhals.de/asrock-arc-pro-b60-creator-a3701605.html?hloc=at&hloc=de&hloc=eu&hloc=pl&hloc=uk

Wenn du es trotzdem einfach machen möchtest, könntest du die GPU in sowas verfrachten, da ist sogar schon Windows drauf:

https://geizhals.de/asus-expertcent....html?hloc=at&hloc=de&hloc=eu&hloc=pl&hloc=uk

Zusammen 1400€. Man kann ja noch n zweiten 8GB-Ram-Riegel dazu kaufen.

Liest sich auch schön "Expert Center". Die Experten sind ja da drin :D
 
  • Gefällt mir
Reaktionen: djducky
Das ist halt irgendwie nutzlos, wenn du selber die Anforderungen nicht verstehst und auf hypothetische Anforderungen in der Zukunft schielst. Dann kannst du auch gleich den Mac nehmen und hoffen, den mit möglichst wenig Verlust wieder verkaufen zu können.
 
  • Gefällt mir
Reaktionen: redjack1000, konkretor, JumpingCat und 2 andere
Zurück
Oben