Zornica schrieb:
Hab im moment eigentlich keinerlei Vorstellungen, er würds aber gern um die/unter 2000€ halten. Meinte auch es soll "definitiv mehr als 8B leisten", was auch immer das heißt.
Da LLM-Box eine virtuelle Box nicht ausschließt und du mit der Bereitstellung+"Service" ggf. einen Wartungsvertrag abschließen kannst: RunPod und Co.
Für 2000€ kriegst du lokal nichts brauchbares zusammen, allerdings kommst du damit auch nicht lange "virtuell" aus. Das kommt darauf an, was damit geplant ist. Heavy Usage? Zeitmodell (du zahlst pro Minute, die das Ding läuft, egal ob Idle oder 100% Last). Eher sporadische Nutzung? Dann einen Pod mit API-Usage (nutzungsbasierte Abrechnung).
## Kurz ein bisschen Kontext für dich (falls dich Details interessieren):
8B bedeutet nix anderes, als dass ein LLM mit 8B (8 Milliarden Parametern) laufen soll - was an sich nicht viel aussagt, es ist praktisch die Intelligenz des Modells, sagt aber nichts über dessen Genauigkeit/Präzision aus, das gibt die Quantisierung an (und beides zusammen ergibt dann den Speicherbedarf).
Ein 26B Modell in einer 2-bit Quantisierung (ca. 6,5 GB VRAM) ist quasi unbrauchbar, während ein 8B mit 4-bit Quantisierung (ca. 4 GB VRAM) hier deutlich besser abschneidet - und dabei sogar weniger Speicher braucht. Die "Intelligenz" steckt in den Gewichten, und Q2 "komprimiert" so aggressiv, dass ein Großteil davon verloren geht: mehr Wiederholungen, instabileres Reasoning, schlechtere Ausgaben. Mehr Parameter helfen nur, wenn die Quantisierung hoch genug ist, sie auch zu erhalten.
Man kann das mit MP3s oder der Auflösung von Videos vergleichen: Auflösung sind die Parameter, Bitrate die Quantisierung - mit dem Unterschied, dass ein 4K-Video in extremer Komprimierung schlechter aussehen kann als ein solides 1080p ohne Artefakte.
## Kontext Ende
Wenn man also weiß, was dein Vorgesetzter damit machen will, kann man geeignete Modelle finden (und in welchen Quantisierungen diese "vorliegen"). Mit diesem Speicherbedarf kann man dann schauen, was man an Hardware braucht. Vielleicht reichen 16GB VRAM, vielleicht braucht ihr 24GB (gebrauchte RTX 3090 z.B.).
Die Macs sind langsamer bei der Inferenz (also dem Nachdenken), als NVIDIA GPUs und Punkten durch viel RAM/VRAM (ist bei Macs shared und beides sehr schnell). Die AMD RYZEN AI+ Max 395 (oder so ähnlich) von AMD sind langsam und punkten nur durch RAM aber irgendwann ist der Vorgang einfach so langsam, dass man keine Freude damit hat (und schon gar nicht produktiv damit ist).
Edit: man muss nicht alles im VRAM haben, sondern Layer auf GPU und RAM verteilen (deswegen sind die RAM Preise aktuell, wo sie sind) aber das (technisch) zu erklären, würde den Rahmen hier etwas sprengen, der Text ist eh schon zu lang.