Bright0001
Captain
- Registriert
- Juli 2011
- Beiträge
- 3.474
Das ist kein Alleinstellungsmerkmal, sondern typische Architektur für APUs, die es seit Jahrzehnten gibt, und aktuell Konkurrenz von AMDs Ryzen AI Chips hat.Tsu schrieb:Das Alleinstellungsmerkmal der Mac PCs ist der unified memory, d. h. der Arbeitsspeicher ist auch annähernd GPU Speicher.
SheepShaver schrieb:48GB VRAM ist für ernsthaftes Coding mit großen Codebases eine Totgeburt. ~34B Q4 rein, kaum Kontext-Puffer, bei mehreren Files fliegt dir das Modell in den RAM raus und die Performance geht in den Keller.
- Es ist ganz sicher keine Totgeburt.
- Große Projekte stumpf komplett in den Kontext zu schieben ist die denkbar schlechteste Strategie, sowohl im Bezug auf Performance als auch im Bezug zum Output.
Auch hier: Die Aussage "Mehr Parameter, bessere Ergebnisse" ist in dieser pauschalen Form schlicht falsch, und das nicht erst seit dem Agents-Trend. Zumal dir dein 70B Model im Speicher auch keine Ente schießt, wenn du dich am Ende mit 5-20T/s abfinden musst. Hat schon seinen Grund, warum die meisten "Tests" die Inferenz mit Modellen <30B testen, egal wie viel Speicher das Teil hat.SheepShaver schrieb:Das ist kein Setup für produktives Arbeiten.
Ein Mac Studio M4 Max mit 128GB für einen geringeren Preis lädt ein 70B-Modell komplett rein und hat danach noch Luft. Mehr Modell = bessere Qualität = weniger manuelle Korrekturen.
Prefill ist auf den 4090s natürlich schneller. Gratulation, dein kleineres Modell antwortet schneller und trotzdem schlechter.
Und iterativ arbeiten muss man so oder so, obs nun lokal, mit Claude oder ChatGPT ist - mir persönlich wären solche Geschwindigkeiten für den produktiven Einsatz ebenfalls zu langsam.