News KI-Boom und Speicherkrise: Apple schränkt RAM des Mac mini und Mac Studio weiter ein

Tsu schrieb:
Das Alleinstellungsmerkmal der Mac PCs ist der unified memory, d. h. der Arbeitsspeicher ist auch annähernd GPU Speicher.
Das ist kein Alleinstellungsmerkmal, sondern typische Architektur für APUs, die es seit Jahrzehnten gibt, und aktuell Konkurrenz von AMDs Ryzen AI Chips hat.

SheepShaver schrieb:
48GB VRAM ist für ernsthaftes Coding mit großen Codebases eine Totgeburt. ~34B Q4 rein, kaum Kontext-Puffer, bei mehreren Files fliegt dir das Modell in den RAM raus und die Performance geht in den Keller.
  1. Es ist ganz sicher keine Totgeburt.
  2. Große Projekte stumpf komplett in den Kontext zu schieben ist die denkbar schlechteste Strategie, sowohl im Bezug auf Performance als auch im Bezug zum Output.

SheepShaver schrieb:
Das ist kein Setup für produktives Arbeiten.
Ein Mac Studio M4 Max mit 128GB für einen geringeren Preis lädt ein 70B-Modell komplett rein und hat danach noch Luft. Mehr Modell = bessere Qualität = weniger manuelle Korrekturen.
Prefill ist auf den 4090s natürlich schneller. Gratulation, dein kleineres Modell antwortet schneller und trotzdem schlechter.
Auch hier: Die Aussage "Mehr Parameter, bessere Ergebnisse" ist in dieser pauschalen Form schlicht falsch, und das nicht erst seit dem Agents-Trend. Zumal dir dein 70B Model im Speicher auch keine Ente schießt, wenn du dich am Ende mit 5-20T/s abfinden musst. Hat schon seinen Grund, warum die meisten "Tests" die Inferenz mit Modellen <30B testen, egal wie viel Speicher das Teil hat.

Und iterativ arbeiten muss man so oder so, obs nun lokal, mit Claude oder ChatGPT ist - mir persönlich wären solche Geschwindigkeiten für den produktiven Einsatz ebenfalls zu langsam.
 
@Bright0001
Nutz mal dein lokales LLM von Claude Code aus und gib ihm einfachste Aufgaben in einem mittelgroßen Repo. Selbst bei 70B Modellen und 128Gb Unified Memory stößt man schnell an Grenzen. In der Entwicklung nutzen wir einen Cluster von mehreren DGX Spark um Arbeiten mit halbwegs annehmbaren Antwortzeiten zu ermöglichen.
Wer nur einen bisschen Chat betreiben möchte und einen kleinen Code Assistenten will, meinetwegen, aber für ernsthaftes Arbeiten, wo auch größere Refactoring Tasks an der Tagesordnung sind oder der Agent versucht, viel parallel zu erledigen, no Chance.
 
Sweepi schrieb:
LLM auf CPUs ist wesentlicher langsamer
LLM's laufen auf Apple auf ML Cores und nicht der CPU..
Sweepi schrieb:
Zudem ist das Setup "Mac Studio kaufen" wesentlich aufwändiger als "PC mit 5x/6x Blackwell 6000 aufstellen".
Ähh nope - du installierst einfach LM Studio, wählst das Modell aus, welches du haben möchtest und los gehts. Das einzige was dich limitiert ist deine Internet Leitung, wenn du ein Model erstmal downloadest...

Aber was erwartet man von jemanden, der in seiner Signatur Apple kritisiert.
 
  • Gefällt mir
Reaktionen: Sirhaubinger
Schade um den 128Gb UM m4 Max im Studio.

War sicherlich die einfachste Art größere open weight Modelle lokal zu betreiben. Guter Preis, quasi plug and play.

Die UM Einschränkungen beim Mini sind eher irrelevant. Der M4/M4 Pro ist ohnehin nicht so brauchbar wegen des schmalen Speichdurchsatzes.

In dem Thread wird viel wegen unterschiedlicher Use Cases diskutiert. Grundsätzlich kommt man auch lokal mit 32GB UM schon sehr weit - wenn man weiß was man tut und nicht den Anspruch hat eine größere Code Base 1shot zu refakturieren, was ich zumindest als riskant erachte.
 
  • Gefällt mir
Reaktionen: Bright0001
@SheepShaver Und was sagt uns das dann? Ein DGX Cluster lüppt besser als meine einzelne 5090? Dafür brauchen wir kein Experiment, das unterschreibe ich auch so. Der Vergleich wäre ja aber der M4 Max. :lol:

Das ist zugegeben nur Bauchgefühl, aber unter der Annahme dass ein <=30B Model um Faktor 3x-5x schneller als ein 70B Model generiert, Agenten also entsprechende Anzahl an Iterationen "zur Verfügung" haben um 70B zu schlagen, bin ich mir gar nicht so sicher, dass ein 70B Model den Vergleich gewinnt.

Und die Sinnhaftigkeit davon, den gesamten Code auf gut Glück in den Kontext zu schieben, stell ich auch weiterhin in Frage.

scheru schrieb:
wenn man weiß was man tut und nicht den Anspruch hat eine größere Code Base 1shot zu refakturieren, was ich zumindest als riskant erachte.
Also riskant ist es immer, das eigentliche Problem ist ja eher, dass mit großem Kontext die Relevanz von jedem einzelnen Token abnimmt, und damit auch die Qualität des Outputs. Gibt man einem LLM eine Klasse und sagt "schreib mir all Unit-Tests dazu" dann funktioniert das gut, füllt man ein 250k Fenster (oder wie viel auch immer) einfach mit dem gesamten Source, und sagt "schreib mir Unit-Tests für Klasse XY", dann wird das Ergebnis im direkten Vergleich einfach schlechter ausfallen.

Man kann das auch ohne jeglichen Code testen: Einfach mal den Kontext mit normalem Text, also bspw. einem Buch/-ausschnitten füllen, und dann das LLM bitten, eine bestimmte Frage zu beantworten und Textstellen wörtlich zu zitieren; Daran scheiterte selbst ChatGPT 4/4o, und ich vermute, dass das mit 5 auch nicht groß anders sein wird. :hammer_alt:
 
HOCLN2 schrieb:
LLM's laufen auf Apple auf ML Cores und nicht der CPU..
Die laufen in 99% der Anwendungsfälle wo man die 512 GiB RAM Version kauft auf der Apple GPU.

HOCLN2 schrieb:
nope - du installierst einfach LM Studio,
Es ging um den Aufwand für das Hardware Setup...

Edit: Ah sehe gerade, ich hatte beim Satz Umstellen die Bedeutung invertiert.

Ich hatte anstatt
Sweepi schrieb:
Zudem ist das Setup "Mac Studio kaufen" wesentlich weniger aufwändig als "PC mit 5x/6x Blackwell 6000 aufstellen".

versehentlich folgendes geschrieben:
Sweepi schrieb:
Zudem ist das Setup "Mac Studio kaufen" wesentlich aufwändiger als "PC mit 5x/6x Blackwell 6000 aufstellen".
 
Zuletzt bearbeitet:
Bright0001 schrieb:
@SheepShaver Und was sagt uns das dann? Ein DGX Cluster lüppt besser als meine einzelne 5090? Dafür brauchen wir kein Experiment, das unterschreibe ich auch so. Der Vergleich wäre ja aber der M4 Max. :lol:
Es geht um den verfügbaren Speicher. Ein einzelner DGX Spark mit 128 GB shared memory geht schnell in die Knie, bei entsprechend komplexeren Aufgaben. Der Mac Studio mit ebenfalls 128 GB in dem Fall natürlich auch. Aber die oben angesprochene Variante mit 2 4090 ist dementsprechend noch viel früher an der Grenze. Da spielt es überhaupt keine Rolle, um wie viel schneller die 4090 ist. Am Ende ist das ausschlaggebende der verfügbare Speicher für Model, Kontext und Inferenz.
Aufgaben wie Loganalyse, wofür man typischer weise lokale Modelle verwenden möchte, fällt da sowieso komplett raus.

Bright0001 schrieb:
Und die Sinnhaftigkeit davon, den gesamten Code auf gut Glück in den Kontext zu schieben, stell ich auch weiterhin in Frage.
Was heisst hier "in den Kontext" schieben? Bei komplexen Aufgaben muss der Agent unter Umständen sehr viel Informationen zusammentragen, damit er überhaupt eine sinnvolle Entscheidung treffen kann. Wir reden hier nicht von Code Completion im Editor oder Copy-Paste von Code Schnipseln.

48GB klingt erstmal viel, aber das Modell selbst (~40GB für 34B Q4) lässt kaum noch Luft. Der KV-Cache für einen typischen Coding-Kontext also relevante Files, Interfaces, Referenz-Implementierungen, Chat-Verlauf, Stack Traces etc. landet bei mittleren Projekten schnell bei 50-100K Token, was nochmal 10-20GB on top bedeutet. Mit 128GB ladäst du ein 70B-Modell rein und hast danach noch genügend Puffer für lange Sessions ohne Kontextverlust.
Mit gutem Prompt Engineering kannst du den Kontext schlank halten aber das bedeutet, du verbringst Zeit damit dem Agenten zu erklären was er nicht selbst rausfinden soll, statt einfach arbeiten zu lassen. Irgendwann ist das Limit trotzdem erreicht.
 
aid0nex schrieb:
Die werden Mengen und Preise bekommen, die euch nicht mal im Ansatz angeboten werden.
Das ist mir schon klar und da hast Du sicher Recht, aber wir bestellen ja auch über unseren jahrelangen HW Anbieter und FSAS ist ja nicht gerade klein und muss trotzdem schauen, was sie überhaupt an HW bekommen. ;)
 
Ich denke man bereitet die M5 Macs vor und schränkt aktuelle M4 Macs mit mehr als nötigem Speicher ein. Mal schauen was da noch so dieses Jahr passiert bei Apple, auch wegen des CEO Wechsels.
 
Weil hier viele von lokalen LLM reden: Was würdet ihr auf einem M4 laufen lassen (und wie)?
 
Sweepi schrieb:
Es ging um den Aufwand für das Hardware Setup...
Von welchen Aufwand redest du denn? Vom Finanziellen Aufwand? Weil sonst sehe ich da kein Aufwand. Ich nehme meine 15-20k € in die Hand und kaufe mir ein Mac Studio im Vollausbau, sowie installiere LM Studio drauf. Fertig.

Aber das selbe gilt auch für Strix Halo (unter Windows zumindest) oder Nvidia Spark (unter Ubuntu soll man per Snap sehr ez Modelle betreiben können).

Ein DIY PC mit mehreren 4090/5090 oder ähnliches sehe ich da viel aufwendiger.
 
HOCLN2 schrieb:
Ich nehme meine 15-20k € in die Hand und kaufe mir ein Mac Studio im Vollausbau, sowie installiere LM Studio drauf. Fertig.
Mein Reden!
 
Zurück
Oben