MoinWoll schrieb:
Habe ihn jetzt auf 5600MHz reduziert und das 217GiB (GB war falsch) Modell läuft nun wirklich auf meinem System bei ~100% VRAM Belegung und 97% RAM Belegung.
Andersherum; 217GB ist schon richtig, es sind dann halt ~202GiB unter Windows, die aber auch als GB angezeigt werden.
Aber zugegeben noch nie daran gedacht - Erklärt aber, warum "sollte eigentlich nicht laufen" Modelle manchmal trotzdem liefen.
Und ändert natürlich auch deine Situation, zwischen 202 und 224 ist dann wieder ordentlich Puffer drin.
MoinWoll schrieb:
Mein eigentliches Ziel ist ein möglichst leistungsfähiges, lokal laufendes LLM mit einem Agenten-Framework (gibt bereits einige frei verfügbare) zu kombinieren, sodass ich z. B. automatisiert Dokumente und Daten analysieren und aufbereiten und Software entwickeln lassen kann, ohne ständig Error-Logs und neuen Code hin und her kopieren zu müssen.
Spannend, auch da gibt es viele Parallelen; Schreibe gerade an einer umfassenden Lösung, um alle Dateien auf dem Rechner indiziert und als Wissen für eine LLM verfügbar zu haben. Einerseits für die klassische semantischen Dateiensuche, andererseits um eine große Menge an Basiscode auch richtig verwertbar zu machen.
Bei meiner letzten Anstellung hatte ich bestimmt >25 Services/Projekte auf dem Rechner, davon viele in weiteren Ausbaustufen, Forks und Customlösungen für einzelne Kunden. Es kam dabei häufig vor, dass ich
wusste, dass ein Problem schon sicherlich irgendwo gelöst wurde, aber es gab halt keinen sinnvollen Weg, entsprechende Stellen dann auch tatsächlich zu finden.
Oder ein anderes Beispiel: Ein absolut riesiges Modul, der Monolith unter den Monolithen, mit vielen Implementierungen doppelt und dreifach drin, weil der damalige Hauptentwickler auf YAGNI nur mit "Gesundheit" reagiert hat - zumindest stell ich mir das so vor. Den ganzen Rotz einfach in eine LLM schmeißen zu können, und dann Fragen zu stellen, war ein Traum - aber selbst ist der Mann, also macht man sich nun halt seine eigenen Träume wahr.
Boimler schrieb:
Ist halt immer eine Kosten/Nutzen Rechnung. Und da KI sehr speicherintensiv ist, sind lokale Modelle schnell limitiert. Wenn RAM jetzt noch teurer wird, muss man sich schon fragen, ob der Output unbedingt eine lokale Berechnung erfordert oder nicht auch online abgewickelt werden kann.
Der Hauptvorteil ist eben die Tatsache, dass man keine Daten an Microsoft, OpenAI, Claude usw. schicken muss, ob nun sensibel oder nicht, was die praktische Anwendung im beruflichen Kontext massiv erleichtert - und mich auch im Bezug auf meine eigenen, private Daten besser schlafen lässt.
Eigene Cloud-Server/Instanzen wollen am Ende dann ja trotzdem noch gepflegt und bezahlt werden - da fühlt sich ein einmaliges Investment in eine Stange RAM deutlich schmerzfreier und einfacher an.