Von "Nachteilen" würde ich nicht unbedingt sprechen.
# Performance/Anforderungen an Hardware
Hält sich in Grenzen: Ich fahre eine RTX 5060 16GB vRAM ti für große Sachen, und wenn es Zeit hat,
nutze ich eine Kiste ohne extra GPU: CPU: AMD Ryzen 5 5500U with Radeon Graphics (12) @ 2.100GHz. Es
ist eine Frage der Optimierung, nicht der reinen Gewalt.
# nur lokal verfügbar (mit gewissem Aufwand kann man das umgehen)
Ich würde "nur" streichen. Das ist gerade der Vorteil, wenn man die Hoheit über seine Daten behalten
will. Wer von unterwegs Zugriff braucht, baut sich ein VPN (z.B. Wireguard) auf – dann ist die
"Limitierung" Geschichte und man behält die volle Kontrolle.
# je nach Anwendungsfall versch. Modelle nötig die Storage verbrauchen
Ja, so ist das in der Welt – ohne ein gewisses Maß an Speicher funktioniert nicht mal ein OS. Auf
der anderen Seite sind gerade quantisierte Modelle nun auch nicht so riesig, und die laufen dann
sogar langsam auf einem Raspberry Pi 5 :-)
# Gedächtnis nicht vorhanden
Das kannst du mit einem RAG ändern. Ich behaupte sogar, dass es elementar ist, ein RAG – besser: ein
Hybrid-RAG – zu implementieren, wenn man das LLM nicht nur als Spielzeug verwenden will. Wer einmal
gesehen hat, wie man die KI mit eigenen Daten füttert, sodass sie wirklich weiß, wovon sie redet,
der will nicht mehr zum "nackten" LLM zurück.
# Cutoff der Trainingsdaten liefern ca 2 Jahre alte Informationen (besonders bei IT Themen stellenweise ausschlaggebend)
Auch hier kommt wieder das RAG ins Spiel. Dem Modell werden dann einfach die nötigen Infos
"zugeflüstert", sozusagen vom Influencer-RAG. So wird das Modell an deine aktuellen IT-Dokus und
Datenbanken gebunden und halluziniert nicht mehr.
# Hardwareisolation/containerization gar nicht so trivial (rootless)
Bin nicht sicher, was du genau für ein Problem meinst, aber sowas wie Docker, QEMU, Proxmox (für das
schöne Setup) oder OpenStack (wenn es eine Nummer größer sein soll) sind doch genau dafür da.
Rootless-Betrieb und saubere Isolation sind bei modernen Setups heute eher die Kür als ein
unlösbares Problem.
LG Olav
PS: Ich fahre mein Setting mt Ollama, und auf Blech, lama.cpp hatte ich mir angesehen, aber nur um 2% mehr Power zu bekommen, ewig zu basteln, war es mir dann nicht Wert. Müssen dann doch in den Settings der Modlele geöndert werden lege ich dafür einfach ein neues Modelfile an :-)