Mit solchen Dollar-Deals bekommt man künftig bei Chatbots, genau wie bei Suchmaschinen, nicht die beste Antwort, sondern die am teuersten gekaufte. Das zeigt mir, das lokale LMs wichtiger werden in Zukunft und nicht umgekehrt.
Ich nutze immer mehr LM Studio bei meinem Debian 12 und meinem Windows 10 (CUDA mit 5070 Ti). Soweit ich weiß geht rockm nicht unter Windows, nur Linux. Aber von LM Studio gibt es eine separate Windows-Variante für Ryzen AI (nicht AMD-Karten). Wegen lokalen LMs bin ich extra auf Nvidia umgestiegen, weil AMD und Intel es mit Grafikkarten und LMs nicht hinkriegen. Intels oneAPI nutze ich auf meinem Laptop mit einer i5 12450H CPU (4c+4c/12T) und Intel UHD Graphics (3Xe/48EU/384SP), weil das sogar in den offiziellen Repos von dem zwei Jahre alten Debian 12 Stable drin ist. Das erlaubt dann Intels iGPU mit Vulkan in LM Studio zu nutzen (Speeddown!!! von 0,60x ggü. CPU, nämlich von 3,26 Tokens/s auf 1,96). Ob das auch für Intels dGPUs geht, weiß ich nicht oder AMDs iGPUs. Meine 5070 Ti schaft 10x bis 11x mit CUDA ggü. Ryzen 9950x mit 16T. Übrigens ist Peak-Perf mit reiner CPU 6T bei allen LMs, und nicht etwa 16T oder 32T. CUDA ist im Schnitt 1,21x ggü. Vulkan (zumindest auf meiner Geforce).