LM Studio -> gibt es Endlosschleifen ?

Kraeuterbutter · Mittwoch um 11:02

Ich hab jetzt mal lokale LLM versucht, mit LM Studio (Erstversuch)

vielleicht kann mir jemand was zu diesem Verhalten sagen, da ich sowas noch nie mit ChatGPT online erlebt hätte:

(also LM Studio läuft auf meiner 4080 (16GB Ram) sehr sehr flott - hätte ich nicht erwartet)

hier nun aber:
auch auf einem Laptop versucht (32GB RAM, keine dezitierte Grafikkarte, sehr langsam -> also nur im RAM-Speicher (ca. 13GB))
GPT-oss-20b

ca 3 Wörter pro Sekunde (High Reasoning)

hab eine Anfrage gestellt, und vergessen, dass die im Hintergrund läuft...

Stell dir vor, du bist ein Energieberater und sollst einen Häuselbauer seine Fragen beantworten:ich bin der Häuselbauerich will mir ein Haus bauenPassivhaus, 150m² Wohnfläche, unterkellertnicht allerbester, aber sehr guter passivhaus standard soll verbaut seinZUSÄTRZLICH soll nun aber auch noch eine kleine Wärmpepumpe zum Einsatz kommenam Dach sollen 20kwp Solarzellen montiert seinim Keller 40kWh Akku

könnte so ein Haus einen Winter im Osten Österreichs mit bis zu -15°C völlig offgrid - also ohne Strom aus dem netz - überstehen

weitere Frage: was würde so ein haus kosten?wenn es 50 jahre lang hält, die wärmpeumpe einmal ausgetauscht werden muss:wieviel könnte hier eingespart werden im vergleich zu einem normal gedämmten Haus mit normal-großer Wärmepumpeoder gar im Vergleich zu einem Altbau

also bezogen auf die Heizkosten

könnte es sich armortisieren ?

nach ca. 2 Stunden hat er nun - rauskopiert ins Word - 86 Seiten im Word vollgeschrieben...

was komisch ist:
die ersten ca. 15-20 Seiten des Gedankenganges schaut vernünftig aus.. (mit Wiederholungen -denke das gehört zum "Denkprozess" dazu)
da kann man mitlesen, wie er sich überlegt, dass ich z.b. auf Deutsch die Anfrage gestellt habe und deshalb er auf Deutsch auch antworten sollte
(die ganzen Überlegungen laufen dann aber auf Englisch ab)

ab dann fängt es an, "auseinanderzufallen"
die Antwort dann - auch ewig lang - ist nur noch Blödsinn

also wie gesagt: ca. 20 Seiten oder so sind "vernünftig" (was er an Zahlen und Werte jetzt doch zusammenhaluziniert hat hab ich nicht überprüft)

aber dann weiter hinten wirds komisch:

ein Auszug:
"
But building house good. Energy- and alt in: E, ...
? so - ?
Alt: 1. Alt könntest? Unterstand – the Hä
We Energy to the House Berater mit… ...comment Channel energy assistant? #? comment? final?
System energy: energy of off. (Pass...?) Passiv Standard ... offstream.
Now want his energies - energy-Standard housebe
Let's also 150m? passStandard, einmal Heizung - etc.
The solar-pep? ... Solar? 15?
Hezd? Alt? - net? be very good pass? He House?
Wait: network standard?So w/ off?#energy W. Energy, 1. assistant<|channel|>St. The answer model: Pass. ... questions. Assistant also.
We arm channels? So energy office?
"

Kaudawelsch

zum Vergleich der Denkprozess am Anfang, sah "logischer" aus:

We should consider that 150 m^2 passive house with good insulation will have a heating load of about 15-20 W/m^2, so about 2.5 kW typical heat loss. At -15°C inside maybe 20°C? Actually internal temp probably 19°C average winter. The building envelope must maintain that.

The heat pump might be a small air-source or ground-source? They didn't specify; but "kleine Wärmepumpe" suggests maybe a smaller unit for a passive house: could be an air-source HP with COP ~4-5 at -15°C? Actually at low temperatures, the COP drops. For 150 m^2 building and moderate heating load maybe need about 3 kW of heat pump capacity.

The PV system: 20 kWp on roof: in Austria average solar irradiation ~900-1000 kWh/m^2 per year. At -15°C environment, but winter production is lower due to snow. But typical yield maybe 850 kWh/kWp? Actually Austrian winter yields maybe 200 kWh/kWp per month at mid-latitude? Let's approximate: 20 kWp * 850 = 17 kWh/day average?

und nun bei Seite 85-86:
Endlosschleife ?

die finale Frage von ihm: "We Talk????? " --> er schreibt ca. jede Sekunde 2 Fragezeichen dazu... das geht endlos weiter:
I want to know was?
Okay, "Energy Standard Sol" off off. .. Build? Could be amort Offbuild? Also w/ -? house?
Energieberater im (pass)? So I hold the pass? Pass ...? The house Be? k? ... Chat
We need a 4? Build?
What? We can how, the passive? I: House. Pass. The question: small standard off? also ein Winter... ? The AC (He? normal?; be??
But I think there is no energy usage. Also... Let's consider that we have a standard.
Now d-stand out? The system. So:
We need to do? 50, but the house is - Pass
So? ...
Commentary: We had the building.
We talk? The??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????

gekürzt.. er hat mittlreweile schon 3 Seiten voll mit Fragezeichen gemacht

was ist hier falsch gelaufen?

ich hab noch nie so ein Verhalten bei Chatgpt online erlebt

liegt es an dieser Kontext-Länge?

beendet so ein Modell die Anfrage nicht bevor sie an die Grenze kommt?
muss ich als User dafür sorgen keine zu langen Anfragen zu stellen ?

tomgit · Mittwoch um 11:27

Kraeuterbutter schrieb:
zum Vergleich der Denkprozess am Anfang, sah "logischer" aus:

gpt-oss' Denkprozess ist auch nicht wirklich ausgeklügelt. Oftmals wiederholt es einfach nur die Anfrage für sich selbst. Andere Modelle machen das besser, würde generell eher Gemma empfehlen.

Kraeuterbutter schrieb:
liegt es an dieser Kontext-Länge?

Kontext-Länge ist einer der Faktoren, du kannst auch die Temperatur reduzieren. Außerdem ist MXFP4 auch ein qualitativ reduziertes Modell, eher mit FP8 versuchen. Reduzierte Genauigkeit sollte sich gerade bei "Experten"-Fragen eher durchschlagen.

Kraeuterbutter schrieb:
beendet so ein Modell die Anfrage nicht bevor sie an die Grenze kommt?

Manche Modelle oder neuere Versionen tun dies. Habe auch schon erlebt, dass LM Studio einfach weitermacht. Theoretisch sollten da auch andere Mechanismen zwischengeschaltet sein, z.B. Prompt Caching, welche den Kontext bzw. die Promptlänge reduzieren.

Kraeuterbutter schrieb:
muss ich als User dafür sorgen keine zu langen Anfragen zu stellen ?

Kann auch einfach nur ein Bug gewesen sein. Tritt das bei jeder dieser Anfragen auf? Besondersheit an Transformern ist nunmal, dass die Ausgabe non-deterministisch ist. Das macht ja Red Teaming so spannend, weil Bugs sind hier keine Lücken per se, sondern replizierbare Angriffe sind es.

TK-Shockwave · Mittwoch um 11:35

Ja das Problem hatte ich vor kurzem auch, liegt mehr am Problem mit Context Window/Memory Limit.

Kraeuterbutter · Mittwoch um 12:17

Danke..
bis jetzt - hab erst 1-2 Tage rumgespielt - hatte ich das Problem noch nicht
kenn mich auch nicht aus..
am Laptop hab ich mehrere modelle installiert (auch Gemma 3 4B, Llama 3. 18B in 2 Varianten, ...)

dachte GPT-OSS 20B- --> höchste Zahl, also muss das das Beste sein lol
so einfach ist es wohl weiß Gott nicht

vor allem hat mir ChatGPT online innerhalb von Sekunden auf die Frage eine viel besssere Antwort geliefert
(beim Denkprozess beim lokalen Versuch konnte ich - als es logisch aussah - auf die Schnelle schon paar Fehler finden..

z.b. wurde die Zahl für die Jahresproduktion von der KI angegeben. und einen Satz später ist die KI dann "draufgekommen" dass sie diese Jahreszahl noch mit 365 multiplizieren müsse um auf die Jahreszahl zu kommen.. was naütrlich einen viel zu hohen Wert ergab)

Ergänzung (Mittwoch um 12:22)

haha.. die Antwort von gemma -3-4b auf den gleichen Input war aber jetzt auch sonderbar:

google/gemma-3-4b

ich bin der Häusel, und ich will mir ein Haus bauen

kurz und einprägsam

Keuleman · Mittwoch um 12:27

Auch ChatGPT fängt irgendwann an... der Thread wird zäh, es wird sich nicht mehr an die vorgegebenen Sachen gehalten (Prompting LTX2)... ich fange dann immer einen neuen Thread an und archiviere den alten. Erfahrungsgemäss nach ca. 1 Monat regelmässiger Nutzung wird es unbrauchbar von Geschwindigkeit und Output her.

tomgit · Mittwoch um 12:30

Kraeuterbutter schrieb:
dachte GPT-OSS 20B- --> höchste Zahl, also muss das das Beste sein lol
so einfach ist es wohl weiß Gott nicht

Nicht ganz. Die Parameter-Anzahl (also 20b, 3b, etc.) gibt an, wie groß das neuronale Netz ist. Da gibt es aber noch mehr zu beachten, eben die Quantisierung (wie im Screenshot MXFP4), welche die Genauigkeit der Übergänge bestimmt. Außerdem kannst du bei gleicher Hardware mit kleineren Modellen ein größeres Kontextfenster setzen, wodurch die Wahrscheinlichkeiten von Hallus reduziert werden.

PrussianHeathen · Mittwoch um 12:32

Kraeuterbutter schrieb:
ich hab noch nie so ein Verhalten bei Chatgpt online erlebt

Die Online Chatbots zeigen dir nie den Denkprozess.
Mit GPT-OSS 20B habe ich auch keine guten Erfahrungen. Endloses Gelaber, schlechte Ergebnisse.

Selbst auf meinem Laptop laufen die Modelle 100% auf der iGPU. Die 780M ist viel schneller als die 8C/16T CPU.

Meine Empfehlungen
Fantasy/General: Gemma3-12B / Qwen3-vl-30B
Coding/Problems: Qwen3 Coder 30B (läuft schnell da nur 3.5B aktiv sind) / PHI-4

Backfisch · Mittwoch um 13:43

tomgit schrieb:
Besondersheit an Transformern ist nunmal, dass die Ausgabe non-deterministisch ist.

Die Ausgabe eines Transformers ist zu 100% deterministisch. Beziehst Du dich vielleicht auf das token sampling? Hier wird in der Tat gewürfelt - wobei das Würfeln im Computer streng genommen ebenfalls deterministisch erfolgt

Kraeuterbutter schrieb:
vor allem hat mir ChatGPT online innerhalb von Sekunden auf die Frage eine viel besssere Antwort geliefert

Online nutzt Du ein WESENTLICH größeres Modell. Da kann weder gpt-20b-foss, noch die Variante gpt-120b-foss mithalten.

Kraeuterbutter schrieb:
beendet so ein Modell die Anfrage nicht bevor sie an die Grenze kommt?

Nein, tatsächlich kann das sehr unterschiedlich gehandhabt werden. Mit etwas Pech wird aber nie ein Stop-Token erzeugt ...

Kraeuterbutter schrieb:
was ist hier falsch gelaufen?

Lokale, kleine, hoch quantisierte Modelle sind einfach deutlich weniger leistungsfähig als das, was Du von ChatGPT gewohnt bist und machen viel mehr Fehler. Gelegentlich hilft es an einigen Parametern zu spielen, um die Wahrscheinlichkeit von Token-Wiederholungen zu reduzieren. Bitte prüfe, ob LM Studio alles korrekt eingestellt hat.

Kraeuterbutter · Mittwoch um 14:12

PrussianHeathen schrieb:
Selbst auf meinem Laptop laufen die Modelle 100% auf der iGPU. Die 780M ist viel schneller als die 8C/16T CPU.

Proz ist ein AMD Ryzen 7 Pro 7735U with Radeon Graphics (?)
(müsste also eine Radeon 680M sein )

aus dem Taskmanager:
die iGPU selber hat 1GB Speicher (?)

bis zu 15,4GB werden vom RAM (32GB) abgezwackt,
hier am Screenshot sind also 5,1GB für die Grafikkarte reserviert
korrekt ?

wenn ich dann eine kurze Frage stelle, kreig ich vielleicht eine schnellere Antwort, da alles mit den 1GB VRAM gehen?
erst wenns mehr wird, wirds langsamer weil dann der langsamere RAM zum Zug kommt ?

oder ist es sowieso langsam, sobald das Modell nicht mehr am Stück komplett in den VRAM passt ?

PrussianHeathen schrieb:
Meine Empfehlungen
Fantasy/General: Gemma3-12B / Qwen3-vl-30B
Coding/Problems: Qwen3 Coder 30B (läuft schnell da nur 3.5B aktiv sind) / PHI-4

👍

Ergänzung (Mittwoch um 14:20)

Backfisch schrieb:
Online nutzt Du ein WESENTLICH größeres Modell. Da kann weder gpt-20b-foss, noch die Variante gpt-120b-foss mithalten.

Backfisch schrieb:
Lokale, kleine, hoch quantisierte Modelle sind einfach deutlich weniger leistungsfähig als das, was Du von ChatGPT gewohnt bist und machen viel mehr Fehler.

so cool es ist, dass die KI offline zuhause am Rechner läuft (und mit der RTX 4080 und kleines modell das komplett in die 16GB passen wirklich schnell !)
frag ich mich, ob ich für mich einen usecase so finde..

solange ich bei meiner Nutzung nicht an Grenzen komme (hab seit anbeginn das 20Euro Abo von OpenAI .. hmm.. auch schon 3 Jahre her, also mittlerweile 720 Euro an OpenAI überwiesen)
seh ich für mich wenig Gründe nicht die Online-Variante zu nutzen..

man ist sich ja so schon oft unsicher, ob das was die KI ausspuckt korrekt ist..
mit der Offline-Variante kann man sich quasi sicher sein, dass es IMMER schlechter ist als es eigentlich bereits sein könnte

auch bei der Bilderkennung: einerseits beeindruckend, wie das teil in 1-4 Sekunden lokal ein Bild analysiert und dann beschreiben kann..

aber der gleiche Versuch mit Chatgpt online zeigt dann doch viel bessere und im Vergleich praktisch 100% korrekte Ergebnisse (mit Wimmelbildern probiert) zustande kommen..
bei der Lokalen Variante sind immer 10-20% der Beschreibung falsch

so hoch-datensensible Dinge teile ich mit der KI jetzt auch nicht, dass ich (der ein Facebook-Konto, ein Meta-Konto hat, Whatsapp nutzt, ....) mir wegen DAtenschutz riesige Sorgen machen würde und so auf lokal bestehen würde...

Coden tu ich auch nicht
(wobei jetzt der optimale Zeitpunkt ist damit anzufangen, wei leinem die KI helfen kann, Dinge erklären kann, etc..)

im Moment ists ne Spielerei, die einerseits erstaunt, was so kleine Modelle alles wissen und schon können..
und andererseits eine Enttäuschung weil die Onlinevariante ChatGPT einfach immer besser ist

PrussianHeathen · Mittwoch um 15:09

Kraeuterbutter schrieb:
wenn ich dann eine kurze Frage stelle, kreig ich vielleicht eine schnellere Antwort, da alles mit den 1GB VRAM gehen?
erst wenns mehr wird, wirds langsamer weil dann der langsamere RAM zum Zug kommt ?

Dein Laptop hat keinen echten VRAM. Windows verwaltet das nur so aus legacy Gründen.
Generell is Windows schlechter als Linux und Mac beim Nutzen von "unified memory". Auf Linux gibt es auch ein 512MB VRAM wert, aber der ist praktisch egal.

Die MoE (Mixture of Experts) LLMs (Qwen3-vl-30B und Qwen3-coder-30B) konnen auch allein auf meiner 9070 XT laufen, obwohl die mit 19.64GB und 18.63GB nicht komplett in den VRAM passen.
Bei den LLMs sind maximal nur 8 von 128 Experten aktiv. Vielleicht lädt der bei mir nie die Experten für Chinesisch oder andere Fremdsprachen.

Du kannst auch andere AI anbieter ausprobieren oder nur kostenlose LLMs nutzen. Die sind meistens besser als LLMs, welche auf einer 4080 laufen.

Kraeuterbutter · Mittwoch um 15:13

ums Geld gehts mir nicht..

die 20 Euro (oder 40 wenn man 2 nutzt) im Monat ists mir wert...
ich glaub da müsst ich eher mal bei Disney+, Netflix und co schauen, wo ich Abos hab und oft mal 1-2 Monat keinen einzigen Film schaue -von wegen Kosten/Nutzen-Rechnung)
die LLMs nutze dich mittlerweile doch praktisch täglich

"MoE (Mixture of Experts)" ==> noch nie gehört
"Bei den LLMs sind maximal nur 8 von 128 Experten aktiv." ==> auch noch nie gehört..

wieder 2 Stichwörter um sich weitere infos zu holen, danke !

Suche

LM Studio -> gibt es Endlosschleifen ?

Kraeuterbutter

Admiral

tomgit

Rear Admiral

TK-Shockwave

Lt. Commander

Kraeuterbutter

Admiral

Keuleman

Lt. Junior Grade

tomgit

Rear Admiral

PrussianHeathen

Ensign

Backfisch

Lieutenant

Kraeuterbutter

Admiral

PrussianHeathen

Ensign

Kraeuterbutter

Admiral