Was kann man alles mit Ollama auf ältere Hardware noch machen?

Drakon111

Cadet 3rd Year
Registriert
Jan. 2026
Beiträge
63
Moin!

Wollte ein bisschen experimentieren, mit KI, daher habe ich auf mein etwas älteren Notebook, Ollama und erstmal qwen3: 8b installiert, ist zwar nutzbar, aber wenn man Zeit hat, für die Antwort. Da ich in der Richtung eher sehr wenig Ahnung habe, würde ich gerne wissen, was man als alternative nehmen kann?

Bin wirklich offen, was man da alles mit machen kann

Das Notebook soll erstmal bleiben um zu testen, ob das was für mich ist oder nicht

Hardware das Notebook:
Lenovo y50-70
I7 4720hq
GTX 960 m
8 GB RAM
256 GB SSD
Ubuntu basis Distro
 
Die Hardware ist schlicht zu alt um LLMs sinnvoll laufen zu lassen.
 
Na was Kleineres. Die Modelle mit 4B und 1,7B Parametern sind schneller, aber dementsprechend dümmer. Oder lfM2.5 1,2B.
 
  • Gefällt mir
Reaktionen: Mar1u5 und rollmoped
Probier es nicht mit Ollama - da ist der Support für Vulkan noch experimentell. Versuch es mit LM Studio: https://lmstudio.ai/

Qwen3 kann da drauf laufen, aber 8b Parameter sind zu viel für die GPU. Geh auf 4b Parameter runter. Falls du mit deutsch-sprachigen Outputs arbeiten magst, nimm lieber ein Gemma-Modell. 4b Parameter mit 4bit Quantisierung sollte drauf tun. Kann aber die Genauigkeit, also Qualität der Wiedergabe anhand der Eingabe, reduzieren.
 
tomgit schrieb:
Qwen3 kann da drauf laufen, aber 8b Parameter sind zu viel für die GPU
Läuft zwar darauf, aber wie in meinen ersten Post geschrieben habe, man braucht viel Geduld
 
  • Gefällt mir
Reaktionen: JumpingCat
Weil es zu groß für die GPU ist und deswegen auf der CPU läuft.
Selbst in der kleinsten Variante ist es 5,2GB groß. Das passt nicht in 4GB VRAM.
 
Man muss mMn einfach realistisch sein, dass es mit der Hardware wenig Spaß machen wird. Entweder hast du halbwegs nutzbare Netzwerke, die eben super langsam sind oder sehr kleine Netzwerke die halbwegs schnell laufen, aber dafür einfach schlecht sind.

Ich habe diese ganz kleinen Netzwerke jetzt noch nicht getestet, aber selbst die mit 12B machen noch genug nicht nachvollziehbares Zeug. Eingeschränkte Wortwahl, Halluzinationen, nicht befolgen von Prompts, vernachlässigen von Informationen im Kontextfenster etc.

Was willst du denn realistischer Weise mal damit machen? Eigene Texte schöner schreiben lassen? Konversationen führen?
Selbst die ganz großen und rechenintensiven lokalen Netzwerken sind meilenweit von ChatGPT, Gemini etc. entfernt. Die winzigen, super quantifizierten Netzwerke, die auf deiner Hardware laufen, sind dementsprechend noch viel schlechter/dümmer.
 
Die Hardware ist doch super für KI. Man braucht nur eine RTX Pro 6000 Blackwell reinstecken und ab geht die Rakete.
 
  • Gefällt mir
Reaktionen: dms
Um den Einstieg zu machen, mind. 16 GB RAM. Und eine Grafikkarte die Raytracing unterstützt mit min. 8 GB VRAM. Dann kannst die ganz kleinen Modelle laufen lassen. Bei 8GB VRAM würde ich Modelle wählen die max. 6 GB groß sind.
Momentan versucht du mit einem alten Pferd zum Mond zu kommen.
 
Ich weiß, dass die Hardware nicht die beste ist, ist nur zum Testen, halt läuft so was überhaupt auf dem Notebook, wenn ja, wie schnell und was kann man überhaupt machen. Ich weiß, das es selbst High End Hardware sehr stark ins Schwitzen kommt, bei so was

Was ich bis jetzt gemacht habe:
Kalender erzeugen lassen (ohne genaueren angaben)
Hundenamen aufzählen lassen.
Bisschen geschrieben.

Was ich vorhabe:
Einfach ein bisschen Testen, was damit geht.
 
grand_sniper schrieb:
Um den Einstieg zu machen, mind. 16 GB RAM. Und eine Grafikkarte die Raytracing unterstützt mit min. 8 GB VRAM. Dann kannst die ganz kleinen Modelle laufen lassen.
Sorry, aber das ist absoluter Unfug. Im Rahmen eines Papers habe ich lokale Sprachmodelle auf mehreren Systemen getestet, unter anderem auf einem ThinkPad X12 mit 16GB RAM. Nicht nur teilt sich da die Iris Xe Graphics G7 mit ihren 96 EUs den Speicher mit dem Prozessor, sondern auch den sustained load von 12W. Und selbst darauf liefen schon Gemma 2.5 in den kleineren Ausführungen in brauchbarer Geschwindigkeit. Und die GPU hat auch keinen Raytracing Support.

Umgekehrt haben die ganz teuren Server-Karten von Nvidia (H200, B200) auch keine RT Cores drauf - und unterstützen nicht mal Graphic Rendering.
 
@tomgit Ja sorry, war von mir unpräzise hingeschrieben. Raytracing habe ich nur erwähnt, um eine zeitliche Einordnung einer möglichen Grafikkarte zu erleichtern. Der Ersteller des Themas kennt sich ja nicht aus, und ich wollte nicht zu tief einsteigen. Am besten wäre es, wenn er sich ein Einstiegsvideo dazu mal ansieht.
Klar kann man immer die möglichst kleinste LLM auch zum Laufen bekommen. Auch auf seiner Hardware, aber zu welcher Qualität und Performance? Er bemängelt ja die schlechte Performance, die an dem zu großen Modell liegt. Bei 4 GB VRAM max. ein 3 GB Modell nehmen, wegen Overhead, Kontextlänge ... Und man kann auch schnell die Lust daran verlieren, wenn nur Müll dabei herauskommt. Einige Modelle scheint es in neueren Versionen in sehr klein schon gar nicht mehr zu geben.
Nvidia mit CUDA ist quasi Standard. Die AMD Grafikkarten können es immer besser, zicken ab und zu herum.
Mit Intel habe ich keine Erfahrung. Auf einer RX 5700 habe ich es z.B. nicht sauber hin bekommen und war mir zu langsam.
Und von den Pro-Grafikarten wollen wir in seinem Fall ja gar nicht sprechen.
 
Zuletzt bearbeitet:
tomgit schrieb:
in den kleineren Ausführungen in brauchbarer Geschwindigkeit.
Aber was waren die Aufgaben? Der TE scheint ja weniger nach spezifischen Modellen zu suchen, sondern nach Ideen, was man damit machen kann.
 
Garmor schrieb:
Der TE scheint ja weniger nach spezifischen Modellen zu suchen, sondern nach Ideen, was man damit machen kann.
Deswegen habe ich es offen gelassen, da man sehr viel mit machen kann, selbst Lokal
 
Zurück
Oben