Was kann man alles mit Ollama auf ältere Hardware noch machen?

Drakon111 · 4. März 2026

Moin!

Wollte ein bisschen experimentieren, mit KI, daher habe ich auf mein etwas älteren Notebook, Ollama und erstmal qwen3: 8b installiert, ist zwar nutzbar, aber wenn man Zeit hat, für die Antwort. Da ich in der Richtung eher sehr wenig Ahnung habe, würde ich gerne wissen, was man als alternative nehmen kann?

Bin wirklich offen, was man da alles mit machen kann

Das Notebook soll erstmal bleiben um zu testen, ob das was für mich ist oder nicht

Hardware das Notebook:
Lenovo y50-70
I7 4720hq
GTX 960 m
8 GB RAM
256 GB SSD
Ubuntu basis Distro

4nanai · 4. März 2026

Die Hardware ist schlicht zu alt um LLMs sinnvoll laufen zu lassen.

Garmor · 4. März 2026

Na was Kleineres. Die Modelle mit 4B und 1,7B Parametern sind schneller, aber dementsprechend dümmer. Oder lfM2.5 1,2B.

JumpingCat · 4. März 2026

Im Kontext von AI/LLM ist ältere Hardware schon alles was älter als 1 Jahr ist.

Drakon111 schrieb:
I7 4720hq

11 Jahre alt.

Du kannst maximal nomic-embed-text-v2-moe in einer kleinen Größe versuchen. Je kleiner das Modell, um so unschärfer wird die Ausgabe.

Garmor · 4. März 2026

JumpingCat schrieb:
nomic-embed-text-v2-moe

Das ist doch aber ein Embedding-Modell und gar nicht auf Chat ausgelegt. Oder übersehe ich da was? 🤔

tomgit · 4. März 2026

Probier es nicht mit Ollama - da ist der Support für Vulkan noch experimentell. Versuch es mit LM Studio: https://lmstudio.ai/

Qwen3 kann da drauf laufen, aber 8b Parameter sind zu viel für die GPU. Geh auf 4b Parameter runter. Falls du mit deutsch-sprachigen Outputs arbeiten magst, nimm lieber ein Gemma-Modell. 4b Parameter mit 4bit Quantisierung sollte drauf tun. Kann aber die Genauigkeit, also Qualität der Wiedergabe anhand der Eingabe, reduzieren.

Drakon111 · 4. März 2026

tomgit schrieb:
Qwen3 kann da drauf laufen, aber 8b Parameter sind zu viel für die GPU

Läuft zwar darauf, aber wie in meinen ersten Post geschrieben habe, man braucht viel Geduld

tomgit · 4. März 2026

Weil es zu groß für die GPU ist und deswegen auf der CPU läuft.
Selbst in der kleinsten Variante ist es 5,2GB groß. Das passt nicht in 4GB VRAM.

Geckoo · 4. März 2026

Man muss mMn einfach realistisch sein, dass es mit der Hardware wenig Spaß machen wird. Entweder hast du halbwegs nutzbare Netzwerke, die eben super langsam sind oder sehr kleine Netzwerke die halbwegs schnell laufen, aber dafür einfach schlecht sind.

Ich habe diese ganz kleinen Netzwerke jetzt noch nicht getestet, aber selbst die mit 12B machen noch genug nicht nachvollziehbares Zeug. Eingeschränkte Wortwahl, Halluzinationen, nicht befolgen von Prompts, vernachlässigen von Informationen im Kontextfenster etc.

Was willst du denn realistischer Weise mal damit machen? Eigene Texte schöner schreiben lassen? Konversationen führen?
Selbst die ganz großen und rechenintensiven lokalen Netzwerken sind meilenweit von ChatGPT, Gemini etc. entfernt. Die winzigen, super quantifizierten Netzwerke, die auf deiner Hardware laufen, sind dementsprechend noch viel schlechter/dümmer.

JumpingCat · 4. März 2026

@Garmor Die Frage war was vernünftig auf dieser Hardware laufen könnte. Mehr nicht.

aluis · 4. März 2026

Die Hardware ist doch super für KI. Man braucht nur eine RTX Pro 6000 Blackwell reinstecken und ab geht die Rakete.

grand_sniper · 4. März 2026

Um den Einstieg zu machen, mind. 16 GB RAM. Und eine Grafikkarte die Raytracing unterstützt mit min. 8 GB VRAM. Dann kannst die ganz kleinen Modelle laufen lassen. Bei 8GB VRAM würde ich Modelle wählen die max. 6 GB groß sind.
Momentan versucht du mit einem alten Pferd zum Mond zu kommen.

Drakon111 · 5. März 2026

Ich weiß, dass die Hardware nicht die beste ist, ist nur zum Testen, halt läuft so was überhaupt auf dem Notebook, wenn ja, wie schnell und was kann man überhaupt machen. Ich weiß, das es selbst High End Hardware sehr stark ins Schwitzen kommt, bei so was

Was ich bis jetzt gemacht habe:
Kalender erzeugen lassen (ohne genaueren angaben)
Hundenamen aufzählen lassen.
Bisschen geschrieben.

Was ich vorhabe:
Einfach ein bisschen Testen, was damit geht.

tomgit · 5. März 2026

grand_sniper schrieb:
Um den Einstieg zu machen, mind. 16 GB RAM. Und eine Grafikkarte die Raytracing unterstützt mit min. 8 GB VRAM. Dann kannst die ganz kleinen Modelle laufen lassen.

Sorry, aber das ist absoluter Unfug. Im Rahmen eines Papers habe ich lokale Sprachmodelle auf mehreren Systemen getestet, unter anderem auf einem ThinkPad X12 mit 16GB RAM. Nicht nur teilt sich da die Iris Xe Graphics G7 mit ihren 96 EUs den Speicher mit dem Prozessor, sondern auch den sustained load von 12W. Und selbst darauf liefen schon Gemma 2.5 in den kleineren Ausführungen in brauchbarer Geschwindigkeit. Und die GPU hat auch keinen Raytracing Support.

Umgekehrt haben die ganz teuren Server-Karten von Nvidia (H200, B200) auch keine RT Cores drauf - und unterstützen nicht mal Graphic Rendering.

grand_sniper · 5. März 2026

@tomgit Ja sorry, war von mir unpräzise hingeschrieben. Raytracing habe ich nur erwähnt, um eine zeitliche Einordnung einer möglichen Grafikkarte zu erleichtern. Der Ersteller des Themas kennt sich ja nicht aus, und ich wollte nicht zu tief einsteigen. Am besten wäre es, wenn er sich ein Einstiegsvideo dazu mal ansieht.
Klar kann man immer die möglichst kleinste LLM auch zum Laufen bekommen. Auch auf seiner Hardware, aber zu welcher Qualität und Performance? Er bemängelt ja die schlechte Performance, die an dem zu großen Modell liegt. Bei 4 GB VRAM max. ein 3 GB Modell nehmen, wegen Overhead, Kontextlänge ... Und man kann auch schnell die Lust daran verlieren, wenn nur Müll dabei herauskommt. Einige Modelle scheint es in neueren Versionen in sehr klein schon gar nicht mehr zu geben.
Nvidia mit CUDA ist quasi Standard. Die AMD Grafikkarten können es immer besser, zicken ab und zu herum.
Mit Intel habe ich keine Erfahrung. Auf einer RX 5700 habe ich es z.B. nicht sauber hin bekommen und war mir zu langsam.
Und von den Pro-Grafikarten wollen wir in seinem Fall ja gar nicht sprechen.

Garmor · 5. März 2026

tomgit schrieb:
in den kleineren Ausführungen in brauchbarer Geschwindigkeit.

Aber was waren die Aufgaben? Der TE scheint ja weniger nach spezifischen Modellen zu suchen, sondern nach Ideen, was man damit machen kann.

Drakon111 · 5. März 2026

Garmor schrieb:
Der TE scheint ja weniger nach spezifischen Modellen zu suchen, sondern nach Ideen, was man damit machen kann.

Deswegen habe ich es offen gelassen, da man sehr viel mit machen kann, selbst Lokal

Suche

Was kann man alles mit Ollama auf ältere Hardware noch machen?

Drakon111

Cadet 4th Year

4nanai

Captain

Garmor

Commander

JumpingCat

Vice Admiral

Garmor

Commander

tomgit

Rear Admiral

Drakon111

Cadet 4th Year

tomgit

Rear Admiral

Geckoo

Lt. Commander

JumpingCat

Vice Admiral

aluis

Lieutenant

grand_sniper

Lt. Junior Grade Pro

Drakon111

Cadet 4th Year

tomgit

Rear Admiral

grand_sniper

Lt. Junior Grade Pro

Garmor

Commander

Drakon111

Cadet 4th Year

Ähnliche Themen