Ollama... wo liegen die sprachmodelle?

samuelclemens · Gestern um 16:47

Ich habe Ollama über Pinokio installieren wollen, das auf der externen SSD liegt. Aber wurde umgeleitet zum Download der Installationsdatei auf die Ollama Website: https://ollama.com/download/windows.
Hat alles reibungslos geklappt, und die Modelle klappen auch, wenn auch mit mehr Verzögerung, als mir lieb wäre.
Aber da es sich um recht große Dateien handelt, inzwischen gut 4 Modelle zwischen 10 und 16 GB, würde ich gerne wissen, wo die nun genau liegen.
Ich sehe nirgends, dass sich der leere Speicherplatz verringert, wenn ich ein 16 GB Modell lade. Weder auf der externen SSD noch unter C: das auf der der internen SSD liegt.
Selbst mit WizTree komme ich diesen nicht auf die Spur. Die müssten eigentlich unübersehbar sein, aufgrund der Größe.

madmax2010 · Gestern um 16:56

ich habe hier kein ollama laufen, habe aber vor ca einem jahr mal die eisntellungen durchgeklickt. Bin mir ziemlich sicher, dass man den Downloadordner einstellen konnte.
Hast du mal in die einstellungen geschaut?

Ergänzung (Gestern um 16:58)

nvm..
kurz gegoogled:
https://docs.ollama.com/windows#changing-model-location

geht indem du die Umgebungsvariable ueberschreibst

SaschaHa · Gestern um 17:02

Laut Google liegen diese bei Windows in deinem Nutzerordner im Ordner .ollama\models, also unter C:\Users\<DeinUsername>\.ollama\models. Verifizieren kann ich es nicht. Ggf. ist der Ordner versteckt, folglich müsstest du in diesem Fall ausgeblendete Elemente einblenden.

Zweite Möglichkeit: Ollama scheint auch eine Umgebungsvariable (OLLAMA_MODELS) zu unterstützen, um unter dem dort verlinkten Pfad die Modelle abzulegen. Kannst diesen oder einen ähnlichen Eintrag also mal bei den Umgebungsvariablen suchen.

SKu · Gestern um 17:04

Wenn nicht spezifiziert, speichert Ollama die Modelle unter C:\Users\%username%\.ollama\models.

samuelclemens · Gestern um 17:04

@madmax2010 Danke. über die Umgebungsvariablen konnte ich den Speicherort sofort lokalisieren.
Anscheinend hat es sich bei der Installation einfach einen 1 Jahr alten Speicherort auf der internen HDD gegrapscht wo ich das damals mal kurz testweise installierte ohne das es je richtig funktioniert hatte.

madmax2010 · Gestern um 17:05

Upsi

samuelclemens · Gestern um 18:20

Hätt dazu aber eine weitere Frage. Kann es sein das die modelle immer nach nem neustart erstmal ne weile brauchen um in die gänge zu kommen?
Stelle nämlich fest das die bei dem ersten prompt gefühlt ewig rauchen um zu reagieren und dann aber um einiges schneller antworten beim zweiten, dritten usw...

madmax2010 · Gestern um 18:24

ja, muss erst initialisiert werden

CoMo · Gestern um 19:56

samuelclemens schrieb:
Hätt dazu aber eine weitere Frage. Kann es sein das die modelle immer nach nem neustart erstmal ne weile brauchen um in die gänge zu kommen?

Nein. Dein Massenspeicher, RAM- und VRAM-Durchsatz sind die limitierenden Faktoren. Die Modelle können dafür nichts.

andy_m4 · Gestern um 20:22

CoMo schrieb:
Nein.

Du hast offenbar seine Frage nicht richtig gelesen. Die war nämlich nicht, warum die generell zu langsam sind oder so, sondern warum quasi bei der ersten Frage die Antwort so lange dauert (während Folgefragen zügiger beantwortet werden).
Und diese Frage wurde mit Posting #8 eigentlich auch schon beantwortet. :-)

CoMo · Gestern um 20:26

Beim ersten Start muss das Modell komplett von der Festplatte in den RAM / VRAM geschoben werden. Das ist das, was in #8 "Initialisieren" genannt wird. Und das hängt von den Faktoren ab, die ich genannt habe. Oder wovon sonst?

GZ zu Post 9000 🥳

andy_m4 · Gestern um 21:06

CoMo schrieb:
Und das hängt von den Faktoren ab, die ich genannt habe. Oder wovon sonst?

Ja. Es hängt davon aber aber das reine Laden das beinhaltet ja auch das von Festplatte lesen. Dann müsstest Du ja konsequenterweise auch sagen, das das von der Plattengeschwindigkeit abhängt.
Und überhaupt müsste man ja dann ggf. auch erst mal nachfragen, welchen Zeitpunkt er genau meint.

Ist aber letztlich alles aber auch gar nicht so wichtig, weil das ja meines Erachtens auch gar nicht der Kern der Frage war bzw. wenn dann noch Unklarheiten oder Details interessant ist, kann der Fragesteller ja auch nachhaken und dann kann man auch gezielt antworten.

CoMo schrieb:
GZ zu Post 9000 🥳

Danke!

Das hab ich selbst gar nicht mitbekommen.
Wenn man nicht immer so aufmerksame Mitforisten hätte, würde einen so viel durch die Lappen gehen.

CoMo · Gestern um 21:12

andy_m4 schrieb:
Dann müsstest Du ja konsequenterweise auch sagen, das das von der Plattengeschwindigkeit abhängt.

Hab ich doch 🫠

CoMo schrieb:
Massenspeicher

samuelclemens · Gestern um 23:15

Jetzt hab ich die modelle ja alle auf die externe SSD (USB-C) geschoben. Läuft aber auch nicht wesentlich schneller. Der GPU Speicher ist zb mit dem 16 GB Modell sofort voll laut Taskmanager. Ich nehme nicht an dass das laden so lange dauert bei einer SSD.
Der zweite testprompt aber wird fast sofort beantwortet. Neuer Chatfenster mit gleicher frage.
Ollama scheint aber das modell länger im GPU speicher zu behalten. Das hab ich bei den Bildgeneratoren glaub ich etwas anders beobachtet, da leert sich der GPU Speicher wieder nach der Bildgenerierung.
Aber auch Ollama leert den GPU Speicher nach einigen Minuten wieder.
Dann dauert es wieder gefühlt ewig bis der Testprompt fertig bearbeitet wird.
An sich beruhigend zu wissen dass der GPU Speicher nicht dauerhaft voll bleibt andererseits würde ich gern wissen ob man diese Zeitspanne bis zum leeren iwie anpassen kann.
Normalerweise dauert es schon länger bis man die Antwort durchgelesen hat. 🤔

Aber insgesammt dauert das allererste Prompt immer noch sehr viel länger als folgende. Unabhängig davon ob der GPU Speicher grade voll ist oder leer.
Ist jetzt aber nichts tragisches. Vor der 5070TI konnte ich dazwischen sogar Brötcheh holen gehen!

Ist es überhaupt möglich ein Offline Modell in Ollama dazu zu bringen auch online zu recherchieren wenn es explizit verlangt wird?
Offentbar scheint es dies ja nicht zu tun.

Keuleman · Heute um 10:15

Man kann das quasi "online" schalten (war es in den Optionen oder sogar ein Button in der Oberfläche beim Chat... müsste ich gucken). Geht also quasi beides. Ich vermute, auch je nach Modell.

oicfar · Heute um 11:30

samuelclemens schrieb:
Ollama scheint aber das modell länger im GPU speicher zu behalten. Das hab ich bei den Bildgeneratoren glaub ich etwas anders beobachtet, da leert sich der GPU Speicher wieder nach der Bildgenerierung.

Man kann konfigurieren, wie lange ein Modell in VRAM verbleiben soll.

Wenn man dabei ist lokal eine KI-Umgebung zu betreiben, dann sollte man sich schon die Anleitung und auch die Möglichkeiten anschauen, was geht und wie.

samuelclemens schrieb:
Aber auch Ollama leert den GPU Speicher nach einigen Minuten wieder.
Dann dauert es wieder gefühlt ewig bis der Testprompt fertig bearbeitet wird.

Lesen, wie was funktioniert. Verstehen und dann wird es.

samuelclemens schrieb:
An sich beruhigend zu wissen dass der GPU Speicher nicht dauerhaft voll bleibt andererseits würde ich gern wissen ob man diese Zeitspanne bis zum leeren iwie anpassen kann.

"1st world problems" sage ich dazu.

samuelclemens schrieb:
Ist es überhaupt möglich ein Offline Modell in Ollama dazu zu bringen auch online zu recherchieren wenn es explizit verlangt wird?
Offentbar scheint es dies ja nicht zu tun.

Das macht nicht ein Modell sondert das Tool drumherum, was man nimmt. Und ich meine hier nicht Ollama.

Suche

Ollama... wo liegen die sprachmodelle?

samuelclemens

Lieutenant

madmax2010

Fleet Admiral

SaschaHa

Rear Admiral

SKu

Fleet Admiral Pro

samuelclemens

Lieutenant

madmax2010

Fleet Admiral

samuelclemens

Lieutenant

madmax2010

Fleet Admiral

CoMo

Commodore

andy_m4

Admiral

CoMo

Commodore

andy_m4

Admiral

CoMo

Commodore

samuelclemens

Lieutenant

Keuleman

Lt. Junior Grade

oicfar

Captain