Ollama @ Deepseek R1

Ghost_Rider_R · 30. Januar 2025

Hallo zusammen,

ich habe ein wenig mit Ollama und Deepseek R1 (deepseek-r1:14b) rumgespielt und finde die Ergebnisse eher ernüchternd. Habt Ihr ebenfalls solche Erfahrungen mit diesem LLM gemacht?

Der Initiale Prompt war es diese Geschichte zusammenzufassen:

Das ist der Gesprächsverlauf:

Deepseek hat hierbei immer in grün geschrieben und ich in weiß.

Sind eure Erfahrungen auch so? Mich wundert es, dass z. B. ChatGPT grammatikalisch um ein vielfaches besser ist, als die ganzen lokalen LLMs. Bei LLAMA 3.2 sieht es auch nicht besser aus.

Habt Ihr eine Idee, woran das liegt?

LG Ghost Rider

ghecko · 30. Januar 2025

Ghost_Rider_R schrieb:
Habt Ihr eine Idee, woran das liegt?

Wahrscheinlich an der Größe des Modells?

Ghost_Rider_R schrieb:
deepseek-r1:14b

Online hast du zwar nicht immer Zugriff auf das neueste, dafür auf das größte Modell.

zeaK · 30. Januar 2025

Versuch es doch mal auf englisch.

tomgit · 30. Januar 2025

Das 14b Modell basiert auf Qwen, das liefert auf Deutsch aus Erfahrung keine guten Ergebnisse.
Außerdem unterstützt R1 auch primär erstmal Chinesisch und Englisch, dass Deutsch da überhaupt funktioniert ist beinahe ein Wunder. Die Model Card zeigt ja auch Benchmarks primär auf Englisch, Coding, Reasoning und Chinesisch: https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B

Ghost_Rider_R schrieb:
Mich wundert es, dass z. B. ChatGPT grammatikalisch um ein vielfaches besser ist, als die ganzen lokalen LLMs

Ist halt größer, aber ich muss sagen, dass Gemma 2 in seinen Ausführungen sehr gute Ergebnisse hervorbringt, bereits das 1b Modell kann schon sehr gute Sätze konstruieren, bei 27b bin ich schon zufrieden.
Hängt aber bei allen Modellen auch von der Parametergröße ab. Llama 3.2 ist per se nichts sagend, meinst du jetzt das 1b oder das 3b Modell und dann spielt die Quanitifizierung auch eine Rolle, weil dies entsprechend die Präzession senken kann.

madmax2010 · 30. Januar 2025

zeaK schrieb:
Versuch es doch mal auf englisch.

yep.
Auf englisch funktionieren so ziemlich alle LLMs besser.

ghecko schrieb:
Wahrscheinlich an der Größe des Modells?

ja.
Beim 14b Modell kommt viel mist raus. Das 32b modell ist schon deutlich brauchbarer und produziert auch wirklich brauchbaren code

ghecko schrieb:
Online hast du zwar nicht immer Zugriff auf das neueste, dafür auf das größte Modell.

was in dem Fall 671 Milliarden Parameter sind. Geht auch lokal, wenn man 1TB RAM hat

Ghost_Rider_R · 30. Januar 2025

Welches Modell wäre denn für einen PC mit 64 GB RAM und RTX4060 16GB vRam für deutsche Sprachausgabe am besten geeignet?

oicfar · 30. Januar 2025

Mit deepseek-r1:14b bin ich auch nicht so zufrieden. Ich warte auf DeepSeek V3 14b. Da ist für meine Zwecke aktuell phi4:14b top. Gestern dann noch viel auf https://chat.deepseek.com/ rumgespielt und finde es cool.

ghecko · 30. Januar 2025

Ghost_Rider_R schrieb:
Welches Modell wäre denn für einen PC mit 64 GB RAM

Was willst du denn damit machen?
Und welche CPU hast du? Reicht es dir, wenn so 1 Wort pro Sekunde kommt oder eher so ein Satz?

tomgit · 30. Januar 2025

Liest du auch Beiträge?

Gemma 2 ist gut, schau halt, was deine GPU lädt

madmax2010 · 30. Januar 2025

sonst mal llama 3.2 / 3.3 modelle probieren. Sonst qwen2.5 Derivate. Aber mehr als 16b wird da eher nichts. Für gescheite Modelle willst du ~80gb (v) ram haben und die am liebsten nicht auf der CPU rechnen

Azdak · 30. Januar 2025

Seit ein paar Stunden ist Mistral Small 24b draußen. Mit 4k Kontextfenster und Q4-k-m passt es auch gerade so in 16GB VRAM. Läuft damit recht anständig bei mir auf einer 6800XT (~24Token/Sec).
Wenn man die Modelle mit deutsch nutzen will, habe ich bei Mistral grundsätzlich ganz gute Erfahrungen gemacht. Auf alle Fälle besser als llama 3.2.
Mehr quali geht dann natürlich bei Nutzung von Q8, dann wirds aber echt zäh und nicht wirklich mehr nutzbar finde ich, da dann die Bandbreite des normalen Systems limitiert.

Ghost_Rider_R · 30. Januar 2025

Kann man sagen, dass die Anzahl an Parametern einen sehr großen Unterschied machen, wenn man das gleiche LLM nutzt?

madmax2010 · 30. Januar 2025

unter umstaenden ja

tomgit · 30. Januar 2025

Es kommt drauf an, was man damit machen mag.
Ich habe für ein Paper einen synthetischen Datensatz erstellen lassen, da hat es einen Unterschied gemacht, aber wichtiger war die Modell-Auswahl.
Mit Qwen 2.5 hatte ich selbst bei 32b einen schlechteren Output als bei Gemma 2 mit 27b.
Wie gesagt, auch ein Gemma 2 mit 9b kann noch mehr als brauchbare Ergebnisse produzieren. 27b ist zuverlässiger, 9b geht auch, 2b kommt an seine Grenzen beim Erstellen von Texten, kann aber bspw noch gut übersetzen und so.

HITCHER_I · 1. Februar 2025

Ich habe es mal mit dem deepseek-r1:32b versucht, hat folgendes als Zusammenfassung ausgegeben.

"""
... In der kleinen Arztpraxis von Dr. Schröder war an diesem Montagmorgen wieder
... Hochbetrieb. Die Wartezimmerstühle knarrten, die Sprechstundenhilfe Frau Mü
... ller rief Namen auf, und die Kaffeemaschine blubberte unaufhörlich. Plötzlic
... h stolperte Herr Meier, ein etwas zerstreuter älterer Herr, in die Praxis. S
... eine Brille hing schief, sein Hut war zerknittert, und er hielt sich den Bau
... ch. "Herr Meier! Was kann ich für Sie tun?" fragte Dr. Schröder besorgt. Her
... r Meier schnaufte: "Herr Doktor, ich glaube, ich habe einen sehr seltenen Vi
... rus! Ich habe im Internet nach meinen Symptomen gesucht, und es sieht nicht
... gut aus!" Dr. Schröder seufzte. "Aha. Welche Symptome haben Sie denn genau?"
... "Also, ich habe ein merkwürdiges Grummeln im Bauch, meine Augenlider zucken
... manchmal, und ich habe das Gefühl, dass ich alles vergesse!" Der Arzt läche
... lte. "Herr Meier, das Grummeln könnte vom Frühstück kommen, das Augenzucken
... von zu viel Kaffee, und das Vergessen_ na ja, das liegt wohl am Alter." Herr
... Meier runzelte die Stirn. "Aber Herr Doktor, im Internet stand, es könnte a
... uch eine extrem seltene Tropenkrankheit sein!" Dr. Schröder nickte. "Das Int
... ernet ist gefährlich. Wenn man Kopfschmerzen googelt, hat man am Ende drei M
... inuten zu leben. Wann haben die Beschwerden denn angefangen?" Herr Meier kra
... tzte sich am Kopf. "Eigentlich_ so ungefähr seit dem Frühstück. Ich hatte Bo
... hnen mit Zwiebeln und drei Tassen Kaffee." Der Arzt lachte. "Herr Meier, Ihr
... e Diagnose lautet: Frühstücks-Kater. Weniger Bohnen, weniger Internet - und
... Sie werden 100 Jahre alt." Herr Meier grinste erleichtert. "Also doch keine
... Tropenkrankheit?" "Nein, aber vielleicht ein Tropensturm... in Ihrem Bauch!"
... Das ganze Wartezimmer lachte, und Herr Meier verließ die Praxis mit einem R
... ezept für "eine ordentliche Portion Vernunft und eine Kamillentee-Kur."
... """ Diesen Text bitte kurz zusammenfassen.
...
... """

In einer belebten Arztpraxis am Montagmorgen tritt ein zerstreuter Herr
Meier mit Beschwerden wie Bauchgrummeln, Augenzucken und Vergesslichkeit
bei Dr. Schröder auf. Der Arzt diagnostiziert nach der Betrachtung seiner
Symptome einen "Frühstücks-Kater", vermutet eine Übertrophie von Bohnen
und Kaffee sowie eine übertriebene Nutzung des Internets. Mit Humor rät er
weniger davon, damit Herr Meier hoffentlich 100 Jahre alt wird. Die Szene
endet mit einem belustigten Lachen im Wartezimmer, als der Patient
erleichtert entläßt wird.

Ghost_Rider_R · 1. Februar 2025

erleichtert entläßt wird... Solche sprachlichen Fehler sind in der Online-Variante praktisch nicht vorhanden. Ist das dann dem verkleinerten LLM geschuldet?

tomgit · 1. Februar 2025

Natürlich produziert das Cloud LLM besseren Output, weil es größer ist.

...wurde aber auch schon im Thread erwähnt.

HITCHER_I · 2. Februar 2025

Ich habe es nochmals versucht, aber auf dem r1:70b Modell.

Ergebnis:

Herr Meier besucht Dr. Schröder, weil er Symptome wie Bauchgrummeln, Augenzucken und Vergesslichkeit hat. Er
vermutet eine seltene Tropenkrankheit, die er im Internet recherchiert hat. Der Arzt diagnostiziert jedoch, dass
seine Beschwerden wahrscheinlich auf sein Frühstück (Bohnen mit Zwiebeln und viel Kaffee) zurückzuführen sind und
rät ihm, weniger zu googeln. Herr Meier verlässt die Praxis erleichtert mit einem Rezept für Vernunft und
Kamillentee.

edit:
", als der Patient erleichtert entläßt wird."
Das sind gleich zwei Fehler auf einmal. "entläßt" dürfte die alte Schreibweise sein, das schreibt man seit 30 Jahren mit "ss". Aber korrekt wäre stattdessen "entlassen" zu verwenden. Das r1:32b Modell hat in der Nachdenkphase auch mal Wörter in chinesisch, und einmal in russisch gedruckt, im ansonsten englischen Text. Klar braucht so eine umfangreiche Software noch viel Feinschliff, bis sie perfekt ist.

Ghost_Rider_R · 2. Februar 2025

Könntest du es vielleicht noch auf dem kleinsten Modell von R1 testen?

Ergänzung (2. Februar 2025)

Und hast du Ollama dabei verwendet?

oicfar · 2. Februar 2025

Ollama mit Open WebUI ...

Ollama @ Deepseek R1

Lieutenant

Digital Caveman

Lieutenant

Rear Admiral

Fleet Admiral

Lieutenant

Captain

Digital Caveman

Rear Admiral

Fleet Admiral

Lieutenant Pro

Lieutenant

Fleet Admiral

Rear Admiral

Rear Admiral

Lieutenant

Rear Admiral

Rear Admiral

Lieutenant

Captain

Ähnliche Themen