LLM verwendet ihr bei einer lokalen Umgebung

interface31

Ensign
Registriert
Dez. 2009
Beiträge
186
Hi,

habe auf meinen Mac Studio Ultra, Msty und LM Studio draufgepackt und paar LLM geladen wie
Llama-3.3-70B-Instruct-GGUF
Yi-1.5-34B-Chat-GGUF
gemma
und noch paar mehr.
Lade noch gerade DeepSeek-V3-0324-Q6 K
Da ich sagen muß geht zwar so vom Ergebnis her aber, so richtig toll ist es aber nicht, vorallem finde ich das der Zusammenhang hin und wieder fehlt oder wenn was nicht paßt es nicht verstanden wird.
Habt ihr mit einem llm gute Erfahrung gesammelt?
Mir geht es hauptsächlich große Excel Listen zu bearbeiten

cu
 
Wieviel VRAM hast du?

Wenn du 16GB VRAM hast oder mehr, dann unbedingt Gemma 3 ausprobieren. Sollte auch über LM Studio direkt ladbar in der richtigen Variante sein, seit 2 Tagen.

Das Gemma 3 27B Modell ist fast so stark wie das vollständige Deepseek Model, welches aber mehrere hundert GB VRAM bräuchte. Das Gemma 3 27B Modell im int4-Format braucht nur 14.1GB VRAM. Habs nur kurz ausprobiert, ist aber aktuell mein Favorit auf meiner 4080.
https://www.all-ai.de/news/topbeitraege/googles-ki-offensive-gemma-3-für-alle


PS: Mit deinem Max Studio Ultra, 64GB? kannst du natürlich auch noch größere Modelle laden.
 
Was sollen die denn mit den exceltabellen machen und wie sieht dein prompt aus?

Schreibst du englisch mit dem llm? Das könnte sehr helfen
 
Hi Zusammen,

ja habe den Ultra mit 64GB.
Ja muß sagen habe Online Deepseek in letzter mehr benutzt, ansonsten mehr chatgpt.
Grok muß ich sagen hat mir auch sehr gut gefallen, war ein wenig anders, kam anfang besser rüber mit den Antworten.
Gerade habe ich halt excel files in dem Werte mit mehreren Spalten und auf mehreren Blätter verteilt sind.
Entwerder einzelwerte in einer Zelle oder auch mehrere Werte in einer Zelle zum Beispiel: Hase/Katze/groß/klein/dick/dünn
Das ganze ist natürlich unterschiedlich.
Sage es eigentlich nur das ich zu jedem Wert eine eigene Spalte brauch und paßt mit Deepseek online ganz gut oder auch ChatGpt.
Problem war das aufgrund der größer der Listen es nicht auf einmal ging daher habe ich es local mit dem llm versucht wo die Tokenlänge mehr ist


Modell

RAM (ungefähr)

GGUF Quantisierung

Token-Kontext

LLaMA 3 8B

6–12 GB

Q4_K_M / Q5_K_M

Bis 8k – sehr performant

LLaMA 3 70B

40–65 GB+

Q6_K / Q8_0

Bis 8k–128k (je nach Tool)

DeepSeek-V3 32B

30–60 GB+

Q5_K_M / Q8_0

Gut mit 16–32k Tokens

Mixtral (Mixture MoE)

35–60 GB

Q6_K

Extrem schnell für Größe

GPT-J / GPT-NeoX

12–32 GB

Q4_K_M–Q8_0

Gute Allrounder

Lokal kam nur bei einigen nicht das gewünschte raus, es lieferte mehr eine Zusammenfassung auch wenn ich
explizit erklärt habe kam es nicht zum erfolg.

Da ich nebenher auch gerne Photos erstelle ist online Ideogram mein Favorit da hier der Text in den Bilder sehr gut klappt. Alternativ Qwen.

Local kann ich über pinkio invoke empfehlen.

So das llm DeepSeek-V3-0324-Q6 ist nun geladen 500GB rum aber dauert ewig, glaube brauche ne alternative

cu
 
Zuletzt bearbeitet:
ich würde generell aktuell mal qwen 3, z.B. mit lm-studio, ausprobieren.

für diese großen dateien ist wsl das kontext-fenster ausschlaggebend. das zu erhöhen benötigt mehr vram. ich glaube weniger, dass du ein besonders großes modell brauchst, wenn die info nicht schwer zu "verstehen" ist, sondern das kontext window ausreichend erhöhen musst. in lm-studio hast du unten eine anzeige zu wieviel prozent das bereits ausgereizt ist. das muss normalerweise erstmal von relativ niedrigen standardwerten (4096) ausgehend erhöht werden.
 
ja ok das muss ich mal test qwen habe ich nur online benutzt war auch nicht so verkehrt
 
Zurück
Oben