Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
Newsgpt-oss-120b und gpt-oss-20b: OpenAI gibt offene Modelle auf o4/o3-mini-Niveau frei
@rollmoped
Kommt sehr auf die Größe des eingestellten Kontext-Fensters ("num_ctx" Parameter) an. Bei 16384 Tokens als Kontext-Fenster braucht auch mistral-small sehr lange bevor es zu antworten beginnt und je länger der Chat wird, desto länger wird's.
Ist die Frage, wie gut es um das Wissen von 20B stehen kann, wenn die nur so wenige Gewichte pro ein Token aktivieren. SimpleQA wäre da interessant zu wissen.
SimpleQA mit 6,8 % beim 20B Modell ist halt schon "schlecht". Gemma 12B hat schon knapp so viel ungefähhr und Gemma 27B hat 10. Und Mistral Small 3.1 (24B) hat 10,43.
GPT-OSS 20B ist wohl wirklich eher nur für Logik-Sachen zu gebrauchen. Immerhin gibt es dann mal ein gutes openweight Reasoning-Modell für daheim in Bezug auf reines Reasoning (ggf. auch nur in kurzen Kontexten). Es sei denn, die haben Themenspezifisch doch gutes Wissen.
Vermutlich leicht zu knapp um vollständig in VRAM und RAM zu passen. Bei mir werden ~23GB VRAM vom Modell belegt und dann kommen noch die anderen Sachen dazu die im System VRAM brauchen. Im RAM liegen bei mir ~43GB durch das Modell und dann kommen noch etliche GB durch Windows dazu. Evtl. würde es unter Linux besser reinpassen. Kannst es aber auch einfach schnell ausprobieren. Musst nur Ollama (https://ollama.com/) runterladen und installieren und in der GUI gpt-oss:120b auswählen. Das Modell wird dann automatisch runtergeladen, konfiguriert und gestartet und Du kannst loslegen. Kann allerdings passieren, dass dein Rechner einfriert und Du einen Hardreset machen musst.
A1MSTAR_ schrieb:
o3 kann einiges im coden , wenn man das local gleichwertig hinbekommt wär das quasi nen gamechanger
Gleichwertig zu o3 (nicht -mini) ist definitiv auch die 120b-Version nicht. Zum Einen würde OpenAI dadurch ihre nicht öffentlichen Bezahl-Modelle nutzlos machen und zum Anderen braucht o3 schätzungsweise >1,5TB VRAM. Entsprechend besser ist die Qualität der Outputs und größer das gespeicherte Wissen. Evtl. gibt es irgendwann ein Modell das Ähnliches wie o3 leistet und in 80GB VRAM/RAM passt, allerdings werden die großen Modelle dann auch schon wieder deutlich leistungsfähiger sein. Denke mit wenig Speicher wird man immer deutlich hinterher hinken. Und so Sachen wie Websuche, Bilderstellung, Deep Research und Agentenmodus wirst Du zwar auch lokal irgendwie hinbasteln können, aber sicherlich (noch) nicht in der gleichen Qualität wie bei o3 in der Cloud.
Ich würde mal schauen wie für Dich die 20b Version funktioniert. Die passt ja problemlos auf die 4090 und sollte daher extrem schnell laufen. Gerade für Coding/Logik könnte die kleine Version schon für einige Anwendungsfälle ausreichend sein. Ich würde in den Ollama Settings auch noch das Kontextfenster auf 128k erhöhen, Default sind 4k, was sehr schnell zu wenig ist. Mit 24GB VRAM sollten die 128k Token auch kein Problem sein. Alternativ kannste auch mal Magistral Small von Mistral und Gemma 3 von Google testen, die sollten auch in 24GB VRAM passen und laufen ebenfalls wunderbar mit Ollama.
Ich würde mal schauen wie für Dich die 20b Version funktioniert. Die passt ja problemlos auf die 4090 und sollte daher extrem schnell laufen. Gerade für Coding/Logik könnte die kleine Version schon für einige Anwendungsfälle ausreichend sein.
Kontextfenster schon auf 128k erhöht? Bei den standardmäßigen 4k vergisst das Modell nach zwei drei Prompts schon wieder den ersten Prompt.
Edit: Falls es um Textdateien oder PDFs geht, dann würde ich sowas wie Open-WebUI empfehlen, was an Ollama andockt aber mehr Features ermöglicht. Auch Code-Ausführung ist dort möglich, habe ich aber selbst noch nicht getestet. Ist aber natürlich etwas aufwändiger zu installieren als Ollama, PowerShell-Befehle und so, aber o3 kann einem schon ganz gut erklären was man machen muss.
@MoinWoll hast du eine anleitung wie ich am besten vorgehe zum installieren von ollama und openwebui + gpu einrichtung ? , es kam mir alles sehr langsam vor maybe hat er die gpu auch nicht richtig genutzt ?
@A1MSTAR_: Anleitung habe ich leider nicht zur Hand, aber ich habe mir einfach eine von o3 generieren lassen, die hat auch funktioniert. Was die Antwortgeschwindigkeit angeht, evtl. sind 128k doch zu viel für 24GB. Würde mal in den Taskmanager schauen, wie viel ggf. schon in den RAM ausgelagert wird und das Fenster evtl. leicht reduzieren. Ich hatte aber mit dem 120b Modell heute morgen auch etwas Probleme. Bei der ersten Antwort wurde es offenbar komplett in den RAM geladen und der VRAM war ungenutzt. Erst nach meiner zweiten Frage ging dann die VRAM-Belegung hoch und die zweite Antwort kam gefühlt 20 mal so schnell. Es kamen gestern und heute auch zig Ollama-Updates, ggf. läuft dort noch irgendwas nicht rund.
Finde ich ja interessant. Das Model denkt, es wäre GPT 4 Turbo und würde auf Openai Servern laufen. Und dadurch werden einige Anfragen blockiert, obwohl gar nicht nötig wäre
Es gibt zwei Parameter: "Max Tokens" und "num_ctx (Ollama)".
"Max Tokens" bestimmt wie viele Tokens die Antwort des LLMs enthalten darf. Beeinflusst z.T. auch die Geschwindigkeit der Ausgabe der Antworten.
"num_ctx" bestimmt wie groß das Kontextfenster des Modells ist (effektiv wie groß sein Gedächtnis ist und wie lang der Input Prompt sein kann ohne, dass etwas verloren geht). Beeinflusst die Latenz bevor mit der Antwort begonnen wird, da das gesamte Kontextfenster für die Antwort durchgearbeitet wird (z.B. der gesamte vorangegangene Chat).
Die Angabe "Context" bei den Modellen stellt die maximale Anzahl Tokens dar, die beide Parameter zusammen haben dürfen. Beispiel: Model mit 12 Tokens Context wäre mit 4 "Max Tokens" und 8 "num_ctx" ausgelastet.
Ich nutze zum Beispiel das Modell "mistral-small3.2:24b" mit 2048 "Max Tokens" und 16384 "num_ctx". Die Latenz bis die Antwort angefangen wird zu schreiben ist bei langen Chats irgendwo zwischen 30 und 60 Sekunden, aber es beachtet dann auch quasi alles. Der VRAM ist dabei aber fast vollständig ausgelastet (24 GB).
Die Standardwerte, die Open WebUI normalerweise verwendet, sind 128 "Max Tokens" und 2048 "num_ctx".
Ich finde sowas durchaus gut, wenn zb. Firmen Kundendaten mit KI verarbeiten und sowas jetzt auch lokal machen können.
Das kleine 20B Modell auf Smartphones finde ich ja interessant 🤔.
Aber jetzt merkt man endlich mal, was notwendig ist um so ein Teil überhaupt zu befeuern.geht an sich auch von den Kosten. Schneller Speicher ist halt der Punkt.
Der ist ja nicht utopisch teuer. Es werden sicher auch mehr AI Chips folgen. So wird es in naher Zukunft wohl kein Ding mehr sein, solche Geschichten lokal zu haben. Selber noch erweitern /neu oder umtrainieren fände ich noch spannend.
Zur Ausführung ist die Speichergeschwindigkeit sogar eher zweitrangig, wenn er nicht gerade extrem langsam ist. Rechenleistung für Token/Sekunde und Speichergröße für Modelle mit mehr Parametern und größeren Kontextfenstern sind da tatsächlich entscheidender, nach den Erfahrungen die ich gemacht habe. Deswegen funktioniert das ganze auch auf den AI-Kisten mit dem 395+ so gut, da die sogar ziemlich langsamen LPDDR5X Speicher mit ca. 204,8 bis 256 GB/s einsetzen, davon aber 128 GB bzw. 96 GB für die GPU haben.
@FrozenPie @Marcoschwa
Ihr habt ja da wirklich praktische Erfahrungen mit. Macht Spaß eure Kommentare zu lesen 😊.
Ich finde das ja alles super interessant.
Macht das ganze Thema viel plastischer und greifbarer.
Leider habe ich gerade zu wenig Zeit um sowas selbst zu bauen.
Habt ihr auch bildgeneratoren probiert?
Ja, mittels ComfyUI. Da ist die Geschwindigkeit zum generieren von Bildern rasend schnell (10-20 Sekunden für 25-50 Steps) und der Speicherverbrauch quasi vernachlässigbar (unter 8 GB). Das Upscaling frisst meistens viel Zeit und relativ viel Speicher (12 GB), je nach Faktor und Tiling. Die Einstellungsmöglichkeiten bei ComfyUI sind allerdings ungeheuer komplex und definitv nichts für Anfänger (außer man nutzt einen vorgefertigten Workflow). Ich habe da auch nur was vorgefertigtes genutzt und kleine Anpassungen an manchen Teilen vorgenommen um es zu nutzen. Zum Beispiel die Integration eines ControlNet in den Workflow um auf Basis anderer Bilder oder Zeichnungen bzw. Skizzen ein neues Bild zu erstellen oder ein extra Show-Fenster um den rohen Output des Models vor der Nachbearbeitung anzusehen und die Nachbearbeitung zu canceln falls es mir nicht gefällt (spart jede Menge Zeit).
Mit ComfyUI kann man auch Videos generieren und anderes Zeug machen, da es sehr komplexe Workflows ermöglicht.
P.S.: Ich spreche hier nur für eine RTX 3090, da das die einzige Karte ist, die ich aktuell habe.