News gpt-oss-120b und gpt-oss-20b: OpenAI gibt offene Modelle auf o4/o3-mini-Niveau frei

FrozenPie · 6. August 2025

@rollmoped
Kommt sehr auf die Größe des eingestellten Kontext-Fensters ("num_ctx" Parameter) an. Bei 16384 Tokens als Kontext-Fenster braucht auch mistral-small sehr lange bevor es zu antworten beginnt und je länger der Chat wird, desto länger wird's.

BrollyLSSJ · 6. August 2025

Danke für die News. Über Vergleiche mit anderen Modellen wäre ich dankbar (gerne als gesonderter Artikel).

DoS007 · 6. August 2025

Erfreulich, bisher war für local 16GB nur:

Gemma 3 27B und 12B sowie
Mistral 3.1/3.2 small interessant.

Ist die Frage, wie gut es um das Wissen von 20B stehen kann, wenn die nur so wenige Gewichte pro ein Token aktivieren. SimpleQA wäre da interessant zu wissen.

Edit:
Hier das Paper: https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

SimpleQA mit 6,8 % beim 20B Modell ist halt schon "schlecht". Gemma 12B hat schon knapp so viel ungefähhr und Gemma 27B hat 10. Und Mistral Small 3.1 (24B) hat 10,43.

GPT-OSS 20B ist wohl wirklich eher nur für Logik-Sachen zu gebrauchen. Immerhin gibt es dann mal ein gutes openweight Reasoning-Modell für daheim in Bezug auf reines Reasoning (ggf. auch nur in kurzen Kontexten). Es sei denn, die haben Themenspezifisch doch gutes Wissen.

Quelle: https://huggingface.co/blog/gemma3 ,
https://mistral.ai/news/mistral-small-3-1

A1MSTAR_ · 6. August 2025

bekommt man auf einem apfel mit m4 das große modell zum laufen und wie sieht es beim "normalen" pc mit einer 4090 und 24gb gpu ram aus ? (+48gb ddr5)

o3 kann einiges im coden , wenn man das local gleichwertig hinbekommt wär das quasi nen gamechanger

MoinWoll · 6. August 2025

A1MSTAR_ schrieb:
bekommt man auf einem apfel mit m4 das große modell zum laufen

Kommt drauf an wie viel Unified Memory Du hast. Ich würde schätzen so ab 75GB wird es laufen.

A1MSTAR_ schrieb:
und wie sieht es beim "normalen" pc mit einer 4090 und 24gb gpu ram aus ? (+48gb ddr5)

Vermutlich leicht zu knapp um vollständig in VRAM und RAM zu passen. Bei mir werden ~23GB VRAM vom Modell belegt und dann kommen noch die anderen Sachen dazu die im System VRAM brauchen. Im RAM liegen bei mir ~43GB durch das Modell und dann kommen noch etliche GB durch Windows dazu. Evtl. würde es unter Linux besser reinpassen. Kannst es aber auch einfach schnell ausprobieren. Musst nur Ollama (https://ollama.com/) runterladen und installieren und in der GUI gpt-oss:120b auswählen. Das Modell wird dann automatisch runtergeladen, konfiguriert und gestartet und Du kannst loslegen. Kann allerdings passieren, dass dein Rechner einfriert und Du einen Hardreset machen musst.

A1MSTAR_ schrieb:
o3 kann einiges im coden , wenn man das local gleichwertig hinbekommt wär das quasi nen gamechanger

Gleichwertig zu o3 (nicht -mini) ist definitiv auch die 120b-Version nicht. Zum Einen würde OpenAI dadurch ihre nicht öffentlichen Bezahl-Modelle nutzlos machen und zum Anderen braucht o3 schätzungsweise >1,5TB VRAM. Entsprechend besser ist die Qualität der Outputs und größer das gespeicherte Wissen. Evtl. gibt es irgendwann ein Modell das Ähnliches wie o3 leistet und in 80GB VRAM/RAM passt, allerdings werden die großen Modelle dann auch schon wieder deutlich leistungsfähiger sein. Denke mit wenig Speicher wird man immer deutlich hinterher hinken. Und so Sachen wie Websuche, Bilderstellung, Deep Research und Agentenmodus wirst Du zwar auch lokal irgendwie hinbasteln können, aber sicherlich (noch) nicht in der gleichen Qualität wie bei o3 in der Cloud.

A1MSTAR_ · 6. August 2025

ich such halt etwas zum coden was günstig/kostenfrei und idealerweise auf meinem pc läuft

ich mag cursor aber das begrenzen nervt.

MoinWoll · 6. August 2025

Ich würde mal schauen wie für Dich die 20b Version funktioniert. Die passt ja problemlos auf die 4090 und sollte daher extrem schnell laufen. Gerade für Coding/Logik könnte die kleine Version schon für einige Anwendungsfälle ausreichend sein. Ich würde in den Ollama Settings auch noch das Kontextfenster auf 128k erhöhen, Default sind 4k, was sehr schnell zu wenig ist. Mit 24GB VRAM sollten die 128k Token auch kein Problem sein. Alternativ kannste auch mal Magistral Small von Mistral und Gemma 3 von Google testen, die sollten auch in 24GB VRAM passen und laufen ebenfalls wunderbar mit Ollama.

A1MSTAR_ · 6. August 2025

MoinWoll schrieb:
Ich würde mal schauen wie für Dich die 20b Version funktioniert. Die passt ja problemlos auf die 4090 und sollte daher extrem schnell laufen. Gerade für Coding/Logik könnte die kleine Version schon für einige Anwendungsfälle ausreichend sein.

habe ich schon versucht , ist halt irgendwie "dumm" , gemini 2.5pro oder chatgpt 4o können da deulich mehr , hatte das gerade schon mal versucht.

add: hinzu kommt , er kann nicht mit dateien umgehen.

MoinWoll · 6. August 2025

Kontextfenster schon auf 128k erhöht? Bei den standardmäßigen 4k vergisst das Modell nach zwei drei Prompts schon wieder den ersten Prompt.

Edit: Falls es um Textdateien oder PDFs geht, dann würde ich sowas wie Open-WebUI empfehlen, was an Ollama andockt aber mehr Features ermöglicht. Auch Code-Ausführung ist dort möglich, habe ich aber selbst noch nicht getestet. Ist aber natürlich etwas aufwändiger zu installieren als Ollama, PowerShell-Befehle und so, aber o3 kann einem schon ganz gut erklären was man machen muss.

A1MSTAR_ · 6. August 2025

@MoinWoll hast du eine anleitung wie ich am besten vorgehe zum installieren von ollama und openwebui + gpu einrichtung ? , es kam mir alles sehr langsam vor maybe hat er die gpu auch nicht richtig genutzt ?

auf die 128k hatte ich erhöht

MoinWoll · 6. August 2025

@A1MSTAR_: Anleitung habe ich leider nicht zur Hand, aber ich habe mir einfach eine von o3 generieren lassen, die hat auch funktioniert. Was die Antwortgeschwindigkeit angeht, evtl. sind 128k doch zu viel für 24GB. Würde mal in den Taskmanager schauen, wie viel ggf. schon in den RAM ausgelagert wird und das Fenster evtl. leicht reduzieren. Ich hatte aber mit dem 120b Modell heute morgen auch etwas Probleme. Bei der ersten Antwort wurde es offenbar komplett in den RAM geladen und der VRAM war ungenutzt. Erst nach meiner zweiten Frage ging dann die VRAM-Belegung hoch und die zweite Antwort kam gefühlt 20 mal so schnell. Es kamen gestern und heute auch zig Ollama-Updates, ggf. läuft dort noch irgendwas nicht rund.

Naxtrumrar · 6. August 2025

konkretor schrieb:
Komm mit dem 16 GB LLM auf ner H200 auf über 100 tokens/s andere sind da bei 25/s

Jetzt kommt es drauf an wie gut es wirklich ist bei den Antworten

Ähm warum willst du das kleine Modell auf einer H200 haben? BTW schafft meine 7900XTX auch 100 Token/s

oicfar · 6. August 2025

Tzk schrieb:
Mal ne ganz naive Frage:
Ist es realistisch das 20b Modell auf einer “kleinen” GPU daheim auszuführen? Ich denke an eine 5060Ti 16gb oder sowas.

Mit einer 4060 TI 16GB und Ollama.

Marcoschwa · 6. August 2025

Finde ich ja interessant. Das Model denkt, es wäre GPT 4 Turbo und würde auf Openai Servern laufen. Und dadurch werden einige Anfragen blockiert, obwohl gar nicht nötig wäre

FrozenPie · 7. August 2025

A1MSTAR_ schrieb:
auf die 128k hatte ich erhöht

Es gibt zwei Parameter: "Max Tokens" und "num_ctx (Ollama)".

"Max Tokens" bestimmt wie viele Tokens die Antwort des LLMs enthalten darf. Beeinflusst z.T. auch die Geschwindigkeit der Ausgabe der Antworten.

"num_ctx" bestimmt wie groß das Kontextfenster des Modells ist (effektiv wie groß sein Gedächtnis ist und wie lang der Input Prompt sein kann ohne, dass etwas verloren geht). Beeinflusst die Latenz bevor mit der Antwort begonnen wird, da das gesamte Kontextfenster für die Antwort durchgearbeitet wird (z.B. der gesamte vorangegangene Chat).

Die Angabe "Context" bei den Modellen stellt die maximale Anzahl Tokens dar, die beide Parameter zusammen haben dürfen. Beispiel: Model mit 12 Tokens Context wäre mit 4 "Max Tokens" und 8 "num_ctx" ausgelastet.

Ich nutze zum Beispiel das Modell "mistral-small3.2:24b" mit 2048 "Max Tokens" und 16384 "num_ctx". Die Latenz bis die Antwort angefangen wird zu schreiben ist bei langen Chats irgendwo zwischen 30 und 60 Sekunden, aber es beachtet dann auch quasi alles. Der VRAM ist dabei aber fast vollständig ausgelastet (24 GB).
Die Standardwerte, die Open WebUI normalerweise verwendet, sind 128 "Max Tokens" und 2048 "num_ctx".

ich_nicht · 7. August 2025

Ich finde sowas durchaus gut, wenn zb. Firmen Kundendaten mit KI verarbeiten und sowas jetzt auch lokal machen können.
Das kleine 20B Modell auf Smartphones finde ich ja interessant 🤔.
Aber jetzt merkt man endlich mal, was notwendig ist um so ein Teil überhaupt zu befeuern.geht an sich auch von den Kosten. Schneller Speicher ist halt der Punkt.
Der ist ja nicht utopisch teuer. Es werden sicher auch mehr AI Chips folgen. So wird es in naher Zukunft wohl kein Ding mehr sein, solche Geschichten lokal zu haben. Selber noch erweitern /neu oder umtrainieren fände ich noch spannend.

FrozenPie · 7. August 2025

ich_nicht schrieb:
Schneller Speicher ist halt der Punkt.

Zur Ausführung ist die Speichergeschwindigkeit sogar eher zweitrangig, wenn er nicht gerade extrem langsam ist. Rechenleistung für Token/Sekunde und Speichergröße für Modelle mit mehr Parametern und größeren Kontextfenstern sind da tatsächlich entscheidender, nach den Erfahrungen die ich gemacht habe. Deswegen funktioniert das ganze auch auf den AI-Kisten mit dem 395+ so gut, da die sogar ziemlich langsamen LPDDR5X Speicher mit ca. 204,8 bis 256 GB/s einsetzen, davon aber 128 GB bzw. 96 GB für die GPU haben.

ich_nicht · 7. August 2025

@FrozenPie
@Marcoschwa
Ihr habt ja da wirklich praktische Erfahrungen mit. Macht Spaß eure Kommentare zu lesen 😊.
Ich finde das ja alles super interessant.
Macht das ganze Thema viel plastischer und greifbarer.
Leider habe ich gerade zu wenig Zeit um sowas selbst zu bauen.
Habt ihr auch bildgeneratoren probiert?

FrozenPie · 7. August 2025

ich_nicht schrieb:
Habt ihr auch bildgeneratoren probiert?

Ja, mittels ComfyUI. Da ist die Geschwindigkeit zum generieren von Bildern rasend schnell (10-20 Sekunden für 25-50 Steps) und der Speicherverbrauch quasi vernachlässigbar (unter 8 GB). Das Upscaling frisst meistens viel Zeit und relativ viel Speicher (12 GB), je nach Faktor und Tiling. Die Einstellungsmöglichkeiten bei ComfyUI sind allerdings ungeheuer komplex und definitv nichts für Anfänger (außer man nutzt einen vorgefertigten Workflow). Ich habe da auch nur was vorgefertigtes genutzt und kleine Anpassungen an manchen Teilen vorgenommen um es zu nutzen. Zum Beispiel die Integration eines ControlNet in den Workflow um auf Basis anderer Bilder oder Zeichnungen bzw. Skizzen ein neues Bild zu erstellen oder ein extra Show-Fenster um den rohen Output des Models vor der Nachbearbeitung anzusehen und die Nachbearbeitung zu canceln falls es mir nicht gefällt (spart jede Menge Zeit).
Mit ComfyUI kann man auch Videos generieren und anderes Zeug machen, da es sehr komplexe Workflows ermöglicht.

P.S.: Ich spreche hier nur für eine RTX 3090, da das die einzige Karte ist, die ich aktuell habe.

Brrr · 7. August 2025

Laut Reddit sind die Modelle ziemlich schlecht im Vergleich zu den chinesischen:
https://www.reddit.com/r/LocalLLaMA...ss_looks_more_like_a_publicity_stunt_as_more/

News gpt-oss-120b und gpt-oss-20b: OpenAI gibt offene Modelle auf o4/o3-mini-Niveau frei

Lt. Junior Grade

Admiral Pro

Lieutenant

Lt. Junior Grade

Lt. Commander Pro

Lt. Junior Grade

Lt. Commander Pro

Lt. Junior Grade

Lt. Commander Pro

Lt. Junior Grade

Lt. Commander Pro

Ensign

Captain

Cadet 3rd Year

Lt. Junior Grade

Captain

Lt. Junior Grade

Captain

Lt. Junior Grade

Lt. Commander Pro

Ähnliche Themen