News gpt-oss-120b und gpt-oss-20b: OpenAI gibt offene Modelle auf o4/o3-mini-Niveau frei

nlr · 6. August 2025

OpenAI hat mit den Sprachmodellen gpt-oss-120b und gpt-oss-20b zwei offene Modelle unter einer flexiblen Apache-2.0-Lizenz freigegeben, die in Core-Reasoning-Benchmarks nahezu Parität mit o4- und o3-mini erreichen sollen. Die Sprachmodelle sind für das Ausführen auf einer einzelnen 80-GB-GPU und Edge-Geräten mit 16 GB ausgelegt.

Zur News: gpt-oss-120b und gpt-oss-20b: OpenAI gibt offene Modelle auf o4/o3-mini-Niveau frei

Krik · 6. August 2025

Wie hält man das Wissen so einer KI eigentlich aktuell? Es ist ja nicht so, dass sie selbstständig auf irgendwelche Wissensdatenbanken im Netz zugreifen.
Aus meiner Sicht ist dadurch der Nutzen für den Privatanwender limitiert.

Das wäre doch mal ein schickes Projekt für die EFF und die Mozilla Foundation.

Tzk · 6. August 2025

Mal ne ganz naive Frage:
Ist es realistisch das 20b Modell auf einer “kleinen” GPU daheim auszuführen? Ich denke an eine 5060Ti 16gb oder sowas.

Enurian · 6. August 2025

AMD hat übrigens auch einen Artikel dazu und dass / wie man das mit seiner eigenen Hardware zu Laufen bekommt:
https://www.amd.com/en/blogs/2025/h...s-20b-120b-models-on-amd-ryzen-ai-radeon.html

Geschwindigkeit sieht ok aus auf einer 9070XT:

badb100d · 6. August 2025

@Tzk wenn es in deinen vram passt kannst du es ausführen

Project-Phill · 6. August 2025

Open ai will also nicht, das die gooner das in die hände kriegen

Exclusiv · 6. August 2025

Tzk schrieb:
Ist es realistisch das 20b Modell auf einer “kleinen” GPU daheim auszuführen? Ich denke an eine 5060Ti 16gb oder sowas.

Ja ist kein Problem, die neuen Modelle kann man prima teilweise in den RAM auslagern und man erhält immer noch ein ordentliches Tempo.

Krik schrieb:
Wie hält man das Wissen so einer KI eigentlich aktuell? Es ist ja nicht so, dass sie selbstständig auf irgendwelche Wissensdatenbanken im Netz zugreifen.
Aus meiner Sicht ist dadurch der Nutzen für den Privatanwender limitiert.

Das wäre doch mal ein schickes Projekt für die EFF und die Mozilla Foundation.

Über Tool Nutzung kann es auf das Internet zugreifen, die großen nutzen das schon alle. Aber auch lokale LLMs können das bei entsprechender Implementierung auch. Alternativ natürlich neues Training oder du hängst eine eigene Vektordatenbank an und nutzt RAG, da verbindest du dich sozusagen mit einer Wissensdatenbank.

Oteph · 6. August 2025

Tzk schrieb:
Mal ne ganz naive Frage:
Ist es realistisch das 20b Modell auf einer “kleinen” GPU daheim auszuführen? Ich denke an eine 5060Ti 16gb oder sowas.

Sollte kein Problem sein, und die Performance dürfte auch gut sein

interesTED · 6. August 2025

Das ist ja mal spannend, würde mich interessieren, was für Erfahrungen damit gemacht werden (insbesondere RAG). Wenn ich bisher lokal laufenden Modellen Dokumente gegeben habe, waren die nicht in der Lage, vollumfänglich die Daten rauszusuchen, die ich gerne gehabt hätte.

konkretor · 6. August 2025

Komm mit dem 16 GB LLM auf ner H200 auf über 100 tokens/s andere sind da bei 25/s

Jetzt kommt es drauf an wie gut es wirklich ist bei den Antworten

netzgestaltung · 6. August 2025

Hier gibts einen Artikel, wie Ollama in Fedora mit Weboberfläche zu installieren ist:
https://fedoramagazine.org/running-generative-ai-models-locally-with-ollama-and-open-webui/

Auch interessant, es gibt ein Rocm Paket für AMD:
https://github.com/ollama/ollama/blob/main/docs/linux.md#install-amd-rocm-drivers-optional

FrozenPie · 6. August 2025

Tzk schrieb:
Ist es realistisch das 20b Modell auf einer “kleinen” GPU daheim auszuführen? Ich denke an eine 5060Ti 16gb oder sowas.

Laut OpenAI ist das 20b Modell darauf ausgelegt auf 16 GB zu laufen. Mich würde ein Vergleich zu "mistral-nemo:12b" interessieren, da das sogar mit weniger 12 GB VRAM läuft, wenn man das Kontext-Fenster nicht zu groß wählt.
Das beste Modell, was in die 24 GB VRAM meiner RTX 3090 passt, ist für mich allerdings "mistral-small3.2:24b" und zwar mit Abstand. Hat mich noch nie im Stich gelassen, egal bei welchem Thema und die Antworten werden ausreichend schnell generiert. Werde heute mal testen wie sich "gpt-oss:20b" schlägt bei meinem Aufgabenspektrum

Krik schrieb:
Wie hält man das Wissen so einer KI eigentlich aktuell?

Re-Training. Aktualisierte Trainingsdaten und dann erneutes trainieren des kompletten Modells. Diese Modelle sind extreme Monolithen mit hardcodiertem "Wissen". Zusätzliches bzw. aktuelles Wissen können sie sich ansonsten nur über Tools für den Internetzugriff holen.

netzgestaltung schrieb:
Hier gibts einen Artikel, wie Ollama in Fedora mit Weboberfläche zu installieren ist:
https://fedoramagazine.org/running-generative-ai-models-locally-with-ollama-and-open-webui/

Diese Kombi habe ich auch laufen, allerdings mittels "Docker Desktop" auf meiner Windows Kiste

Ich kann das Compose-File gerne zur Verfügung stellen, damit hat man diese Kombination mit einem Befehl aufgesetzt (für die Leute, die selbst damit experimentieren bzw. testen wollen).

Augen1337 · 6. August 2025

@FrozenPie : Ja, do it.

NJay · 6. August 2025

FrozenPie schrieb:
Das beste Modell, was in die 24 GB VRAM meiner RTX 3090 passt, ist für mich allerdings "mistral-small3.2:24b" und zwar mit Abstand. Hat mich noch nie im Stich gelassen, egal bei welchem Thema und die Antworten werden ausreichend schnell generiert. Werde heute mal testen wie sich "gpt-oss:20b" schlägt bei meinem Aufgabenspektrum

Danke, das genannte mistral model macht echt einen guten Eindruck. Es läuft auf meinen MacBooks (Unified Memory sei dank). Ich habe dem GPT und Mistral die selbe Aufgabe gestellt und mistral war echt deutlich besser.

FrozenPie · 6. August 2025

@Augen1337

Code:

# =================
# Services
services:
  # =================
  # Ollama
  ollama:
    image: 'ollama/ollama:latest'
    pull_policy: 'always'
    hostname: 'ollama'
    container_name: 'ollama'
    ports:
      - target: 11434
        published: 11434
        protocol: tcp
        mode: host
    volumes:
      - type: 'volume'
        source: 'ollama'
        target: '/root/.ollama'
        read_only: false
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    environment:
      OLLAMA_CACHE_MODE: 'persistent'
      OLLAMA_KEEP_ALIVE: '-1m'
      TZ: 'Europe/Berlin'
    security_opt:
      - 'no-new-privileges:true'
    restart: 'unless-stopped'

  # =================
  # Open WebUI
  open-webui:
    image: 'ghcr.io/open-webui/open-webui:main'
    pull_policy: 'always'
    hostname: 'open-webui'
    container_name: 'open-webui'
    ports:
      - target: 8080
        published: 8080
        protocol: tcp
        mode: host
    volumes:
      - type: 'volume'
        source: 'open-webui'
        target: '/app/backend/data'
        read_only: false
    environment:
      ENABLE_FOLLOW_UP_GENERATION: false
      OLLAMA_BASE_URL: 'http://ollama:11434'
      TZ: 'Europe/Berlin'
    depends_on:
      - 'ollama'
    security_opt:
      - 'no-new-privileges:true'
    restart: 'unless-stopped'

# =================
# Volumes
volumes:
  ollama:
  open-webui:

Schritte zur Inbetriebnahme:

Docker Desktop installieren
Die "docker-compose.yaml" in einem Ordner ablegen
Konsole in besagtem Ordner öffnen
Befehl "docker compose up --force-recreate --remove-orphans --build -d" ausführen
Im Browser "localhost:8080" aufrufen
Testen

Zum abschalten in selbem Ordner in der Konsole "docker compose down" ausführen.

Beachte folgende Punkte:

Der GPU Passthrough ist dort aktuell für NVidia Karten eingerichtet. Für AMD und Intel muss man den Eintrag entsprechend anpassen.
Die automatisch generierten "Follow Up Questions" von Open WebUI sind über eine Umgebungsvariable deaktiviert, da das Probleme macht, wenn man die Parameter in seinem Modell ändert (ständiges auswerfen und neu laden der Modelle)
Das automatische Auswerfen nach einer bestimten Zeit im ollama Container wurde deaktiviert

Anscheinend unterstützt der Code-Block hier im Forum auch kein Highlighting für YAML-Dateien.

Brrr · 6. August 2025

Weiss jemand was die Motivation von OpenAI ist, ein Open Source Modell zu veröffentlichen?

Krik · 6. August 2025

@Brrr
Ich spekuliere mal, dass man eine Gefahr darin sieht, den Open Source-Bereich komplett Llama und Mistral zu überlassen.

Leute (insbesondere der Nachwuchst, z. B. Studenten), die mit kostenlosem GPT "aufgewachsen" sind, sind später eher bereit, das kostenpflichtige GPT zu verwenden.
Das wäre eine ähnliche Strategie, die Microsoft damals mit dem Dreamspark-Programm gefahren ist.

Rickmer · 6. August 2025

In Benchmarks performt das gpt-oss-20B extrem gut - deutlich besser als z.B. Llama 3.3 70B, welches für seine Größe auch schon sehr gut war.

Ich wäre hier sehr interessiert, wie sich das Modell abseits von Benchmarks verhält.

Tzk schrieb:
Ist es realistisch das 20b Modell auf einer “kleinen” GPU daheim auszuführen? Ich denke an eine 5060Ti 16gb oder sowas.

Das ist MoE - selbst falls da etwas auf RAM ausgelagert werden muss wird das noch sehr schnell sein.

MoinWoll · 6. August 2025

Habe mir mal gpt-oss-120b gezogen und die Einstellungen von hier genutzt: https://docs.unsloth.ai/basics/gpt-oss-how-to-run-and-fine-tune#running-gpt-oss

Funktioniert echt gut, aber um einen Vergleich zu Gemma, DeepSeek und Qwen ziehen zu können muss ich noch ein bisschen testen.

Krik schrieb:
Wie hält man das Wissen so einer KI eigentlich aktuell? Es ist ja nicht so, dass sie selbstständig auf irgendwelche Wissensdatenbanken im Netz zugreifen.

Die OpenAI und Google Modelle (die anderen sicherlich auch) haben eigene Webbrowser, die sie nutzen um aktuelle (und natürlich auch ältere) Information abzurufen. Funktioniert sehr gut. Man kann z. B. Fragen zur tagesaktuellen Nachrichtenlage stellen, die in der Regel auch richtig beantwortet werden. Auch bei lokal laufenden Modellen ist das wohl mittlerweile möglich, habe ich mich aber noch nicht näher mit beschäftigt.

badb100d schrieb:
@Tzk wenn es in deinen vram passt kannst du es ausführen

Muss nichtmal in den VRAM passen. Bei mir liegen bei Verwendung von gpt-oss-120b ~23GB im VRAM und ~43GB im RAM. Antwortzeit ist trotzdem ziemlich kurz.

Edit: Sehe grade @Exclusiv hat alles auch schon beantwortet.

rollmoped · 6. August 2025

Die Qualität der Antworten von GPT-OSS 20B ist bisher sehr gut. Aber es dauert im Vergleich zu Mistral-Small lange, bis es anfängt, zu antworten.

News gpt-oss-120b und gpt-oss-20b: OpenAI gibt offene Modelle auf o4/o3-mini-Niveau frei

Redakteur

Fleet Admiral Pro

Commodore

Commander

Cadet 4th Year

Cadet 4th Year

Ensign

Cadet 4th Year

Lt. Junior Grade Pro

Artikeldetektiv

Commodore

Lt. Junior Grade

Captain Pro

Vice Admiral Pro

Lt. Junior Grade

Lt. Commander Pro

Fleet Admiral Pro

Silent-Fanatiker Pro

Lt. Commander Pro

Lieutenant

Ähnliche Themen