News gpt-oss-120b und gpt-oss-20b: OpenAI gibt offene Modelle auf o4/o3-mini-Niveau frei

nlr

Redakteur
Teammitglied
Registriert
Sep. 2005
Beiträge
11.161
  • Gefällt mir
Reaktionen: c[A]rm[A], emerald, schneeland und 5 andere
Wie hält man das Wissen so einer KI eigentlich aktuell? Es ist ja nicht so, dass sie selbstständig auf irgendwelche Wissensdatenbanken im Netz zugreifen.
Aus meiner Sicht ist dadurch der Nutzen für den Privatanwender limitiert.

Das wäre doch mal ein schickes Projekt für die EFF und die Mozilla Foundation.
 
Mal ne ganz naive Frage:
Ist es realistisch das 20b Modell auf einer “kleinen” GPU daheim auszuführen? Ich denke an eine 5060Ti 16gb oder sowas.
 
AMD hat übrigens auch einen Artikel dazu und dass / wie man das mit seiner eigenen Hardware zu Laufen bekommt:
https://www.amd.com/en/blogs/2025/h...s-20b-120b-models-on-amd-ryzen-ai-radeon.html

Geschwindigkeit sieht ok aus auf einer 9070XT:
 
  • Gefällt mir
Reaktionen: ~Rake~, c[A]rm[A], Naxtrumrar und 11 andere
Tzk schrieb:
Ist es realistisch das 20b Modell auf einer “kleinen” GPU daheim auszuführen? Ich denke an eine 5060Ti 16gb oder sowas.
Ja ist kein Problem, die neuen Modelle kann man prima teilweise in den RAM auslagern und man erhält immer noch ein ordentliches Tempo.

Krik schrieb:
Wie hält man das Wissen so einer KI eigentlich aktuell? Es ist ja nicht so, dass sie selbstständig auf irgendwelche Wissensdatenbanken im Netz zugreifen.
Aus meiner Sicht ist dadurch der Nutzen für den Privatanwender limitiert.

Das wäre doch mal ein schickes Projekt für die EFF und die Mozilla Foundation.
Über Tool Nutzung kann es auf das Internet zugreifen, die großen nutzen das schon alle. Aber auch lokale LLMs können das bei entsprechender Implementierung auch. Alternativ natürlich neues Training oder du hängst eine eigene Vektordatenbank an und nutzt RAG, da verbindest du dich sozusagen mit einer Wissensdatenbank.
 
  • Gefällt mir
Reaktionen: schneeland, MoinWoll, Krik und eine weitere Person
Tzk schrieb:
Mal ne ganz naive Frage:
Ist es realistisch das 20b Modell auf einer “kleinen” GPU daheim auszuführen? Ich denke an eine 5060Ti 16gb oder sowas.
Sollte kein Problem sein, und die Performance dürfte auch gut sein
 
  • Gefällt mir
Reaktionen: Tzk
Das ist ja mal spannend, würde mich interessieren, was für Erfahrungen damit gemacht werden (insbesondere RAG). Wenn ich bisher lokal laufenden Modellen Dokumente gegeben habe, waren die nicht in der Lage, vollumfänglich die Daten rauszusuchen, die ich gerne gehabt hätte.
 
Komm mit dem 16 GB LLM auf ner H200 auf über 100 tokens/s andere sind da bei 25/s

Jetzt kommt es drauf an wie gut es wirklich ist bei den Antworten
 
  • Gefällt mir
Reaktionen: BrollyLSSJ, konkretor, stevefrogs und eine weitere Person
Tzk schrieb:
Ist es realistisch das 20b Modell auf einer “kleinen” GPU daheim auszuführen? Ich denke an eine 5060Ti 16gb oder sowas.
Laut OpenAI ist das 20b Modell darauf ausgelegt auf 16 GB zu laufen. Mich würde ein Vergleich zu "mistral-nemo:12b" interessieren, da das sogar mit weniger 12 GB VRAM läuft, wenn man das Kontext-Fenster nicht zu groß wählt.
Das beste Modell, was in die 24 GB VRAM meiner RTX 3090 passt, ist für mich allerdings "mistral-small3.2:24b" und zwar mit Abstand. Hat mich noch nie im Stich gelassen, egal bei welchem Thema und die Antworten werden ausreichend schnell generiert. Werde heute mal testen wie sich "gpt-oss:20b" schlägt bei meinem Aufgabenspektrum :)

Krik schrieb:
Wie hält man das Wissen so einer KI eigentlich aktuell?
Re-Training. Aktualisierte Trainingsdaten und dann erneutes trainieren des kompletten Modells. Diese Modelle sind extreme Monolithen mit hardcodiertem "Wissen". Zusätzliches bzw. aktuelles Wissen können sie sich ansonsten nur über Tools für den Internetzugriff holen.

netzgestaltung schrieb:
Hier gibts einen Artikel, wie Ollama in Fedora mit Weboberfläche zu installieren ist:
https://fedoramagazine.org/running-generative-ai-models-locally-with-ollama-and-open-webui/
Diese Kombi habe ich auch laufen, allerdings mittels "Docker Desktop" auf meiner Windows Kiste :D
Ich kann das Compose-File gerne zur Verfügung stellen, damit hat man diese Kombination mit einem Befehl aufgesetzt (für die Leute, die selbst damit experimentieren bzw. testen wollen).
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: <jACKtHErIPPER>, schneeland, konkretor und 2 andere
FrozenPie schrieb:
Das beste Modell, was in die 24 GB VRAM meiner RTX 3090 passt, ist für mich allerdings "mistral-small3.2:24b" und zwar mit Abstand. Hat mich noch nie im Stich gelassen, egal bei welchem Thema und die Antworten werden ausreichend schnell generiert. Werde heute mal testen wie sich "gpt-oss:20b" schlägt bei meinem Aufgabenspektrum :)
Danke, das genannte mistral model macht echt einen guten Eindruck. Es läuft auf meinen MacBooks (Unified Memory sei dank). Ich habe dem GPT und Mistral die selbe Aufgabe gestellt und mistral war echt deutlich besser.
 
@Augen1337
Code:
# =================
# Services
services:
  # =================
  # Ollama
  ollama:
    image: 'ollama/ollama:latest'
    pull_policy: 'always'
    hostname: 'ollama'
    container_name: 'ollama'
    ports:
      - target: 11434
        published: 11434
        protocol: tcp
        mode: host
    volumes:
      - type: 'volume'
        source: 'ollama'
        target: '/root/.ollama'
        read_only: false
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    environment:
      OLLAMA_CACHE_MODE: 'persistent'
      OLLAMA_KEEP_ALIVE: '-1m'
      TZ: 'Europe/Berlin'
    security_opt:
      - 'no-new-privileges:true'
    restart: 'unless-stopped'

  # =================
  # Open WebUI
  open-webui:
    image: 'ghcr.io/open-webui/open-webui:main'
    pull_policy: 'always'
    hostname: 'open-webui'
    container_name: 'open-webui'
    ports:
      - target: 8080
        published: 8080
        protocol: tcp
        mode: host
    volumes:
      - type: 'volume'
        source: 'open-webui'
        target: '/app/backend/data'
        read_only: false
    environment:
      ENABLE_FOLLOW_UP_GENERATION: false
      OLLAMA_BASE_URL: 'http://ollama:11434'
      TZ: 'Europe/Berlin'
    depends_on:
      - 'ollama'
    security_opt:
      - 'no-new-privileges:true'
    restart: 'unless-stopped'

# =================
# Volumes
volumes:
  ollama:
  open-webui:

Schritte zur Inbetriebnahme:
  1. Docker Desktop installieren
  2. Die "docker-compose.yaml" in einem Ordner ablegen
  3. Konsole in besagtem Ordner öffnen
  4. Befehl "docker compose up --force-recreate --remove-orphans --build -d" ausführen
  5. Im Browser "localhost:8080" aufrufen
  6. Testen :)
Zum abschalten in selbem Ordner in der Konsole "docker compose down" ausführen.

Beachte folgende Punkte:
  • Der GPU Passthrough ist dort aktuell für NVidia Karten eingerichtet. Für AMD und Intel muss man den Eintrag entsprechend anpassen.
  • Die automatisch generierten "Follow Up Questions" von Open WebUI sind über eine Umgebungsvariable deaktiviert, da das Probleme macht, wenn man die Parameter in seinem Modell ändert (ständiges auswerfen und neu laden der Modelle)
  • Das automatische Auswerfen nach einer bestimten Zeit im ollama Container wurde deaktiviert

Anscheinend unterstützt der Code-Block hier im Forum auch kein Highlighting für YAML-Dateien.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Brian.Griffin, aid0nex, Exclusiv und 4 andere
Weiss jemand was die Motivation von OpenAI ist, ein Open Source Modell zu veröffentlichen?
 
@Brrr
Ich spekuliere mal, dass man eine Gefahr darin sieht, den Open Source-Bereich komplett Llama und Mistral zu überlassen.

Leute (insbesondere der Nachwuchst, z. B. Studenten), die mit kostenlosem GPT "aufgewachsen" sind, sind später eher bereit, das kostenpflichtige GPT zu verwenden.
Das wäre eine ähnliche Strategie, die Microsoft damals mit dem Dreamspark-Programm gefahren ist.
 
  • Gefällt mir
Reaktionen: Brrr
In Benchmarks performt das gpt-oss-20B extrem gut - deutlich besser als z.B. Llama 3.3 70B, welches für seine Größe auch schon sehr gut war.

Ich wäre hier sehr interessiert, wie sich das Modell abseits von Benchmarks verhält.

Tzk schrieb:
Ist es realistisch das 20b Modell auf einer “kleinen” GPU daheim auszuführen? Ich denke an eine 5060Ti 16gb oder sowas.
Das ist MoE - selbst falls da etwas auf RAM ausgelagert werden muss wird das noch sehr schnell sein.
 
Habe mir mal gpt-oss-120b gezogen und die Einstellungen von hier genutzt: https://docs.unsloth.ai/basics/gpt-oss-how-to-run-and-fine-tune#running-gpt-oss

Funktioniert echt gut, aber um einen Vergleich zu Gemma, DeepSeek und Qwen ziehen zu können muss ich noch ein bisschen testen.

Krik schrieb:
Wie hält man das Wissen so einer KI eigentlich aktuell? Es ist ja nicht so, dass sie selbstständig auf irgendwelche Wissensdatenbanken im Netz zugreifen.
Die OpenAI und Google Modelle (die anderen sicherlich auch) haben eigene Webbrowser, die sie nutzen um aktuelle (und natürlich auch ältere) Information abzurufen. Funktioniert sehr gut. Man kann z. B. Fragen zur tagesaktuellen Nachrichtenlage stellen, die in der Regel auch richtig beantwortet werden. Auch bei lokal laufenden Modellen ist das wohl mittlerweile möglich, habe ich mich aber noch nicht näher mit beschäftigt.

badb100d schrieb:
@Tzk wenn es in deinen vram passt kannst du es ausführen
Muss nichtmal in den VRAM passen. Bei mir liegen bei Verwendung von gpt-oss-120b ~23GB im VRAM und ~43GB im RAM. Antwortzeit ist trotzdem ziemlich kurz.

Edit: Sehe grade @Exclusiv hat alles auch schon beantwortet.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: one2know und DoS007
Zurück
Oben