News Neues Spitzenmodell für ChatGPT: OpenAI verbessert GPT-5.4 bei autonomer Computersteuerung

Andy

Tagträumer
Teammitglied
Registriert
Mai 2003
Beiträge
8.305
  • Gefällt mir
Reaktionen: BrollyLSSJ, Mr Peanutbutter und schneeland
Man muss ja im Gespräch bleiben…
 
  • Gefällt mir
Reaktionen: the_IT_Guy, stevefrogs und R O G E R
Wenn ich ehrlich bin, sehe ich eigentlich keinen Unterschied in den Ergebnissen von GitHub Copilot (GPT-Codex 5.3) auf er Arbeit und meinem lokal laufenden devstral. Auch qwen2.5 und Deepseek-coder-v2-lite bringen fast die gleichen sinnvollen und sinnlosen Vorschläge.

Glaube nicht, dass 5.4 jetzt n großer Wurf wird, die Zeit der linearen Skalierung der Ergebnisse bei LLMs ist seit GPT4 wohl vorbei.
 
  • Gefällt mir
Reaktionen: Alphanerd
„Jetzt noch besser - verbesserte Formel für sichtbar gesündere Zähne.“
„Entfernt bis zu 3× mehr Plaque als eine herkömmliche Zahnpasta.“
„Klinisch getestet – bis zu 100 % mehr Schutz vor Karies.“
„Jetzt mit verbesserter Formel im Vergleich zum Vorgänger.“

....
 
  • Gefällt mir
Reaktionen: olligo, NerdmitHerz, Fighter1993 und 13 andere
Immer dieses substanzlose Bashing....

Wie lange habt ihr die neue Version denn getestet, um zu euren urteilen zu kommen? 🤡
 
  • Gefällt mir
Reaktionen: Vendetta192, Dark_Soul, Xood und 7 andere
Kann man eigentlich so einen Agenten auch ein PC-Spiel zocken lassen? Wird wahrscheinlich früher oder später kommen.
 
Er war stets bemüht... ne danke Sam, Abo ist schon gekündigt...
 
  • Gefällt mir
Reaktionen: Piehnat und monstar-x
Ich hab mir gestern einen Lageplan für ein Event mit Hilfe von Ai erstellen lassen. Claude free version hat´s besser hinbekommen als Chatgpt Plus-Membership. Prompt war derselbe.

Was kann chatgpt eigentlich besser als claude?
 
MAYvonBlei schrieb:
Kann man eigentlich so einen Agenten auch ein PC-Spiel zocken lassen? Wird wahrscheinlich früher oder später kommen.
Bei den jetzigen dürfte die Geschwindigkeit das Problem sein. Aber Tic-Tac-Toe? Klar, mit z. B. den richtigen MCP-Servern.
 
0range schrieb:
Was kann chatgpt eigentlich besser als claude?
Die waren zuerst am Markt und ChatGPT ist in aller munde.
Finde Claude wesentlich besser. Okay ich nutzte es nur zur Programierunterstützung
 
LamaMitHut schrieb:
Immer dieses substanzlose Bashing....

Wie lange habt ihr die neue Version denn getestet, um zu euren urteilen zu kommen? 🤡
Sag uns doch deine Ergebnisse?
 
  • Gefällt mir
Reaktionen: Kkndzocker, Piehnat und shifty29
LamaMitHut schrieb:
Wie lange habt ihr die neue Version denn getestet, um zu euren urteilen zu kommen? 🤡
Dafür erlaubst du dir dann einfach ein Urteil über die Kritiker.
 
  • Gefällt mir
Reaktionen: Kkndzocker, Piehnat und shifty29
Sam Altman, du kannst deinen Scheiß ChatGPT behalten und weiter auf Kuschelkurs mit dem US Militär gehen.
 
  • Gefällt mir
Reaktionen: Piehnat und shifty29
Alphanerd schrieb:
Dafür erlaubst du dir dann einfach ein Urteil über die Kritiker.

Ach komm, sein Punkt ist, dass Leute wenige Minuten nach Erscheinen des Modell bereits zu wissen scheinen, wie gut es funktioniert. Was einfach und simpel in der Kürze der Zeit nicht möglich sein kann, da dafür ne Stunde Nutzung wohl kaum ausreicht.

Der Comment, auf den er sich bezog, schrieb übrigens das er einen Vergleich zu seinem "lokalen" Modell sieht.
Die "lokalen" Modelle von openAI können aktuell dann nur GPT OSS 120b oder 20b sein.

Da 120b in der Regel erst ab 80GB VRAM flüssig und ohne Aussetzer läuft, kann er sich eigentlich nur auf 20b beziehen. Hier gibt OpenAI eine vergleichbare Leistungsfähigkeit zu GPT3-mini aus. Qwen 2.5 und deepseek (lokal) gelten als vergleichbar, bis leicht schlechter.

Wenn also jemand nach einer Stunde Nutzung zu dem Ergebnis kommt, dass 5.4 nicht besser sei als 3.1-mini, naja, dann kann man dem entweder Glauben schenken, oder kritisch hinterfragen, in wie weit denn da qualitativ getestet wurde.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Dark_Soul, Xood und Bulletchief
MAYvonBlei schrieb:
Kann man eigentlich so einen Agenten auch ein PC-Spiel zocken lassen? Wird wahrscheinlich früher oder später kommen.
LLMs sind da jetzt eher nicht das beste Mittel. Dazu nutzt man eher RL (reinforcement learning) Agents weil sie aus ihren Interaktionen mit der Umgebung lernen und in ihrem Wissen nicht eingefroren sind wie LLMs.
Siehe z.B. die diversen Modelle von DeepMind oder OpenAI Five.
 
  • Gefällt mir
Reaktionen: Kuristina
Ich nutze ChatGPT und Copilot bei der Programmierung, seit es auf dem Markt ist. Die Fortschritte sind immer deutlich sichtbar. Mit Agenten (z. B. Codex CLI) wurde noch einmal eine ganz andere Liga erreicht.

Bei jedem Wechsel habe ich zunächst das Gefühl, dass irgendetwas nicht ganz stimmt. Aber nach ein paar Tagen oder Wochen läuft es dann meistens sehr rund.

Wo ich früher maximal die Vervollständigungen nutzen konnte, ist es mittlerweile möglich, wirklich sinnvolle Dinge damit umzusetzen, teilweise quasi halb autonom. Das ist schon bemerkenswert und längst kein Spielzeug mehr.
Lokale Modelle kommen da nicht mit, wobei meine 8 GB Grafikarte auch keine anständigen Modelle ausführen kann. :-)

Produktions-Code lasse ich allerdings noch nicht direkt davon schreiben. Ich nutze es eher für Tooling und ähnliche Dinge. Ideen und Ansätze habe ich unendlich viele, nur fehlt mir die Zeit, alles umzusetzen. Genau hier öffnet sich langsam eine interessante Möglichkeit: der KI zu sagen, was ich gerne hätte, wie es funktionieren soll, und sie dann ein paar Stunden daran arbeiten zu lassen.

Innerhalb eines guten Frameworks und mit klarer Guidance kann das eine solide Basis liefern. Lässt man es jedoch komplett frei laufen und quer durch Open Source alles mögliche einbinden, entsteht schnell Spaghetti-Code, der kaum noch zu bändigen ist.
 
Nee danke. Scam Altman kann sein Zeug ruhig behalten und weiter auf Trump-Kurs kuscheln und dem Militär beim töten von Menschen helfen.
 
  • Gefällt mir
Reaktionen: olligo
Zurück
Oben