News o3 und o4-mini: OpenAIs neue Modelle halluzinieren mehr als die Vorgänger

Vigilant · 21. April 2025

Reasoning-Modelle gehen in eine ähnliche Richtung und werden vermutlich fester Bestandteil werden.

Die verlinkten Papiere beschreiben nur sehr eng limitierte Szenarien (Coding, Othello-Spiel) und könnten u.a. einmal Grundlage für die weitere Verbesserung der Modelle sein.

Stand heute würde ich den großen Universal-Modellen ein grundsätzliches, zuverlässig reproduzierbares und wissenschaftlich validierbares Weltverständnis absprechen.

Wird spannend, wie sich das in Zukunft entwickeln wird. Ich denke, man steht da immer noch irgendwo am Anfang der Entwicklung.

H@rlekin · 21. April 2025

Keine Halluzinationen, die KIs konfabulieren.

Break16 · 21. April 2025

Skudrinka schrieb:
was einem vor die Füße gelegt wird

schlimm ist es, wenn man gute Empfehlungen für Restaurants braucht, da werden einem Locations empfohlen, die extrem schlechte Bewertungen haben... da ist Grok viel besser.

user_zero · 21. April 2025

Vigilant schrieb:
Weltverständnis

Ich halte diese Personifizierung von LLMs für ein großes Missverständnis. Die haben aktuell gar kein Verständnis, sondern sind Wahrscheinlichkeitsrechner. Das muss nicht so bleiben, aber was Texte und komplexe Zusammenhänge angeht sehe ich aktuell keinen Mehrwert.

Bei spezialisierten Modellen sieht es wiederum ganz anders aus. Menschen werden nie wieder Schach gegen eine KI gewinnen. Abgefahren. Auch was Mustererkennung oder Verarbeitung von Echtzeitdaten angeht entsteht ein echter Mehrwert. Oder die Mustererkennung und das Vorhersagen von Krankheiten, ebenfalls eine sehr gute Unterstützung.

Alles andere ist Spielzeug und beeindruckt mich persönlich nicht.

Muntermacher · 21. April 2025

Man merkt also wie sehr man noch in den Kinderschuhen steckt und es in vielen, nicht allen Bereichen noch nicht produktiv genutzt werden kann. Aber es ist auch etwas gutes dabei: durch die massenhafte Nutzungvost der Fortschritt vielleicht schneller.

@Andy
Beim Artikel fallen mir sehr viele Anglizismen auf, die unnötig sind. Zum einen sind Prozesse keine Eigennamen, man kann sie also übersetzen, zum anderen zeigt die Notwendigkeit Anglizismen erklaren zu müssen, wie hier durch kurze Übersetzung geschehen, daß sie eben nicht verbreitet sind und es auch kurz auf deutsch geht. Warum also?

computerbaser_ · 21. April 2025

Ich finde für die Bilderstellung oder Musikspielereien kann man die KI nutzen. Um Fakten zu recherchieren wohl eher weniger.

zweitnick · 21. April 2025

Problematisch it, dass immer mehr dieser halluzinierten "Fakten" Im Netzt landen, worauf sich dann wiederum Suchmaschinen/andere LLMs beziehen usw. Wir unterminieren also selbst unsere Wissensbasis, und machen uns selbst damit dümmer....

Vigilant · 21. April 2025

@zweitnick
DAS ist der Punkt.

tox1c90 · 21. April 2025

Die interessanteste Metrik für die Praxistauglicheit ist eigtl das Verhältnis richtiger zu falscher Aussagen. Der Fall „gar keine Aussage“ ist ja zu verschmerzen, denn das ist schließlich besser als eine falsche Aussage.
Und in dem Verhältnis ist o1 dann sogar besser als o3. Bringt ja in der Praxis nichts, wenn die Antwort schöner zu lesen und kreativer ist, aber halt inhaltlich falsch.

Fight for Right · 21. April 2025

Und so beginnt das ganze! Die scheincontrolle endet langsam aber sicher!

the_IT_Guy · 21. April 2025

H@rlekin schrieb:
konfabulieren.

Wunderschön, das merk ich mir.
Aber ich glaube das Paper sagt einfach alles dazu.
ChatGPT is bullshit

user_zero schrieb:
Ich halte diese Personifizierung von LLMs für ein großes Missverständnis. [...]

Alles andere ist Spielzeug und beeindruckt mich persönlich nicht.

Exakt seh ich genauso.
Extrem Leistungsfähig im erkennen von Mustern und Generieren von Mustern, aber ansonsten nicht das was das Marketing versucht draus zu machen.

user_zero · 21. April 2025

zweitnick schrieb:
und machen uns selbst damit dümmer....

Nur Geduld. Wir haben es geschafft, die Algorithmen auf den Social Media Plattformen so zu trainieren, dass sie uns manipulieren können. Leider halt immer nur negativ, aber anders scheint sich mit den Plattformen kein Geld verdienen zu lassen. In ein paar Jahren haben wir die KI dann auch so weit…

Land_Kind · 21. April 2025

Ich finde das vermehrte "halluzinieren" nicht nur "kurios", sondern sehr bedenklich.
In einer Zeit, in der sich Menschen dummblind auf einen "Autopiloten" in ihrer Karre verlassen und damit in den Tod rasen, kann man die Folgen von KIs mit "Halluzinationen" (was ja nichts anderes als Unwahrheiten, Lügen sind) ja in etwa ausdenken.
Viele haben inzwischen ein so schlechtes Allgemeinwissen, dass sie gar nicht mehr zwischen Fakten und Pseudofakten unterscheiden können.
Und jene, die ihr Leben blind einem Autopiloten anvertrauen, vertrauen erst recht blind einer ach so klugen KI, egal wie viele Märchen die hin und wieder erzählen mag.

Ich war und bin eigentlich ein grosser Technikfreak und daneben auch ein Optimist. Doch inzwischen bewegen sich viele Dinge meiner Meinung nach in eine komplett falsche Richtung und meine Bedenken darüber werden immer grösser (genau wie über das aktuelle Geschehen in der Weltpolitik)...

Andreas07 · 21. April 2025

Waldheinz schrieb:
Noch besser, man kann Copilot tatsächlich so lange befragen (und widersprechen) bis man die gewünschte Antwort bekommt. 👍

Meine Frage an Copilot ob es sich selbst für intelligent hält, verneinte es zum Schluss selbst, auch nach mehrmaligem Nachfragen.
Und dem stimme ich auch zu. Es gibt keine KI, künstlich ja, aber nicht intelligent, zumindest nicht in dem Sinne was man so allgemein für intelligent hält, bzw. bisher gehalten hat. 😉

Hallo zusammen!

Diese Frage habe ich in gewisser Weise mal die Browser-Erweiterung >Monica<, die ich ausprobiere, gestellt.

"Monica, bist Du intelligent?"

Antwort von Monica: "Ich bin ein KI-gestützter virtueller Assistent, der darauf trainiert ist, Informationen bereitzustellen, Fragen zu beantworten und bei verschiedenen Aufgaben zu helfen. Meine "Intelligenz" basiert auf Mustern in den Daten, mit denen ich trainiert wurde. Ich kann also viele Fragen beantworten und nützliche Informationen bereitstellen, jedoch nicht im gleichen Sinne wie ein Mensch denken oder fühlen. Wenn du Fragen hast oder Hilfe benötigst, stehe ich dir gerne zur Verfügung!"

So als Laie gedacht, empfinde ich das als eine recht gute Antwort.

Gruß Andi

user_zero · 21. April 2025

„Automatisiertes googeln“ ist für mich keine Form von Intelligenz.

Ich glaube, die meisten sind fasziniert davon, dass man dem Ding eine Frage stellt und eine Antwort bekommt. Ob die dann stimmt, irrelevant.

Ich frage mich auch ein bisschen, wofür wir die freigewordene Bandbreite verwenden werden. Folgende kognitive Fähigkeiten werden obsolet:

sich Dinge merken
Zusammenhänge erkennen
eine Sprache lernen

Dummerweise sind das alles Dinge, die gut für die Entwicklung unseres Gehirns sind, uns also schlauer machen. Wenn wir das nicht mehr selber tun müssen, womit trainieren wir die grauen Zellen dann? Und jetzt kommt bitte niemand und sagt „lernen, wie man richtig promptet“…

4nanai · 21. April 2025

[

firejohn schrieb:
[...]

Das war anstrenger zu lesen als jeglicher AI Slop.

Tevur · 21. April 2025

user_zero schrieb:
Folgende kognitive Fähigkeiten werden obsolet:

Oh, ein Beitrag aus dem Jahr 1986, wie schön retro.

k0ntr · 21. April 2025

mittlerweile muss ich openAI immer öfter verbessern bzw. die richtige antwort zwei mal geben bis es versteht dass seine antwort nicht richtig ist. hier gehts auch um ganz einfaches allgemeinwissen.

no_trust · 21. April 2025

user_zero schrieb:
Menschen werden nie wieder Schach gegen eine KI gewinnen.

Das was heute überwiegend als "Ki" ( basierend auf LLM ) bezeichnet wird ist nicht intelligent.
Und spielt auch nicht "unschlagbar" Schach.

( Der Link springt gleich an eine Stelle wo ChatCPT aus dem Nichts einen zusätzlichen Bauern aufs Feld stellt.
Ein Kind würde verstehen das das keine zulässiger Move ist )

Programme die unschlagbar sind ( und auch keine simplen Fehler wie illegale Züge machen )
sind spezielle Schachprogramme wie Stockfish, Alphazero oder Leela.
Aber die basieren eben nicht auf "statistischen Vorhersagen" welches Wort in einem Text wohl als nächstes am wahrscheinlichsten ist. ( Eben LargeLanguageModels )

Waldheinz · 21. April 2025

Andreas07 schrieb:
So als Laie gedacht, empfinde ich das als eine recht gute Antwort.

Gruß Andi

Die Antwort mag zwar gut sein, aber die Antwort weist weder auf eine Intelligenz, noch ist sie intelligent. Sie beschreibt den tatsächlichen Zustand aber ziemlich gut. Eine Intelligenz muss nicht mit Daten gefüttert werden und wird auch nicht "trainiert". Von daher passt die Antwort natürlich. Aber wie gesagt, hat nichts mit Intelligenz zu tun. Das ist eher ein Automatismus. Bzw. hat es immer etwas mit "wenn dann" zu tun.

News o3 und o4-mini: OpenAIs neue Modelle halluzinieren mehr als die Vorgänger

Admiral Pro

Ensign

Lt. Junior Grade

Lieutenant Pro

Lt. Commander

Lieutenant

Lieutenant

Admiral Pro

Lt. Commander Pro

Lieutenant

Lieutenant Pro

Lieutenant Pro

Lieutenant

Cadet 4th Year

Lieutenant Pro

Captain

Lt. Commander

Commodore

Ensign

Rear Admiral

Ähnliche Themen