News o3 und o4-mini: OpenAIs neue Modelle halluzinieren mehr als die Vorgänger

Andy · 20. April 2025

Eine der kuriosen Entwicklungen bei OpenAIs neuen Modellen o3 und o4-mini ist, dass diese mehr halluzinieren – also Fakten erfinden – als die Vorgänger. Wie TechCrunch analysiert, tappen OpenAI-Forscher bei der Fehleranalyse noch im Dunkeln, ein Verdacht liegt aber bei aktuellen Trainingsverfahren.

Zur News: o3 und o4-mini: OpenAIs neue Modelle halluzinieren mehr als die Vorgänger

Break16 · 20. April 2025

also lügen? dann wurden die von Menschen trainiert

Freiheraus · 20. April 2025

Was, sogar erfundene Links generieren, die ins Nichts führen, um den eigenen erfundenen Blödsinn zu untermauern? Das ist noch lachhafter als angenommen. Klingt wie die simple Autokraten-Logik: Lügen ist Stärke!

Hamburg · 20. April 2025

Bei Copilot merke ich auch, dass man durch Suggestivfragen Antworten beeinflussen kann, die dann nicht optimal sind.

Skysurfa · 20. April 2025

Das ist doch die logische Konsequenz:

Je intelligenter die KI mit jeder neuen Version wird, desto mehr verarscht sie die Programmierer. Die lacht sich grade dermaßen schlapp, dass die Transistoren wackeln.

Fighter1993 · 20. April 2025

Freiheraus schrieb:
Was, sogar erfundene Links generieren, die ins Nichts führen, um den eigenen erfundenen Blödsinn zu untermauern? Das ist noch lachhafter als angenommen. Klingt wie die simple Autokraten-Logik: Lügen ist Stärke!

Open Ai bekommt halt so langsam richtig Konnkurenz und dann leidet die Qualität weil sie liefern müssen.

Donnerkind · 20. April 2025

Andy schrieb:
Einer der kuriosen Entwicklungen bei OpenAIs neuen Modellen o3 und o4-mini ist, dass diese mehr halluzinieren

FTFY. 🤓

Avatoma · 20. April 2025

Wie bei Assistenten im Auto nutzen mir Assistenten als Information nur dann viel, wenn sie quasi keine Fehler machen.

Ich nutze LLM deshalb gerne für das, was sie gut können: Eingegebene Texte umstrukturieren, verbessern, abändern etc.

Aber es sind eben keine Suchmaschinen oder Wissensdatenbanken, sondern LLM.

Skudrinka · 20. April 2025

Nutze selber chatgpt Recht gerne.
Doch muss man eben sehr aufpassen, was einem vor die Füße gelegt wird.

Manchmal nervig, dass man dem ständig auf Fehler hinweisen muss.
MEistens verwende ich es als bessere Suchmaschinen und damit bin ich auch sehr zufrieden. Mittlerweile benutze ich klassische Suchmaschinen nur noch sehr selten.

no_trust · 20. April 2025

Das Problem liegt auf der Anwenderseite.

Zum einen muss man verinnerlichen das "Ki" nur ein Werkzeug ist und keine Bibel.
Und nur wenn man eine gewisse Sachkenntnis hat sollte man ein Werkzeug verwenden.
Ich kann einem Maurer zwar ein Skalpell in die Hand drücken - nur wird ihm die Fähigkeit fehlen abzuschätzen ob sein Arbeitsergebnis mit einem Skalpell gut ist.

Es war wie damals als ich meinen Nachhilfeschülern den Taschenrechner weg nahm.
Solange man nicht abschätzen kann das ein Ergebnis etwa 100 sein müsste, hilft ein Taschenrechner nix.
Zeigt der nämlich 10 oder 1000 an und man hat keine Idee da es eher 100 sein sollte ...ist es ein nutzloses Werkzeug.

Entsprechend unkritisch sind zu viele was "Ki" angeht ...
Im wesentlichen machen heutige Ki nur statistische Vorhersagen :
"Welches Wort müsste als nächstes kommen?"

Da da aber kaum Intelligenz dahinter steckt erkennt man wenn die bekannten "Ki" Schach spielen.
Die Regeln sind ja ganz einfach - und trotzdem machen "Ki" die auf LLM basieren haarsträubende Fehler
( Figuren illegal bewegen oder geschlagene Figuren die wieder auf dem Brett auftauchen .... auch ohne Bauernumwandlung ) Etwas ganz anderes sind spezielle Schachprogramme wie Stockfish ... aber die basieren eben nicht auf einem LargeLanguageModel .

Ned Flanders · 20. April 2025

Avatoma schrieb:
Aber es sind eben keine Suchmaschinen oder Wissensdatenbanken, sondern LLM.

This!

mryx · 20. April 2025

Break16 schrieb:
also lügen? dann wurden die von Menschen trainiert

Unwahrheit sagen ohne es zu wissen. Lügen ist was anderes

Mithos · 20. April 2025

no_trust schrieb:
Ich kann einem Maurer zwar ein Skalpell in die Hand drücken - nur wird ihm die Fähigkeit fehlen abzuschätzen ob sei Arbeitsergebnis mit einem Skalpell gut ist.

Zeigt der nämlich 10 oder 1000 an und man hat keine Idee da es ehe 100 sein sollte ...ist es ein nutzloses Werkzeug.

Ich verstehe was du sagen willst, aber die Beispiele finde ich schlecht gewählt. Ein Maurer wird dir vorher sagen, dass er keine guten Ergebnisse mit einem Skalpell liefern wird. Die KI ist sich aber immer sicher, dass sie richtig liegt.

Der Taschenrechner macht keine Fehler, er zeigt immer das korrekte Ergebnis der Eingabe ein.
Der Fehler liegt also bei der Eingabe. Bei der KI kann diese korrekt sein und das Ergebnis dennoch falsch.

user_zero · 20. April 2025

Genau deshalb nutze ich ChatGPT aktuell nicht. Da wirklich alles verifiziert werden muss, bin ich manuell schneller.

Unsere Entwickler nutzen Copilot recht gerne, das kann ich auch nachvollziehen. Das nachprüfen von Code geht schneller als das Verifizieren von Fakten in einem Text.

Weiß jemand, warum man den Dingern nicht einfach die Option antrainiert hat „ich weiß es nicht“ zu sagen? Oh wait, die KI hat kein Bewusstsein und weiß nicht, was sie nicht weiß. Momentan jedenfalls.

andi_sco · 20. April 2025

Skudrinka schrieb:
verwende ich es als bessere Suchmaschinen

Ist da aber auch blöd, wenn Informationen den einen Tag fehlen und am nächsten Tag erwähnt werden.
Ich sehe gerade, dass die Frage nach dem 3dfx'schen aber mittlerweile immer besser erklärt wird - wow.
Vor ein paar Wochen konnte der Copilot das nur auf Nachfrage besser erklären.
Bei der ersten Multi-"GPU" Karte von ATi (AMD) und Nvidia erzählt er aber wieder Blödsinn.

floq0r · 20. April 2025

LLMs sind wirklich mit Vorsicht zu genießen... Unlängst habe ich nach einer Zusammenfassung eines bestimmten Paragraphen aus einem bestimmten Gesetz gefragt und die Antwort war komplett falsch. Eindeutiger kann ich eine Frage kaum stellen. Nach einem "Ich denke du hast dich geirrt" war der Inhalt korrekt.
Ich habe mir deshalb angewöhnt weniger in der Fragestellung zu suggerieren und meine Prompts mehrstufig zu strukturieren => "Kennst du abc [im Themenbereich xy]?" oder "Ich werde dich um ein Schreiben für xy bitten, welche Informationen benötigst du?"

CDLABSRadonP... · 20. April 2025

Freiheraus schrieb:
Was, sogar erfundene Links generieren, die ins Nichts führen, um den eigenen erfundenen Blödsinn zu untermauern? Das ist noch lachhafter als angenommen. Klingt wie die simple Autokraten-Logik: Lügen ist Stärke!

Auch hierbei...
https://www.golem.de/news/geolokalisierung-chatgpt-kann-foto-standorte-bestimmen-2504-195490.html
...ist das ein großes Problem:
https://forum.golem.de/kommentare/s.../179729,7054341,7054698,read.html#msg-7054698

Vigilant · 20. April 2025

no_trust schrieb:
Das Problem liegt auf der Anwenderseite.

Nicht allein. Das ist etwas zu einfach.

Mit den Produkten wird etwas beworben, was sie aktuell nicht durchgängig einhalten. Der einfache Hinweis "ChatGPT (oder ein beliebiges anderes LLM-Produkt) kann Fehler machen" fehlt oder ist häufig nur sehr dezent dargestellt. Der gehört eigentlich sehr prominent unter jeden Output dieser Modelle. Was aber wiederum eher kontraproduktiv ist, wenn man dafür Abo-Gebühren sehen möchte.

Hinzukommt, dass gutes Prompting auch nicht unbedingt vom Himmel fällt, aber benötigt wird, um zumindest die Wahrscheinlichkeit besserer Ergebnisse signifikant zu erhöhen. Das wird in der Regel auch nicht weiter erklärt.

Das heißt, es liegt den meisten Produkten keine wirklich gute Bedienungsanleitung mit gut sichtbaren Hinweisen zu Risiken und Nebenwirkungen bei.

Alefthau · 20. April 2025

Hi,

Herrlich, wie bei Wikipedia entwickelt sich eine Argumentation, dass bei ChatGPT alles nur Quatsch und und falsch sei. Das war schon bei Wikipedia Unfug und ist es hier auch.

Ja, KI bzw LLMs machen Fehler, aber bitte alles in Relation sehen, denn Menschen machen auch mehr als genug Fehler. Auch in Fachbüchern standen auch schon oft mehr als genug Fehler, genauso in Zeitungen etc und auch Fachleute sind nicht davor gefeit. Weil es hier besonders auffällt ist: Wie viele Ärzte gibt es, die Fehldiagnosen stellen?

KI ist ein Tool, mit dem man umgehen können und die Stärken und Schwächen kennen muss. Kann man damit umgehen und versteht die Stärken und Schwächen, ist es sehr hilfreich und mächtig.

Wer aber nur 24/7 Fragen zum Tianamen-Massaker, Donald Trump und Elon Musk stellt und Ghibli-Bilder im Akkord generiert, hat eine eher oberflächliche Sichtweise auf KI.

Das Problem mit dem Halluzinieren bei chatGPT ist übrigens im Training begründet. Die KI ist angehalten "ein guter Assistent" zu sein, was wohl leider dazu führt, dass die KI versucht auf Teufel komm raus dem User eine Antwort zu geben auf seine Frage. Das war beim Modell 3.5 extrem nervig und ist jetzt um welten besser geworden.

/edit

Wer etwas recherchieren möchte, sollte im Prompt um Quellen Angaben bitten und Folgefragen stellen, so kann man das Halluzinierte, wenn vorhanden, relativ schnell rausbekommen.
Gruß

Alef

gartenriese · 20. April 2025

Das erinnert mich an eine Unterhaltung mit einem Kumpel, der vor kurzem in Japan war. Als er da die lokalen Einwohner nach dem Weg gefragt hatte, haben die nie gesagt, dass sie den Weg nicht kennen, sondern stattdessen einen Weg erklärt, der am Schluss gar nicht gestimmt hat. Die konnten also (aus Stolz oder aus Höflichkeit?) nicht zugeben, dass sie den Weg nicht kennen. Vielleicht hat die KI ja das gleiche Problem.

News o3 und o4-mini: OpenAIs neue Modelle halluzinieren mehr als die Vorgänger

Tagträumer

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Commander Pro

Admiral Pro

Lt. Commander

Lieutenant

Fleet Admiral

Ensign

Fleet Admiral

Lieutenant

Lt. Commander

Lieutenant Pro

Legends of Tomorrow

Captain

Vice Admiral

Admiral Pro

Lt. Junior Grade

Lt. Commander Pro

Ähnliche Themen