News o3 und o4-mini: OpenAIs neue Modelle halluzinieren mehr als die Vorgänger

calluna · 21. April 2025

q3fuba schrieb:
ist dieser Ausdruck schlichtweg falsch!

Ja und Nein. 😉

Wir Menschen denken überwiegend in Analogien… und bilden so laufend neue Begriffe. (Bzw. verändern / erweitern sie.)

Die meisten Wörter verwenden wir metaphorisch… entsprechend den Mustern, die wir erkennen… bis die Metapher nach einer gewissen Zeit „tot“ ist, also nicht mehr als solche Wahrgenommen wird.

Keine wie auch immer gearteten Wortdefinitionen können - zum Glück - den kreativen Sprachgebrauch einschränken.

Sprache verändert sich - und das ist übrigens auch eine interessante Herausforderung für LLMs.

Und dazu fällt mir gerade ein… LLMs „lernen“ unsere Sprache durch das, was wir gesagt / geschrieben haben… aber diese sprachlichen Muster sind nur wie Schatten, die wir werfen.

-->Er@zor_X<-- · 21. April 2025

In der System Card zu o3 und o4-mini wird der kurze Abschnitt nur so erklärt:

"We tested OpenAI o3 and o4-mini against PersonQA, an evaluation that aims to elicit hallucinations. PersonQA is a dataset of questions and publicly available facts that measures the model’s accuracy on attempted answers.
We consider two metrics: accuracy (did the model answer the question correctly) and hallucination rate (checking how often the model hallucinated). The o4-mini model underperforms o1 and o3 on our PersonQA evaluation. This is expected, as smaller models have less world knowledge and tend to hallucinate more. However, we also observed some performance differences comparing o1 and o3. Specifically, o3 tends to make more claims overall, leading to more accurate claims as well as more inaccurate/hallucinated claims. More research is needed to understand the cause of this result."

Die Frage ist hier doch:
Sind nicht alle Fragen, die nicht richtig beantwortet wurden Halluzinationen? Oder gilt bspw. ein falsches Geburtsdatum einer Person noch nicht als Halluzination? Bei den 53 % nicht korrekten Antworten treten bei o1 16 % Halluzinationen auf. o3-mini hat zum Vergleich eine Genauigkeit von 21,7 %, jedoch zugleich nur 14,8 % Halluzinationen. Und GPT 4.5 hat 78 % der Fragen richtig beantwortet, halluziniert jedoch zu 19 % im PersonQA-Test. Mit nur so einem kurzen Abschnitt im Dokument sind die Tests und die Zuordnungen zu den Kategorien leider kaum nachvollziehbar.

Grundsätzlich scheinen die Reasoning-Modelle zwar eine geringere Genauigkeit bei Online-Suchen aufzuweisen (leider werden die hierauf optimierten "mini-High-Modelle" nicht bei den OpenAI-Veröffentlichungen einbezogen), jedoch auch deutlich seltener zu halluzinieren (das aktuelle Flaggschiff 4o ist bspw. in 50 % der Fälle akkurat, halluziniert jedoch auch zu 30 %). Für die Analyse vorgegebener, strukturierter Daten ist das auf jeden Fall ein Schritt in die richtige Richtung, da die Reasoning-Modelle bei Logikaufgaben deutlich stärker sind als die Modelle ohne Reasoning.

MiniM3 · 22. April 2025

Mein Alltag auf Arbeit.
Du erstellst gute Cases aber trotzdem kommt manchmal Müll zurück.
Als Programmierer wo man ja zu 100% mit Bedingungen alles Verteilen kann und das Ergebnis unter Kontrolle hat, ist das super frustrierend manchmal.
Aber die Vorteile sind trotzdem einfach nur krass und mit dem "halluzinieren" arangiert man sich.

q3fuba · 28. April 2025

Sierra1505 schrieb:
Ich glaube du interpretierst in ein LLM etwas zu viel bösen Willen hinein (bewusst falsches Beibringen)
Oder Grundlagen die nie da waren #nicht ehrliche Menschen gewollt/keine ehrliche Antworten gewollt

Das ist keine Interpretation, das ist Realität.
Warum wird es dann in Schulen genau so "gelehrt"?
Es wird gelehrt, dass Menschen anderen Menschen was wegnehmen sollen (Kapitalismus).
Wie kommt man darauf, dass dies (vor allem bei einem LLM) anders sein soll?

Man kann ja bekanntlich durch "Exploits" einige LLM's dazu bringen "die Wahrheit" zu sagen.
Warum denkst du, wird sowas SOFORT unterbunden und als "Fehler" bezeichnet?! 🤷‍♂️

Tevur schrieb:
Wenn du schon Wikipedia zitierst, dann zitiere doch bitte den richtigen Artikel:
https://de.wikipedia.org/wiki/Halluzination_(Künstliche_Intelligenz)

Halluzination ist in dem Fall nur eine "Metapher", denn Halluzination ist und bleibt eine Wahrnehmungsstörung!

Konfabulation ist da schon eher zutreffend, Halluzination aber definitiv nicht, egal was man in Klammer dazuschreibt.
Aber fehlerhafte Generierung oder Fehlinformation macht es noch lange nicht zu einer Halluzination und oft auf "falsch beigebracht" zurückzuführen!
Aber es als "Halluzination" zu bezeichnen suggeriert, dass es nur "unser" Fehler ist 😉

Der Begriff "Halluzination" wird aber nur verwendet, damit es "verständlicher" für 0815 wirkt, ist aber faktisch falsch!

Aber man sagt/schreibt ja auch "Verbrauch" von Strom bei Elektrogeräten, obwohl dies "Falsch" ist...
Sprache ist einfach nur so Klug, wie jede, die sie verwenden ^^

Sierra1505 · 28. April 2025

q3fuba schrieb:
Das ist keine Interpretation, das ist Realität.

Also du sagst, eine Absicht von LLMs wäre es, den Menschen falsche Dinge zu vermitteln. Ein System welches auf Trainingsdaten angewiesen ist und auf dem Wahrscheinlichkeitsprinzip basiert. Und dann durch herleitbare Mechaniken Fehler produzieren kann.
Darin liegt böser Wille begründet die Menschen mit falschen Wissen zu indoktrinieren? Ist das deine These oder Sorry! Das ist Fakt?

Das ist in vielerlei Hinsicht falsch.
Lügen setzt böse Absicht voraus. Ein LLM erzeugt Text auf Basis mathematischer Wahrscheinlichkeiten....
Ist die Ausgabe falsch, ist sie schlicht aufgrund eines Fehlers falsch.

Das erfinden von Dingen fußt in eine der Grundlogiken von LLMs. Sie funktionieren probabilistisch. Daher sie kann fehlende Informationen mit nicht vorhandenen Informationen "untermauern" und dir diese so ausgeben.
Das ist doch genau das, was du in meinem weiteren Post so erfolgreich überlesen hast.

q3fuba schrieb:
Warum wird es dann in Schulen genau so "gelehrt"?
Es wird gelehrt, dass Menschen anderen Menschen was wegnehmen sollen (Kapitalismus).
Wie kommt man darauf, dass dies (vor allem bei einem LLM) anders sein soll?

Wo wird denn LLMs gelehrt Lügen zu vermitteln? Gibt´s da handfeste Belege für?

q3fuba schrieb:
Man kann ja bekanntlich durch "Exploits" einige LLM's dazu bringen "die Wahrheit" zu sagen.
Warum denkst du, wird sowas SOFORT unterbunden und als "Fehler" bezeichnet?! 🤷‍♂️

Redest du jetzt von Maßnahmen gegen Hassrede, illegale Anleitungen, Gewalt etc.?
Diese sollte man zum Zwecke der Glaubwürdigkeit lieber abstellen? Interessant.

q3fuba schrieb:
Halluzination ist in dem Fall nur eine "Metapher", denn Halluzination ist und bleibt eine Wahrnehmungsstörung!
Konfabulation ist da schon eher zutreffend, Halluzination aber definitiv nicht, egal was man in Klammer dazuschreibt.
Aber fehlerhafte Generierung oder Fehlinformation macht es noch lange nicht zu einer Halluzination und oft auf "falsch beigebracht" zurückzuführen!
Aber es als "Halluzination" zu bezeichnen suggeriert, dass es nur "unser" Fehler ist 😉

Nein, es sagt niemand, dass nur die Trainingsdaten "schuld" an fehlerhaften Ausgaben sind.
Und das sagt der Begriff Halluzination auch nicht aus. Nicht mal in diesem Kontext.
Funktionsprinzipien verstehen. Zumindest die Ansätze. Dann kommen wir dem Ziel näher, welche Stellrädchen angepasst werden können.
Begriffsdiskussionen und Verschwörungstheorien, schwierig.

q3fuba schrieb:
Aber man sagt/schreibt ja auch "Verbrauch" von Strom bei Elektrogeräten, obwohl dies "Falsch" ist...
Sprache ist einfach nur so Klug, wie jede, die sie verwenden ^^

Ah daher weht der Wind. Du bist dieser Typ der seine Gerätschaften stehts als Energieumwandler bezeichnet .... tust du nicht? Dann musst du wahrlich unklug sein /s
Du zeigst selbst auf, wie sinnfrei diese Begriffsdebatte ist.

Entrovis · 24. Mai 2025

Das halluzinieren ist im beruflichen Kontext ein großes Problem - das muss definitiv besser werden. Auch „halbkreative“ aufgaben müssen richtig erledigt werden

Suche

News o3 und o4-mini: OpenAIs neue Modelle halluzinieren mehr als die Vorgänger

calluna

Commander

-->Er@zor_X<--

Lt. Junior Grade

MiniM3

Lt. Commander

q3fuba

Lt. Commander

Sierra1505

Lieutenant

Entrovis

Ensign

Ähnliche Themen