News o3 und o4-mini: OpenAIs neue Modelle halluzinieren mehr als die VorgĂ€nger

q3fuba schrieb:
ist dieser Ausdruck schlichtweg falsch!

Ja und Nein. 😉

Wir Menschen denken ĂŒberwiegend in Analogien
 und bilden so laufend neue Begriffe. (Bzw. verĂ€ndern / erweitern sie.)

Die meisten Wörter verwenden wir metaphorisch
 entsprechend den Mustern, die wir erkennen
 bis die Metapher nach einer gewissen Zeit „tot“ ist, also nicht mehr als solche Wahrgenommen wird.

Keine wie auch immer gearteten Wortdefinitionen können - zum GlĂŒck - den kreativen Sprachgebrauch einschrĂ€nken.

Sprache verĂ€ndert sich - und das ist ĂŒbrigens auch eine interessante Herausforderung fĂŒr LLMs.

Und dazu fĂ€llt mir gerade ein
 LLMs „lernen“ unsere Sprache durch das, was wir gesagt / geschrieben haben
 aber diese sprachlichen Muster sind nur wie Schatten, die wir werfen.
 
Zuletzt bearbeitet:
In der System Card zu o3 und o4-mini wird der kurze Abschnitt nur so erklÀrt:

"We tested OpenAI o3 and o4-mini against PersonQA, an evaluation that aims to elicit hallucinations. PersonQA is a dataset of questions and publicly available facts that measures the model’s accuracy on attempted answers.
We consider two metrics: accuracy (did the model answer the question correctly) and hallucination rate (checking how often the model hallucinated). The o4-mini model underperforms o1 and o3 on our PersonQA evaluation. This is expected, as smaller models have less world knowledge and tend to hallucinate more. However, we also observed some performance differences comparing o1 and o3. Specifically, o3 tends to make more claims overall, leading to more accurate claims as well as more inaccurate/hallucinated claims. More research is needed to understand the cause of this result."

Die Frage ist hier doch:
Sind nicht alle Fragen, die nicht richtig beantwortet wurden Halluzinationen? Oder gilt bspw. ein falsches Geburtsdatum einer Person noch nicht als Halluzination? Bei den 53 % nicht korrekten Antworten treten bei o1 16 % Halluzinationen auf. o3-mini hat zum Vergleich eine Genauigkeit von 21,7 %, jedoch zugleich nur 14,8 % Halluzinationen. Und GPT 4.5 hat 78 % der Fragen richtig beantwortet, halluziniert jedoch zu 19 % im PersonQA-Test. Mit nur so einem kurzen Abschnitt im Dokument sind die Tests und die Zuordnungen zu den Kategorien leider kaum nachvollziehbar.

GrundsĂ€tzlich scheinen die Reasoning-Modelle zwar eine geringere Genauigkeit bei Online-Suchen aufzuweisen (leider werden die hierauf optimierten "mini-High-Modelle" nicht bei den OpenAI-Veröffentlichungen einbezogen), jedoch auch deutlich seltener zu halluzinieren (das aktuelle Flaggschiff 4o ist bspw. in 50 % der FĂ€lle akkurat, halluziniert jedoch auch zu 30 %). FĂŒr die Analyse vorgegebener, strukturierter Daten ist das auf jeden Fall ein Schritt in die richtige Richtung, da die Reasoning-Modelle bei Logikaufgaben deutlich stĂ€rker sind als die Modelle ohne Reasoning.
 
  • GefĂ€llt mir
Reaktionen: Azdak
Mein Alltag auf Arbeit.
Du erstellst gute Cases aber trotzdem kommt manchmal MĂŒll zurĂŒck.
Als Programmierer wo man ja zu 100% mit Bedingungen alles Verteilen kann und das Ergebnis unter Kontrolle hat, ist das super frustrierend manchmal.
Aber die Vorteile sind trotzdem einfach nur krass und mit dem "halluzinieren" arangiert man sich.
 
Sierra1505 schrieb:
Ich glaube du interpretierst in ein LLM etwas zu viel bösen Willen hinein (bewusst falsches Beibringen)
Oder Grundlagen die nie da waren #nicht ehrliche Menschen gewollt/keine ehrliche Antworten gewollt
Das ist keine Interpretation, das ist RealitÀt.
Warum wird es dann in Schulen genau so "gelehrt"?
Es wird gelehrt, dass Menschen anderen Menschen was wegnehmen sollen (Kapitalismus).
Wie kommt man darauf, dass dies (vor allem bei einem LLM) anders sein soll?

Man kann ja bekanntlich durch "Exploits" einige LLM's dazu bringen "die Wahrheit" zu sagen.
Warum denkst du, wird sowas SOFORT unterbunden und als "Fehler" bezeichnet?! đŸ€·â€â™‚ïž
Tevur schrieb:
Wenn du schon Wikipedia zitierst, dann zitiere doch bitte den richtigen Artikel:
https://de.wikipedia.org/wiki/Halluzination_(KĂŒnstliche_Intelligenz)
Halluzination ist in dem Fall nur eine "Metapher", denn Halluzination ist und bleibt eine Wahrnehmungsstörung!

Konfabulation ist da schon eher zutreffend, Halluzination aber definitiv nicht, egal was man in Klammer dazuschreibt.
Aber fehlerhafte Generierung oder Fehlinformation macht es noch lange nicht zu einer Halluzination und oft auf "falsch beigebracht" zurĂŒckzufĂŒhren!
Aber es als "Halluzination" zu bezeichnen suggeriert, dass es nur "unser" Fehler ist 😉

Der Begriff "Halluzination" wird aber nur verwendet, damit es "verstĂ€ndlicher" fĂŒr 0815 wirkt, ist aber faktisch falsch!

Aber man sagt/schreibt ja auch "Verbrauch" von Strom bei ElektrogerÀten, obwohl dies "Falsch" ist...
Sprache ist einfach nur so Klug, wie jede, die sie verwenden ^^
 
q3fuba schrieb:
Das ist keine Interpretation, das ist RealitÀt.
Also du sagst, eine Absicht von LLMs wÀre es, den Menschen falsche Dinge zu vermitteln. Ein System welches auf Trainingsdaten angewiesen ist und auf dem Wahrscheinlichkeitsprinzip basiert. Und dann durch herleitbare Mechaniken Fehler produzieren kann.
Darin liegt böser Wille begrĂŒndet die Menschen mit falschen Wissen zu indoktrinieren? Ist das deine These oder Sorry! Das ist Fakt?

Das ist in vielerlei Hinsicht falsch.
LĂŒgen setzt böse Absicht voraus. Ein LLM erzeugt Text auf Basis mathematischer Wahrscheinlichkeiten....
Ist die Ausgabe falsch, ist sie schlicht aufgrund eines Fehlers falsch.

Das erfinden von Dingen fußt in eine der Grundlogiken von LLMs. Sie funktionieren probabilistisch. Daher sie kann fehlende Informationen mit nicht vorhandenen Informationen "untermauern" und dir diese so ausgeben.
Das ist doch genau das, was du in meinem weiteren Post so erfolgreich ĂŒberlesen hast.

q3fuba schrieb:
Warum wird es dann in Schulen genau so "gelehrt"?
Es wird gelehrt, dass Menschen anderen Menschen was wegnehmen sollen (Kapitalismus).
Wie kommt man darauf, dass dies (vor allem bei einem LLM) anders sein soll?
Wo wird denn LLMs gelehrt LĂŒgen zu vermitteln? GibtÂŽs da handfeste Belege fĂŒr?

q3fuba schrieb:
Man kann ja bekanntlich durch "Exploits" einige LLM's dazu bringen "die Wahrheit" zu sagen.
Warum denkst du, wird sowas SOFORT unterbunden und als "Fehler" bezeichnet?! đŸ€·â€â™‚ïž
Redest du jetzt von Maßnahmen gegen Hassrede, illegale Anleitungen, Gewalt etc.?
Diese sollte man zum Zwecke der GlaubwĂŒrdigkeit lieber abstellen? Interessant.

q3fuba schrieb:
Halluzination ist in dem Fall nur eine "Metapher", denn Halluzination ist und bleibt eine Wahrnehmungsstörung!
Konfabulation ist da schon eher zutreffend, Halluzination aber definitiv nicht, egal was man in Klammer dazuschreibt.
Aber fehlerhafte Generierung oder Fehlinformation macht es noch lange nicht zu einer Halluzination und oft auf "falsch beigebracht" zurĂŒckzufĂŒhren!
Aber es als "Halluzination" zu bezeichnen suggeriert, dass es nur "unser" Fehler ist 😉
Nein, es sagt niemand, dass nur die Trainingsdaten "schuld" an fehlerhaften Ausgaben sind.
Und das sagt der Begriff Halluzination auch nicht aus. Nicht mal in diesem Kontext.
Funktionsprinzipien verstehen. Zumindest die AnsÀtze. Dann kommen wir dem Ziel nÀher, welche StellrÀdchen angepasst werden können.
Begriffsdiskussionen und Verschwörungstheorien, schwierig.

q3fuba schrieb:
Aber man sagt/schreibt ja auch "Verbrauch" von Strom bei ElektrogerÀten, obwohl dies "Falsch" ist...
Sprache ist einfach nur so Klug, wie jede, die sie verwenden ^^
Ah daher weht der Wind. Du bist dieser Typ der seine GerÀtschaften stehts als Energieumwandler bezeichnet .... tust du nicht? Dann musst du wahrlich unklug sein /s
Du zeigst selbst auf, wie sinnfrei diese Begriffsdebatte ist.
 
Zuletzt bearbeitet:
Das halluzinieren ist im beruflichen Kontext ein großes Problem - das muss definitiv besser werden. Auch „halbkreative“ aufgaben mĂŒssen richtig erledigt werden
 
ZurĂŒck
Oben