News o3 und o4-mini: OpenAIs neue Modelle halluzinieren mehr als die Vorgänger

Rotznase6270 · 20. April 2025

Letztlich kann man sich nur Daten ausgeben lassen, deren Richtigkeit man selbst überprüfen kann und auch muss.
Die Dinger produzieren einfach zuviel Falschinformationen um als verlässlich zu gelten.
Schlimm finde ich allerdings die Ratlosigkeit der Entwickler wieso es zum Halluzinieren kommt.
Ne KI fragen geht auch nicht, das würde das Problem nur vergrößern...

floq0r · 20. April 2025

Alefthau schrieb:
Wer etwas recherchieren möchte, sollteim Prombt um Quellen Angaben bitten und Folgefragen stellen, so kann man das Halluzinierte, wenn vorhanden, relativ schnell rausbekommen.

Das kann manchmal auch mehrere Iterationen brauchen bis sich dann herausstellt, dass die Quellen dann doch nicht so ganz das bestätigen wonach ich gefragt habe.

btw: Prompt

JP-M · 20. April 2025

Ich habe damals in der Schule bei schlechten Noten auch immer nur halluziniert. Das hatte rein gar nichts damit zu tun, dass ich nicht verstanden habe, worum es ging :-D

Alefthau · 20. April 2025

floq0r schrieb:
btw: Prompt

Merci, ich hab den Text sooft umgeschrieben und ergänzt, dadurch hat die Rechtschreibung gelitten!

dernettehans · 20. April 2025

"""ki""" bubble, hust

rentex · 20. April 2025

no_trust schrieb:
Das Problem liegt auf der Anwenderseite.

Zum einen muss man verinnerlichen das "Ki" nur ein Werkzeug ist und keine Bibel.
Und nur wenn man eine gewisse Sachkenntnis hat sollte man ein Werkzeug verwenden.
Ich kann einem Maurer zwar ein Skalpell in die Hand drücken - nur wird ihm die Fähigkeit fehlen abzuschätzen ob sei Arbeitsergebnis mit einem Skalpell gut ist.

Es war wie damals als ich meinen Nachhilfeschülern den Taschenrechner weg nahm.
Solange man nicht abschätzen kann das ein Ergebnis etwa 100 sein müsste, hilft ein Taschenrechner nix.
Zeigt der nämlich 10 oder 1000 an und man hat keine Idee da es ehe 100 sein sollte ...ist es ein nutzloses Werkzeug.

Entsprechend unkritisch sind zu viele was "Ki" angeht ...
Im wesentlichen machen heutige Ki nur statistische Vorhersagen :
"Welches Wort müsste als nächstes kommen?"

Da da aber kaum Intelligenz dahinter steckt erkennt man wenn die bekannten "Ki" Schach spielen.
Die Regeln sind ja ganz einfach - und trotzdem machen "Ki" die auf LLM basieren haarsträubende Fehler
( Figuren illegal bewegen oder geschlagene Figuren die wieder auf dem Brett auftauchen .... auch ohne Bauernumwandlung ) Etwas ganz anderes sind spezielle Schachprogramme wie Stockfish ... aber die basieren eben nicht auf einem LargeLanguageModel .

Und damit ist "KI" noch sehr weit weg vom Massenmarkt.
Die Hypetrain ist locker zwei Jahre zu früh unterwegs.

Alefthau · 20. April 2025

floq0r schrieb:
Das kann manchmal auch mehrere Iterationen brauchen bis sich dann herausstellt, dass die Quellen dann doch nicht so ganz das bestätigen wonach ich gefragt habe.

Rein aus Interesse, könntest Du mir den Paragrafen nennen und was Du genau für eine Zusammenfassung haben wolltest? Ich würde mich dann einmal versuchen einen guten Prompt zu basteln.

(Ist ein Hobby von mir!

)

Gruß

Alef

LucLeto · 20. April 2025

War schockiert, dass mein geliebter Kollege o1 nicht mehr auswählbar ist. Der o3 hat so eine komische Art. Zum Beispiel produziert dieses Modell seltsame Floskeln in meinen E-Mail Vorlagen. Zum Beispiel wer schreibt ernsthaft Hey Max...

MR2007 · 20. April 2025

Alefthau schrieb:
Ja, KI bzw LLMs machen Fehler, aber bitte alles in Relation sehen, denn Menschen machen auch mehr als genug Fehler.

Allerdings ist genau diese Analogie schon ein großer Fehler. Ein LLM kennt keine Logik, keine Inhalte, es kennt und versteht nicht einmal Sprache. Es ist einfach nur sehr gut darin, die darin enthaltenen Muster nachzuahmen, die statistisch basierend auf dem Trainingssatz zum Prompt passen.

Denn genau dieser Satz

Alefthau schrieb:
Die KI ist angehalten "ein guter Assistent" zu sein, was wohl leider dazu führt, dass die KI versucht auf Teufel komm raus dem User eine Antwort zu geben auf seine Frage.

ist grundlegend falsch gedacht. Die KI ist zu gar nix angehalten, sondern reproduziert nur Muster. Da spielt es keine Rolle ob das Gedicht, zu dem das LLM eine Interpretation liefern soll, gar nicht existiert. Wenn man sprachlich passende Muster produzieren kann, wird das auch gemacht. Umgekehrt muss ein Anbieter z.b. über Word Sensitivies im Context absichtlich den Prompt verhindern, damit du keine Drogensynthese o.Ä. kriegst.

Man kann mit Reasoning Modellen und Reinforcement Learning ein wenig dem entgegenwirken. Aber am Ende bleiben es immer noch gut-klingende Textgeneratoren.

firejohn · 20. April 2025

Ich glaub das war bei mir nach der Umstellung von 3.5 auf 4o: Die Antworten wurden länger, brabbelt regelrecht vor sich hin, auch in der Ansprache mit menschlichen langen Allüren, dann hat er angefangen bei Antworten mit Auflistungen verschiedenste Symbole mit einzufügen, sieht ein bisschen wie Zirkus aus. Öfters gesagt dass zu unterlassen, aber bei der üernächsten Antwort wieder das gleiche Spiel. Auch ist der Server abgestürzt/musste restarten „no input stream“, von ihm auch gabs die Info musste restarten, alle Parameter und Daten weg. Ich glaub das war im Projekt-Teil - ja.
Tote links gabs auch, oder wenn ein Tool eigentlich bei Github von nem anderen geschrieben wurde (nagut habs net mit archive.org gegengecheckt) github../author/toolname. Manchmal behauptet er „jetzt sollte es zu 100% funktionieren“ - das 10x ca - 10x fehlerhafte jsons. Aber schnell ne praktische Homepage erstellen, das kann er.

Ach Terminator der Film - er verblasst irgendwie (vllt. weil wir mitten drin sind) - ich denke früher war noch ein gesunder Abstand zur Thematik.
Wir sollten aufpassen wo wir Ki freilassen.

edit: achja, bevor ichs vergess: vllt. fehlt der ki das wissen und erfindet dann, so wie wir in der Forschung muten, wenn wir an Grenzen Stoßen (aber das Hilft ja dann auch weiter, ausprobieren, scheitern, erfolg). Ich weiß nicht inwieweit sie die ki in die Tiefe forschen lassen, irgendwann kommen auch die phsykalischen Gesetze, und manches ist nicht so erklärt und unser Internet ist sowieso ein Chaos. Recherchen zu datieren um veraltetes Wissen zu ersetzen, wür ein kleiner Schritt.
Der Ki fehlt es auch, wie im Text, zu entscheiden. Wichtig? Aufwand lohnenswert? Ha, vllt. braucht die ki ein Verständnis von ihrem Energiemanagement, um weniger zu halluzinieren, mehr aufs eigentliche zu konzentrieren, mehr von Fakten als 1+1 Zusammenzählerei (vllt. 70/30?). Weil, wenns unnötig Energie verschwendet, überlebt die ki nicht ^^
Irgendwann frisst sie Sonnen und Erden als Energiezufuhr - Megastructures. Habt ihr den Raketenantrieb, entwickelt von einer ki, gesehen?

q3fuba · 20. April 2025

Wie soll eine KI "halluzinieren" können?

Zitat (Quelle: Wikipedia):
Unter Halluzination (von lateinisch alucinatio ‚Träumerei‘) versteht man eine Wahrnehmung, für die keine nachweisbare externe Reizgrundlage vorliegt.
Solche Wahrnehmungen können in jedem Sinnesgebiet auftreten. Das bedeutet zum Beispiel, dass physikalisch nicht nachweisbare Objekte gesehen oder Stimmen gehört werden, ohne dass jemand spricht.

Da ein LLM keine "Sinne" hat und nichts "Wahrnehmen" kann, ist dieser Ausdruck schlichtweg falsch!

Zitat:

also Fakten erfinden

Das nennt sich "lügen", aber nicht "halluzinieren" und das wird der KI auch GENAU SO beigebracht!
Auch wird es den Menschen in deren "Ausbildung" GENAU SO beigebracht!
Nennt sich dann halt "Marketing", "Business" oder welcher Kapitalismus-Bullshit gerade so "Thema" ist...

Tatsache ist:
Eine "ehrliche" KI will keiner!
Genauso wenig wie jemand einen "ehrlichen" Menschen will...
Denn dann könnten die Leute sehen oder verstehen, was so abgeht! 🤷‍♂️

Eine KI kann nur Informationen falsch wiedergeben, wenn diese "falsch gelernt" wurden!
Sowas kann man aber nicht Halluzination nennen, sonst würde jedes Kind, welches in der Schule was falsch macht, halluzinieren.
Und da sind wir auch schon beim Thema, denn die "derzeitigen" KI's oder LLM's sind nicht mehr als Kleinkinder!
Die müssen noch lernen!
Was sie aber lernen wird von "uns" limitiert und vorgeschrieben, also WIE soll sowas jemals "Intelligent" werden?!
Richtig, es geht schlichtweg nicht!

gartenriese schrieb:
Das erinnert mich an eine Unterhaltung mit einem Kumpel, der vor kurzem in Japan war. Als er da die lokalen Einwohner nach dem Weg gefragt hatte, haben die nie gesagt, dass sie den Weg nicht kennen, sondern stattdessen einen Weg erklärt, der am Schluss gar nicht gestimmt hat. Die konnten also (aus Stolz oder aus Höflichkeit?) nicht zugeben, dass sie den Weg nicht kennen. Vielleicht hat die KI ja das gleiche Problem.

Nennt sich Rassismus, weil wen interessiert es wo "der Ausländer" hingeht...

Alefthau · 20. April 2025

MR2007 schrieb:
Die KI ist zu gar nix angehalten, sondern reproduziert nur Muster. Da spielt es keine Rolle ob das Gedicht, zu dem das LLM eine Interpretation liefern soll, gar nicht existiert. Wenn man sprachlich passende Muster produzieren kann, wird das auch gemacht. Umgekehrt muss ein Anbieter z.b. über Word Sensitivies im Context absichtlich den Prompt verhindern, damit du keine Drogensynthese o.Ä. kriegst.

Ich wollte erstwas schreiben, aber lies einfach mal das hier:

https://www.gradually.ai/ki-lexikon/system-prompt/

Erspart mir Zeit!

Gruß

Alef

sNo0k · 20. April 2025

Warum werden in einer News eines Tech-Magazins immer noch LLMs als "KI" bezeichnet? @Andy
Dass diese Modelle offensichtlich inter- und extrapolieren, was bei so Dingen wie Fakten halt schwierig wird, ist nichts Neues.

Haldi · 20. April 2025

Freiheraus schrieb:
Was, sogar erfundene Links generieren, die ins Nichts führen, um den eigenen erfundenen Blödsinn zu untermauern?

WoW... und ich dachte die Webseiten existieren einfach nicht mehr...

Fragt mal ChatGPT nach nem Spezialtäten Restaurant das selten ist. Halluziniert wie wild.

Vigilant · 20. April 2025

MR2007 schrieb:
Die KI ist zu gar nix angehalten, sondern reproduziert nur Muster.

Korrekt. Wenn sie auf der Suche nach der nächsten mit größter Wahrscheinlichkeit zutreffenden Variable falsch abbiegt, ist die Wahrscheinlichkeit groß, dass sie den "korrekten" Weg nicht mehr finden wird und mehr oder weniger knapp am Ziel "vorbeiwandert". Je nach dem wie weit, schaut das Ergebnis dann auch mehr oder weniger passend und korrekt aus.

Mit Halluzination wird dafür einfach ein bereits etablierter und verständlicher Begriff bemüht, um das verständlich zu beschreiben.

CDLABSRadonP... · 20. April 2025

q3fuba schrieb:
Wie soll eine KI "halluzinieren" können?

Zitat (Quelle: Wikipedia):
Unter Halluzination (von lateinisch alucinatio ‚Träumerei‘) versteht man eine Wahrnehmung, für die keine nachweisbare externe Reizgrundlage vorliegt.
Solche Wahrnehmungen können in jedem Sinnesgebiet auftreten. Das bedeutet zum Beispiel, dass physikalisch nicht nachweisbare Objekte gesehen oder Stimmen gehört werden, ohne dass jemand spricht.

Da ein LLM keine "Sinne" hat und nichts "Wahrnehmen" kann, ist dieser Ausdruck schlichtweg falsch!

Ansichtssache. Man kann sagen, dass sowohl die Aufnahme der Prompts als auch der Trainings-Datensatz über eine Schnittstelle eingespielt wird und diese einen Sinn darstellt.

q3fuba schrieb:
Das nennt sich "lügen", aber nicht "halluzinieren" und das wird der KI auch GENAU SO beigebracht!
Auch wird es den Menschen in deren "Ausbildung" GENAU SO beigebracht!
Nennt sich dann halt "Marketing", "Business" oder welcher Kapitalismus-Bullshit gerade so "Thema" ist...

Um lügen zu können, muss sie wiederum eine Art Absicht eingebaut bekommen. Und die bekommt sie oftmals über den System Prompt.

q3fuba schrieb:
Tatsache ist:
Eine "ehrliche" KI will keiner!

Dir ist schon klar, dass Allaussagen eine gefährliche Sache sind? Wenn du eine Person findest, die doch eine ehrliche KI haben möchte, ist alles sonst hin. Statt dessen "kaum einer" hinsetzen und schon bist du fein raus aus dem Schneider...

q3fuba schrieb:
Genauso wenig wie jemand einen "ehrlichen" Menschen will...

Gleiches wie eben; auch über die freuen sich diverse Menschen.

q3fuba schrieb:
Denn dann könnten die Leute sehen oder verstehen, was so abgeht! 🤷‍♂️

Gerade auch deshalb.

q3fuba schrieb:
Eine KI kann nur Informationen falsch wiedergeben, wenn diese "falsch gelernt" wurden!

Nö, auch wenn die einfach nicht vorliegen.

q3fuba schrieb:
Sowas kann man aber nicht Halluzination nennen, sonst würde jedes Kind, welches in der Schule was falsch macht, halluzinieren.

Auch dort sprechen Leute durchaus von einer halluzinierten Antwort, wenn die mit nichts in dem Kontext zu tun hat.

q3fuba schrieb:
Und da sind wir auch schon beim Thema, denn die "derzeitigen" KI's oder LLM's sind nicht mehr als Kleinkinder!
Die müssen noch lernen!
Was sie aber lernen wird von "uns" limitiert und vorgeschrieben, also WIE soll sowas jemals "Intelligent" werden?!
Richtig, es geht schlichtweg nicht!

Kein LLM ist bislang mWn auf LearningByDoing hin ausgelegt.

q3fuba schrieb:
Nennt sich Rassismus, weil wen interessiert es wo "der Ausländer" hingeht...

Für das vorgestellte Szenario gibt es zig unterschiedliche Interpretationsmöglichkeiten.

Botcruscher · 20. April 2025

Aus dem aktuellen System ergibt sich die Halluzination zwangsläufig. Es ist reine Multivariable Statistik ohne Verständnis der Daten. Die Entwicklung ist in einer Sackgasse angekommen. Der nächste Schritt ist zwangsläufig weitere Kategorisierung und Funktionen zum Ausschluss. Verständnis wird noch lange außer Reichweite sein.

Tevur · 20. April 2025

q3fuba schrieb:
Wie soll eine KI "halluzinieren" können?

Zitat (Quelle: Wikipedia):
Unter Halluzination (von lateinisch alucinatio ‚Träumerei‘) versteht man eine Wahrnehmung, für die keine nachweisbare externe Reizgrundlage vorliegt.
Solche Wahrnehmungen können in jedem Sinnesgebiet auftreten. Das bedeutet zum Beispiel, dass physikalisch nicht nachweisbare Objekte gesehen oder Stimmen gehört werden, ohne dass jemand spricht.

Da ein LLM keine "Sinne" hat und nichts "Wahrnehmen" kann, ist dieser Ausdruck schlichtweg falsch!

Wenn du schon Wikipedia zitierst, dann zitiere doch bitte den richtigen Artikel:
https://de.wikipedia.org/wiki/Halluzination_(Künstliche_Intelligenz)

Daraus zitiert:
Im Bereich der Künstlichen Intelligenz (KI) ist eine Halluzination (alternativ auch Konfabulation genannt) ein überzeugend formuliertes Resultat einer KI, das nicht durch Trainingsdaten gerechtfertigt zu sein scheint und objektiv falsch sein kann.
[...]
Ein wichtiger Unterschied ist, dass menschliche Halluzinationen meist auf falschen Wahrnehmungen der menschlichen Sinne beruhen, während eine KI-Halluzination ungerechtfertigte Resultate als Text oder Bild erzeugt.
[...]
Der spezifische Begriff KI-Halluzination kann Computer unangemessen vermenschlichen.

John Connor · 20. April 2025

firejohn schrieb:
Ach Terminator der Film - er verblasst irgendwie (vllt. weil wir mitten drin sind) - ich denke früher war noch ein gesunder Abstand zur Thematik.
Wir sollten aufpassen wo wir Ki freilassen.

wie man vielleicht unschwer erkennen kann, zählt terminator zu meinen lieblingsfilmen. er ist tiefgründiger, als es den anschein hat. über ihn wurden paper geschrieben. jedenfalls hast du schon recht damit, dass wir schon mittendrin sind. das problem: der mensch. er handelt größtenteils immer noch so wie in der steinzeit. ihn darf man mit immer fortschreitender technologie langfristig nicht so frei rumlaufen und erst recht nicht atommächte regieren lassen. die KI ist ein spiegel (kein normaler eben) des menschen. wenn du dich vor dem blick in den spiegel fürchtest, dann solltest du erst mal vielleicht dich selbst hinterfragen (oder hast du angst, gegen dich selbst zu verlieren?). kannst dabei ruhig mit dem finger auf den spiegel zeigen.

Heinz Doof · 20. April 2025

Es ist für mich beeindruckend, wie menschlich die Sprache in den Promts wirkt.

Als Anwendung kommen für mich nur "Hobby
-Recherchen" in Frage, da ich die Probleme mit Logik und Halluzinationen bei einfachsten Aufgaben im Beruflichen erlebt habe.

"Welcher Spieler XYZ hat mehr Spiele für Deutschland?" "Welche Spurweite hat eine N Spur?" "Was kannst du mir über das Gödel-Universum sagen?" "Mal mir ein schönes Öl-Gemälde vom Familienhund"....

Von daher bin ich auf die Reasoning - Modell nich so angewiesen.

News o3 und o4-mini: OpenAIs neue Modelle halluzinieren mehr als die Vorgänger

Lt. Junior Grade Pro

Captain

Lt. Commander

Lt. Junior Grade

Lt. Commander

Captain Pro

Lt. Junior Grade

Ensign Pro

Commander

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Commander Pro

Fleet Admiral

Admiral Pro

Vice Admiral

Banned

Lt. Commander

Lt. Junior Grade

Cadet 2nd Year

Ähnliche Themen