Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsGoogle mit zwei „P“: Wie der AI Overview beim Buchstabieren scheitert
Google startet die nächste Ausbaustufe der KI-Suchmaschine, kämpft aber weiterhin mit Problemen und Fehlern. Ein aktueller Fauxpas: Wenn man fragt, wie viele „P“s im Wort Google enthalten sind, lautet die Antwort 2. Der Grund für solche Antworten ist nach wie vor die Architektur der KI-Sprachmodelle (LLM).
Grad mal getestet und wie gewohnt erledigt Google KI alles prima. Witzigerweise ist dieser CB Artikel hier schon eine Quellenangabe (2. Bild). ^^ Aber ist ja auch bevorzugt.
Bei Perplexity habe ich oft, dass chinesische oder kyrillische Wörter in Antworten gestreut werden.
Also die KI merkt nicht mal, dass ein komplett andere Schrift keinen Sinn macht.
Das hatte ich mit Copilot nie.
Ich kenne mich mit KI nicht viel aus, aber wenn sie noch nicht einmal Buchstaben zählen kann, wie soll man dann anderen Antworten vertrauen? Wie viel KI steckt dahinter, wenn man solche Fehler manuell herauspatchen muss? Zusammenfassen kann sie ja, das ist bei Google schon ganz praktisch.
Auch Gemini 3.5 Flash fängt erst mit Reasoning an, brauchbare Ergebnisse zu liefern. Idiotischerweise ist die Standardeinstellung "Standard" auf der Webseite wohl quasi off, oder nah dran. Der scheitert damit an den dümmsten Dingen.
Ich glaube, LLMs ohne Reasoning sollte man sich abschminken (und aufhören, die Leute damit zu verunsichern).
Opus ist zwar erstaunlich gut ohne Reasoning, aber auch schon ziemlich teuer. Was imho fraglich erscheinen lässt, ob da nicht intern doch etwas Reasoning-artiges läuft.
Mein Gott, Leute. Die werden wohl kaum über Nacht neue Modelle trainiert haben, sondern jetzt für diesen speziellen Use Case entweder Logik hinzugefügt, oder den Kontext erweitert haben.
Vor allem, wenn der jetzt sogar Artikel direkt verlinkt, in denen der Fehler offen beschrieben wird; Natürlich (versucht) es den Fehler nun zu umschiffen.
Das Grundproblem ist, dass die Antworten von LLMs nicht deterministisch sind.
Ich hab denselben „wieviele p sind in google“ Prompt mehrfach abgesendet, kamen immer wieder andere Ergebnisse.
Es ist nicht im vorhinein klar was die Antwort sein wird. Das macht diese Antworten zwar „menschenähnlicher“ und damit sympathischer, wenn man so will - zeigt aber auch klar das Fehlerpotential.
Ich finde auch kein KI Modell, das etwas anderes behauptet. Selbst die kleinen Mini Gemma 4 e4b Modelle (deren Datenbasis eindeutig von vor dem Artikel ist) spucken die richtige Angabe mit und ohne thinking aus (sogar wenn ich 10 x hintereinander Frage). Ich kann mir max. vorstellen, dass das KI Modell irgendeinen Artikel referenziert und zusammengefasst hat, aber in dem Sinne keine "Denkleistung" vollbracht hat. Dann haben wir aber genau das Problem, das wir seit immer im Internet haben - weil es da steht, muss es war sein. Und wenn ich die letzten 30 Jahre damit umgehen konnte, dass Hinz und Kunz Schrott ins Internet schreiben konnten, den ich mir dann manuell zusammengeklickt und geglaubt habe, dann habe ich auf einmal ein Problem, wenn eine KI auf Basis schlechter, durch Menschen erzeugter Daten fehlerhafte Informationen wiedergibt?