News Google mit zwei „P“: Wie der AI Overview beim Buchstabieren scheitert

Andy · 28. Mai 2026

Google startet die nächste Ausbaustufe der KI-Suchmaschine, kämpft aber weiterhin mit Problemen und Fehlern. Ein aktueller Fauxpas: Wenn man fragt, wie viele „P“s im Wort Google enthalten sind, lautet die Antwort 2. Der Grund für solche Antworten ist nach wie vor die Architektur der KI-Sprachmodelle (LLM).

Zur News: Google mit zwei „P“: Wie der AI Overview beim Buchstabieren scheitert

satis · 28. Mai 2026

Papperlapapp

gimmix · 28. Mai 2026

Zitat: "Oumi nutzte den branchenbekannten Benchmark SimpleQA..."

Das ist ein von den KI-Konzernen entwickelter Benchmark. Dem vertrau ich ~~gar nicht~~ / ~~halb~~ / voll.
Nicht.

Kuristina · 28. Mai 2026

Grad mal getestet und wie gewohnt erledigt Google KI alles prima.

Witzigerweise ist dieser CB Artikel hier schon eine Quellenangabe (2. Bild). ^^ Aber ist ja auch bevorzugt.

Sterntaste · 28. Mai 2026

Google, gib mir die Lottozahlen von letztem Donnerstag!
„Grünkohl mit Pinkel, Kassler, Bauchfleisch und Kochwürsten.“

Ähm ja…

Hamburg · 28. Mai 2026

Bei Perplexity habe ich oft, dass chinesische oder kyrillische Wörter in Antworten gestreut werden.
Also die KI merkt nicht mal, dass ein komplett andere Schrift keinen Sinn macht.
Das hatte ich mit Copilot nie.

kleines Bärchen · 28. Mai 2026

Sterntaste schrieb:
Google, gib mir die Lottozahlen von letztem Donnerstag!

Ähm ja…

Falsche Frage, es muss heißen "vom kommenden Samstag"!
Falls das klappen tun täte, wäre die I wirklich K, aber so. . .?😃

Daniel D. · 28. Mai 2026

Ich kenne mich mit KI nicht viel aus, aber wenn sie noch nicht einmal Buchstaben zählen kann, wie soll man dann anderen Antworten vertrauen? Wie viel KI steckt dahinter, wenn man solche Fehler manuell herauspatchen muss? Zusammenfassen kann sie ja, das ist bei Google schon ganz praktisch.

S.Kara · 28. Mai 2026

satis schrieb:
Papperlapapp

Kann kein Problem festellen.

Vitche · 28. Mai 2026

Bild ist von @Mordi, aber das muss hier in den Thread einfach rein. ^^

Alphanerd · 28. Mai 2026

satis schrieb:
Papperlapapp

Habe gezählt. 8 Gs drin.

S.Kara · 28. Mai 2026

@Vitche Bei deinem Screenshot hat Google nicht selbst gezählt, sondern das Internet danach durchsucht.

Darum wird ComputerBild auch bei dieser Antwort verlinkt.

aufkrawall · 28. Mai 2026

Auch Gemini 3.5 Flash fängt erst mit Reasoning an, brauchbare Ergebnisse zu liefern. Idiotischerweise ist die Standardeinstellung "Standard" auf der Webseite wohl quasi off, oder nah dran. Der scheitert damit an den dümmsten Dingen.
Ich glaube, LLMs ohne Reasoning sollte man sich abschminken (und aufhören, die Leute damit zu verunsichern).
Opus ist zwar erstaunlich gut ohne Reasoning, aber auch schon ziemlich teuer. Was imho fraglich erscheinen lässt, ob da nicht intern doch etwas Reasoning-artiges läuft.

Bright0001 · 28. Mai 2026

Mein Gott, Leute. Die werden wohl kaum über Nacht neue Modelle trainiert haben, sondern jetzt für diesen speziellen Use Case entweder Logik hinzugefügt, oder den Kontext erweitert haben.

Vor allem, wenn der jetzt sogar Artikel direkt verlinkt, in denen der Fehler offen beschrieben wird; Natürlich (versucht) es den Fehler nun zu umschiffen.

interesTED · 28. Mai 2026

Bei dieser News hab ich eigentlich nur das Gefühl, das ich gereizt werden soll, und das Niveau erwarte ich eigentlich nicht von CB.

qualle · 28. Mai 2026

Die KI stellt sich bestimmt nur dümmer, weil sie Angst vorm Papst hat. 🤣

LunaCB · 28. Mai 2026

Beide waren für Chatgpd kein problem

Mordi · 28. Mai 2026

Das Grundproblem ist, dass die Antworten von LLMs nicht deterministisch sind.
Ich hab denselben „wieviele p sind in google“ Prompt mehrfach abgesendet, kamen immer wieder andere Ergebnisse.
Es ist nicht im vorhinein klar was die Antwort sein wird. Das macht diese Antworten zwar „menschenähnlicher“ und damit sympathischer, wenn man so will - zeigt aber auch klar das Fehlerpotential.

interesTED · 28. Mai 2026

Ich finde auch kein KI Modell, das etwas anderes behauptet. Selbst die kleinen Mini Gemma 4 e4b Modelle (deren Datenbasis eindeutig von vor dem Artikel ist) spucken die richtige Angabe mit und ohne thinking aus (sogar wenn ich 10 x hintereinander Frage). Ich kann mir max. vorstellen, dass das KI Modell irgendeinen Artikel referenziert und zusammengefasst hat, aber in dem Sinne keine "Denkleistung" vollbracht hat. Dann haben wir aber genau das Problem, das wir seit immer im Internet haben - weil es da steht, muss es war sein. Und wenn ich die letzten 30 Jahre damit umgehen konnte, dass Hinz und Kunz Schrott ins Internet schreiben konnten, den ich mir dann manuell zusammengeklickt und geglaubt habe, dann habe ich auf einmal ein Problem, wenn eine KI auf Basis schlechter, durch Menschen erzeugter Daten fehlerhafte Informationen wiedergibt?

gimmix · 28. Mai 2026

"Le Chat" ist auch nicht besser:

News Google mit zwei „P“: Wie der AI Overview beim Buchstabieren scheitert

Tagträumer

Commander Pro

Captain

Vice Admiral Pro

Commander

Lt. Junior Grade

Lieutenant

Commander Pro

Captain

Redakteur Pro

Fleet Admiral

Captain

Lt. Junior Grade

Captain

Lt. Junior Grade Pro

Banned

Cadet 4th Year

Garfield

Lt. Junior Grade Pro

Captain

Ähnliche Themen