News Google mit zwei „P“: Wie der AI Overview beim Buchstabieren scheitert

Andy · Heute um 17:45

Google startet die nächste Ausbaustufe der KI-Suchmaschine, kämpft aber weiterhin mit Problemen und Fehlern. Ein aktueller Fauxpas: Wenn man fragt, wie viele „P“s im Wort Google enthalten sind, lautet die Antwort 2. Der Grund für solche Antworten ist nach wie vor die Architektur der KI-Sprachmodelle (LLM).

Zur News: Google mit zwei „P“: Wie der AI Overview beim Buchstabieren scheitert

satis · Heute um 17:48

Papperlapapp

gimmix · Heute um 17:59

Zitat: "Oumi nutzte den branchenbekannten Benchmark SimpleQA..."

Das ist ein von den KI-Konzernen entwickelter Benchmark. Dem vertrau ich ~~gar nicht~~ / ~~halb~~ / voll.
Nicht.

Kuristina · Heute um 18:02

Grad mal getestet und wie gewohnt erledigt Google KI alles prima.

Witzigerweise ist dieser CB Artikel hier schon eine Quellenangabe (2. Bild). ^^ Aber ist ja auch bevorzugt.

Sterntaste · Heute um 18:07

Google, gib mir die Lottozahlen von letztem Donnerstag!
„Grünkohl mit Pinkel, Kassler, Bauchfleisch und Kochwürsten.“

Ähm ja…

Hamburg · Heute um 18:13

Bei Perplexity habe ich oft, dass chinesische oder kyrillische Wörter in Antworten gestreut werden.
Also die KI merkt nicht mal, dass ein komplett andere Schrift keinen Sinn macht.
Das hatte ich mit Copilot nie.

kleines Bärchen · Heute um 18:23

Sterntaste schrieb:
Google, gib mir die Lottozahlen von letztem Donnerstag!

Ähm ja…

Falsche Frage, es muss heißen "vom kommenden Samstag"!
Falls das klappen tun täte, wäre die I wirklich K, aber so. . .?😃

Daniel D. · Heute um 18:51

Ich kenne mich mit KI nicht viel aus, aber wenn sie noch nicht einmal Buchstaben zählen kann, wie soll man dann anderen Antworten vertrauen? Wie viel KI steckt dahinter, wenn man solche Fehler manuell herauspatchen muss? Zusammenfassen kann sie ja, das ist bei Google schon ganz praktisch.

S.Kara · Heute um 18:59

satis schrieb:
Papperlapapp

Kann kein Problem festellen.

Vitche · Heute um 19:13

Bild ist von @Mordi, aber das muss hier in den Thread einfach rein. ^^

Alphanerd · Heute um 19:14

satis schrieb:
Papperlapapp

Habe gezählt. 8 Gs drin.

S.Kara · Heute um 19:19

@Vitche Bei deinem Screenshot hat Google nicht selbst gezählt, sondern das Internet danach durchsucht.

Darum wird ComputerBild auch bei dieser Antwort verlinkt.

aufkrawall · Heute um 19:21

Auch Gemini 3.5 Flash fängt erst mit Reasoning an, brauchbare Ergebnisse zu liefern. Idiotischerweise ist die Standardeinstellung "Standard" auf der Webseite wohl quasi off, oder nah dran. Der scheitert damit an den dümmsten Dingen.
Ich glaube, LLMs ohne Reasoning sollte man sich abschminken (und aufhören, die Leute damit zu verunsichern).
Opus ist zwar erstaunlich gut ohne Reasoning, aber auch schon ziemlich teuer. Was imho fraglich erscheinen lässt, ob da nicht intern doch etwas Reasoning-artiges läuft.

Bright0001 · Heute um 19:22

Mein Gott, Leute. Die werden wohl kaum über Nacht neue Modelle trainiert haben, sondern jetzt für diesen speziellen Use Case entweder Logik hinzugefügt, oder den Kontext erweitert haben.

Vor allem, wenn der jetzt sogar Artikel direkt verlinkt, in denen der Fehler offen beschrieben wird; Natürlich (versucht) es den Fehler nun zu umschiffen.

interesTED · Heute um 19:37

Bei dieser News hab ich eigentlich nur das Gefühl, das ich gereizt werden soll, und das Niveau erwarte ich eigentlich nicht von CB.

qualle · Heute um 19:40

Die KI stellt sich bestimmt nur dümmer, weil sie Angst vorm Papst hat. 🤣

Dimos · Heute um 19:40

Beide waren für Chatgpd kein problem

Mordi · Heute um 19:52

Das Grundproblem ist, dass die Antworten von LLMs nicht deterministisch sind.
Ich hab denselben „wieviele p sind in google“ Prompt mehrfach abgesendet, kamen immer wieder andere Ergebnisse.
Es ist nicht im vorhinein klar was die Antwort sein wird. Das macht diese Antworten zwar „menschenähnlicher“ und damit sympathischer, wenn man so will - zeigt aber auch klar das Fehlerpotential.

interesTED · Heute um 19:56

Ich finde auch kein KI Modell, das etwas anderes behauptet. Selbst die kleinen Mini Gemma 4 e4b Modelle (deren Datenbasis eindeutig von vor dem Artikel ist) spucken die richtige Angabe mit und ohne thinking aus (sogar wenn ich 10 x hintereinander Frage). Ich kann mir max. vorstellen, dass das KI Modell irgendeinen Artikel referenziert und zusammengefasst hat, aber in dem Sinne keine "Denkleistung" vollbracht hat. Dann haben wir aber genau das Problem, das wir seit immer im Internet haben - weil es da steht, muss es war sein. Und wenn ich die letzten 30 Jahre damit umgehen konnte, dass Hinz und Kunz Schrott ins Internet schreiben konnten, den ich mir dann manuell zusammengeklickt und geglaubt habe, dann habe ich auf einmal ein Problem, wenn eine KI auf Basis schlechter, durch Menschen erzeugter Daten fehlerhafte Informationen wiedergibt?

gimmix · Vor 56 Minuten

"Le Chat" ist auch nicht besser:

News Google mit zwei „P“: Wie der AI Overview beim Buchstabieren scheitert

Tagträumer

Commander Pro

Captain

Vice Admiral Pro

Commander

Lt. Junior Grade

Lieutenant

Commander Pro

Captain

Redakteur Pro

Admiral

Captain

Lt. Junior Grade

Captain

Lt. Junior Grade Pro

Cadet 1st Year

Cadet 4th Year

Garfield

Lt. Junior Grade Pro

Captain

Ähnliche Themen