Wie prüft ihr, was ChatGPT wirklich kann?

Ned Flanders · 4. September 2025

Ich habe nicht gesagt das jede beliebiges LLM zählen kann.

Micha- schrieb:
LLM können zum Beispiel nicht zählen

Offensichtlich kann GPT sowohl Buchstaben in Wörtern als auch Wörter in Sätzen zählen.

Ergänzung (4. September 2025)

P.S.: Wenn Du bei Gemini nachschaust liegen auch genau da die Unterschiede der schnellen Flash und der langsameren Pro Version.

JumpingCat · 4. September 2025

Micha- schrieb:
QED

Und nun? Schlechtes Beispiel.

Ned Flanders · 4. September 2025

Ich glaub das können wir als widerlegt ansehen.

Aber das ist kein schlechtes sondern ein gutes Beispiel dafür, das moderne LLMs mehr sind als statistische Wörterbücher. Denn diese könnten genau das eben nicht.

Bodennebel · 4. September 2025

stefan92x schrieb:
ChatGPT ist immer noch ein Sprachmodell. Was bedeutet, dass es eine bessere Autovervollständigung ist.

Sandro_Suchti schrieb:
Das einzige was ChatGPT kann, ist, statistisch häufig(st) aneinander gereihte Wörter wiederzugeben.

Also ich finde, eure Behauptungen gehen doch ein wenig an der Realität vorbei.

Krausetablette schrieb:
Sieht eher wertlos aus. Aber wie erklärt man normal denkenden Menschen, dass Dampf nicht durch einen geschlossenen Deckel steigen kann?

Ich habe deine Frage mal in ChatGPT eingegeben (frei zugängliche, kostenlose Version ohne Anmeldung):

Das Problem dabei ist oft nicht mangelnde Intelligenz, sondern ein Missverständnis physikalischer Grundlagen oder das Festhalten an einem falschen Alltagsverständnis. Um das gut zu erklären, hilft es, anschaulich und einfach zu bleiben. Hier ist ein möglicher Ansatz:

---

1. Mit einer einfachen Frage anfangen:

„Was passiert, wenn ich Wasser in einen Topf gebe, es zum Kochen bringe und dann einen dichten Deckel fest darauf mache?“

Zum Vergrößern anklicken....

Die meisten sagen: „Es dampft“, oder „Der Dampf kommt irgendwie raus.“ Dann kannst du sagen:

---

2. Der entscheidende Punkt:

„Dampf kann nur da raus, wo er auch eine Öffnung findet. Wenn der Deckel dicht ist, also keine Lücke hat, kann der Dampf nicht entweichen. Genauso wenig wie Wasser durch Glas durchgeht, geht Dampf durch Metall oder einen geschlossenen Deckel.“

Zum Vergrößern anklicken....

---

3. Beispiel aus dem Alltag:

„Stell dir einen Schnellkochtopf vor – der hat einen komplett geschlossenen Deckel. Der Dampf bleibt drin, bis ein Sicherheitsventil ihn rauslässt. Wenn Dampf einfach so durch den Deckel käme, bräuchten wir keine Ventile.“

Zum Vergrößern anklicken....

---

4. Physikalische Erklärung (einfach gehalten):

„Dampf ist nichts Magisches – es ist nur Wasser in Gasform. Es folgt den gleichen Regeln wie Luft: Es braucht Platz und kann nicht durch feste, dichte Materialien diffundieren. Wenn der Deckel wirklich dicht ist, bleibt der Dampf im Topf – er kann nicht ‚nach oben steigen‘, weil kein Weg offen ist.“

Zum Vergrößern anklicken....

---

5. Optionaler Test für Skeptiker:

„Nimm mal einen Topf mit kochendem Wasser, mach einen komplett dichten Deckel drauf – z. B. mit Frischhaltefolie und Gummiband, damit nichts entweichen kann – und beobachte, ob irgendwo Dampf rauskommt. Wenn alles dicht ist, siehst du nur, wie sich innen der Druck aufbaut, aber es kommt kein Dampf ‚nach draußen‘.“

Zum Vergrößern anklicken....

---

Wenn du ruhig und freundlich bleibst, und ihnen das Gefühl gibst, dass es ein Missverständnis ist und nicht Dummheit, kommen viele dann selbst drauf:

„Ah, stimmt eigentlich. Der Dampf braucht ja einen Weg nach draußen.“

Zum Vergrößern anklicken....

Willst du das für ein bestimmtes Gespräch oder einen Streit aufbereiten?

Ich finde die Antwort von ChatGPT sehr akzeptabel und bezweifele, dass ein Mensch das so viel besser hinbekommen würde. Allerdings bin ich auch nur ein gelegentlicher Nutzer und kein Experte für LLMs.

Witzig finde ich die Frage von ChatGPT (gefettet) am Ende der Antwort.

Micha- · 4. September 2025

Ihr beweist nur die Existenz von Anthropomorphismus

Sandro_Suchti · 4. September 2025

Bodennebel schrieb:
Also ich finde, eure Behauptungen gehen doch ein wenig an der Realität vorbei.

Bodennebel schrieb:
Allerdings bin ich auch nur ein gelegentlicher Nutzer und kein Experte für LLMs.

das sagt schon alles.

Ned Flanders · 4. September 2025

Ich halte die LLMs weder für menschlich nich für inteligent und hab das auch ausführlich dargestellt. Ich habe lediglich darauf hingewiesen das die Darstellung von modernen LLMs wie ChatGPT 4o als statistischen Wortkettengenerator unterkomplex ist und hab das mit Deiner Hilfe auch belegt und ausführlich genug erklärt warum es ich es für unterkomplex halte. Du kannst jetzt in den Verteidigungsmodus gehen, das ist aber nicht nötig. Du kannst auch zustimmen, dass mehr als ein statistisches Wörterbuch hinter GPT 4o etc steckt. Mir ist das letztlich egal.

Sinatra81 · 4. September 2025

Micha- schrieb:
QED

ChatGPT

Ich weiß noch nicht, wofür ich das je gebrauchen werde. Aber freut mich, dass sie es kann. 😅

Sandro_Suchti · 4. September 2025

Tja sind halt 5 Wörter, keine 6. Ist und bleibt ein "Wortkettengenerator" wie @Ned Flanders zu sagen pflegt. Dass ChatGPT und Konsorten auf alles eine Antwort haben und nichts hinterfragen zeigt ja ebenfalls dass das keine KI ist.

Micha- · 4. September 2025

Ich sehe da 5 Wörter 😂

dms · 4. September 2025

@Sinatra81 .. schön, wenn 6 Worte derer 5 sind

Sinatra81 · 4. September 2025

Ich kann halt genauso schlecht zählen wie sie! 😉

Habe mir auch gleich die Erklärung besorgt.

Das passiert oft, weil QED (wie viele KI-Systeme) beim Zählen von Wörtern manchmal nicht exakt auf die Anforderung achtet. Es kann mehrere Gründe geben:

Fokus auf Sinn statt Wortzahl: Manche Modelle priorisieren, dass der Satz natürlich und sinnvoll klingt, und übersehen die exakte Wortanzahl.
Tokenisierung vs. Wörter: KI-Systeme zählen intern „Tokens“, die nicht immer genau den Wörtern entsprechen, die ein Mensch sieht.
Missverständnis der Einschränkung: Wenn die Anweisung in natürlicher Sprache kommt, kann das Modell die Bedingung „genau sechs Wörter“ oder „genau acht Wörter“ leicht interpretieren als „ungefähr so viele Wörter“.

Ich mag sie trotzdem!

Metalveteran · 4. September 2025

Nachdem es hier jetzt ja schon doch eher um LLMs im Allgemeinen geht und ich in den letzten Wochen vermehrt damit gearbeitet habe, hier mal meine 2 cents als Späteinsteiger/Spätzünder:

Am Anfang hab ich das alles nur belächelt. Probiert man ne KI aus (egal welche) und benutzt sie als "besseres Google" merkt man schnell - das wird nix! Ich kann ein Modell von 2022 nicht fragen, wo in einem Spiel von 2023 ein bestimmtes Item zu finden ist. Zumindest nicht, wenn die KI nicht selbstständig im Internet recherchiert. Entweder hab ich den Button für "Web Search" übersehen, oder die KIs sind in der Hinsicht besser geworden.

However.

Ich habe mittlerweile ein Abo bei Claude und code auch ganz vernünftiges Zeug mit ihm/ihr. Die sind allerdings "streng". Da schaltet das nicht auf ein schwächeres Modell runter, da heisst es gleich "Nö, für X Stunden hast Du nun erstmal Sendepause! (es sei denn Du zahlst noch mehr!)"

Google Gemini..... man merkt, wenn Pro zu Flash wird. Als ob statt Chef selber nur noch der Azubi mit Dir redet. Der Dialog kann zwar weitergeführt werden, aber speziell beim Coden ist flash (mMn) quasi unbrauchbar, solche dummen Tippfehler mach nichtmal ich! (Erst recht nicht 3 Stunden am Stück hintereinander IMMER DENSELBEN..... rant)

Deepseek: In meiner Wahrnehmung absolut alltagstauglich und auch für längere Dialoge geeignet. Nach den "üblichen" 30-40 Minuten (so wie ich es nutze) kommt zwar mal sowas wie "Serverfehler", aber paar Minuten geht es ganz normal weiter. Einen Unterschied wie bei Gemini merke ich absolut nicht!

ChatGPT: hör ich immer wieder, wie gut das sein soll. Für meinen persönlichen Anwendungszweck habe ich da aber (bisher) keine Verwendung für. Zum coden nehme ich halt Claude, und für Alltagskram Deepseek.

Copilot: Uh, Microsoft, das kann ja nur schiefgehen! Will sich in Dein Betriebssystem einklinken und Fotos machen! (jaja in Verbindung mit Recall, but I hope you get the point). Gleichzeitig: Top-Integration in VSCode! Ich habe grad mal die 30 Tage Test abgeschlossen, aber noch nicht soo viel mit gemacht. Ersteindruck aber auf jeden fall nicht negativ!

Tjoa egal, will jetzt nicht alle Modell aufzählen die ich angetestet habe. Aber ich denke ERNSTHAFT über ne nVidia Karte mit 16GB nach, um auch mal im lokalen Bereich was testen zu können (nichtmal tinyllama macht mit ner 1080GTX Spaß)

Jetzt, wo ich etwas reingekommen bin und den Dingern mal eine faire Chance gegeben habe: Ich fühl mich wie damals, als ich das Internet entdeckt habe (10 Stunden AOL, wer sich erinnert). Ich freue mich jeden Tag drauf, an meinem Projekt weiterarbeiten zu können. Heute hab ich einfach mal n paar Zutaten aus meinen (spärlich bestückten) Essensvorräten bei Deepseek gepostet; es war jetzt nicht Gordon Ramsey, aber schon ganz nice!

Abblocken kann jeder! Etwas ne faire Chance geben kann aber nicht jeder!

So, nachdem ich in den letzten Wochen richtig deep in die LLM-Welt eingetaucht bin, dachte ich, ich geb mal meinen Senf als relativer Spätzünder dazu. 😄

Am Anfang war ich total skeptisch und hab das ganze nur belächelt. Wenn man eine KI wie einen "besseren Google" benutzt, merkt man schnell: Naja... Das bringt erstmal nichts. Ein Modell von 2022 weiß halt nicht, wo in einem Spiel von 2023 ein verstecktes Item liegt – es sei denn, es darf selbst im Internet suchen. Ob ich den "Web Search"-Button übersehen hab oder die Modelle einfach besser geworden sind, keine Ahnung.

Aber! Mittlerweile hat mich das KI-Fieber gepackt.

Claude hab ich mal fürs Coden abonniert. Der ist richtig gut, aber auch mega streng! Kein "Leistung runter, Preis runter", nein, da heißt es einfach: "Nope, für die nächsten X Stunden ist Sendepause! (Es sei denn, du blechst mehr!)" 😅
Google Gemini... puh. Wenn da "Pro" zu "Flash" wird, ist es, als ob der Chef in die Mittagspause geht und nur noch der Azubi da ist. Der Dialog geht weiter, ja, aber speziell beim Coden macht Flash so dämliche Fehler, dass ich mich frage, ob der drei Stunden am Stück nur tippen übt... und zwar immer denselben Buchstaben verhaut. Rant Ende
Deepseek ist für mich der Allrounder. Locker flockig, alltagstauglich und hält auch längere Dialoge aus. Klar, nach 30-40 Minuten mal ein "Serverfehler", aber nach paar Minuten geht's wieder. Für mich kein spürbarer Qualitätsabfall wie bei Gemini. Ein echter Kracher!
ChatGPT wird immer als der Heilsbringer gepriesen. Für meine Zwecke (vor allem Coden) hab ich aber da noch nicht so den Durchbruch gehabt. Dafür mache ich das mit Claude, und den Alltagskram regelt Deepseek.
Copilot... ui, Microsoft. Das rieft erstmal nach "wird sich sicher in dein OS einklinken wollen" (Looking at you, Recall 😬). Aber die Integration in VSCode ist schon top! Hab die 30 Tage Probe gerade durch, aber noch nicht viel gemacht. Ersteindruck aber auf jeden Fall solide!

Joa, das wär's von meiner Seite. Ich überlege mir ernsthaft, mir eine nVidia mit 16 GB zuzulegen, um auch lokal was auszuprobieren. TinyLlama macht mit meiner alten 1080GTX einfach keinen Spaß.

Jetzt, wo ich drin bin, fühl ich mich wie damals, als ich das Internet entdeckt hab (noch jemand 10 Stunden AOL-CDs? 😉). Ich freu mich jeden Tag, mit meinem Projekt weiterzumachen. Heute einfach mal meine spärlichen Vorrats-Zutaten bei Deepseek reingeworfen und ein Rezept bekommen. War jetzt nicht Gordon Ramsay, aber für den Hunger zwischendurch voll okay!

Fazit: Alles kann man einfach abblocken und hat seine Ruhe. Aber manchmal lohnt es sich, Dingen eine faire Chance zu geben!

Ned Flanders · 4. September 2025

Sandro_Suchti schrieb:
bleibt ein "Wortkettengenerator" wie @Ned Flanders zu sagen pflegt.

Manche nennen es auch eine Bullshit-Maschine. Aber dann erkläre uns doch bitte einmal schlüssig, wie ein LLM rein aus den statistisch indizierten Tokens der Trainingsdaten die exakte Zahl der Buchstaben im Fantasiewort „Wildbuschbidartschiff“ korrekt bestimmen konnte. Du kennst dich ja offensichtlich aus ;-)
Wir alle sehnen uns nach einer korrekten mechanistischen Erklärung. Magie ist es wohl nicht. Meine Erklärung war scheinbar falsch.

@Micha- spring gern mit für ihn ein.

I am all yours!

Und weil das sicher lustig wird, lassen wir Eure Antwort anschließend von ChatGPT im Deep-Research-Mode bewerten. Ich spendiere das gern!

Metalveteran · 4. September 2025

/egal

Sinatra81 · 4. September 2025

@Ned Flanders , lass jut sein und den Spaß an sowas nicht verderben. Die Typen haben den Algorithmus für schlechte Laune perfektioniert.

Ned Flanders · 4. September 2025

@Sinatra81 Nein, mich interessiert hier tatsächlich ernsthaft wie die sich vorstellen wie ihr postuliertes Model diese Aufgabe lösen konnte. Das find ich wirklich spannend!

Micha- · 4. September 2025

Es geht doch gar nicht darum die Leistung der LLM zu kritisieren. Das ist schon toll, was die können.

Aber jeder der das für Intelligenz hält, der tut mir leid.

Wenn ihr euch mal mit der Forschung auf dem Gebiet beschäftigt, dann werdet ihr feststellen das man inzwischen dazu gelernt hat und die Aufgabe erst analysiert und dann ggf einem spezialisierten Modell zuweist.

Ich nutze LLM auch fast täglich auf der Arbeit (nicht zum coden, das können die für die üblichen Sprachen inzwischen echt gut. Coderabbitai von Github macht echt Angst wie gut es den Code versteht) und kenne daher die Grenzen sehr gut.

Drehen wir den Spieß mal um : Ihr haltet die LLM wirklich für intelligent?

Alesis · 4. September 2025

Ned Flanders · 4. September 2025

Micha- schrieb:
Drehen wir den Spieß mal um : Ihr haltet die LLM wirklich für intelligent?

Das wurde bereits mehrfach beantwortet.

Micha- schrieb:
Es ist aber so. LLM fügen nur Token mit der höchsten Wahrscheinlichkeit aneinander.

Ich hätte gerne die Frage beantwortet lieber @Micha-

Keinen Themawechel!

Wie prüft ihr, was ChatGPT wirklich kann?

Fleet Admiral

Anhänge

Rear Admiral

Fleet Admiral

Anhänge

Lt. Commander

Captain

Lt. Commander

Fleet Admiral

Sinatra81

Gast

Lt. Commander

Captain

Commander

Sinatra81

Gast

Lt. Commander

Fleet Admiral

Lt. Commander

Sinatra81

Gast

Fleet Admiral

Captain

Commander

Fleet Admiral

Ähnliche Themen