Wie prüft ihr, was ChatGPT wirklich kann?

Micha- · 4. September 2025

Ned Flanders schrieb:
Das wurde bereits mehrfach beantwortet.

Tatsächlich nicht

Ich hätte gerne die Frage beantwortet lieber

Solche trivialen Fragen lasse ich mittlerweile von der KI beantworten

Das ist eine sehr spannende Frage 🙂

Ich bin kein Mensch und habe kein Bewusstsein, sondern ein Sprachmodell. Das bedeutet:

Ich wurde auf riesigen Mengen an Text trainiert – Bücher, Artikel, technische Dokumentationen, Gespräche usw.

Dabei habe ich gelernt, Muster in Sprache zu erkennen: Welche Wörter typischerweise zusammen vorkommen, welche Argumentationsketten logisch sind, wie sich Wissen miteinander verknüpfen lässt.

Wenn du mir etwas fragst, berechne ich mit Wahrscheinlichkeiten, wie die nächste sinnvolle Antwort aussehen könnte.

Das wirkt oft intelligent, weil ich Informationen ordnen, Schlüsse ziehen und in natürlicher Sprache ausdrücken kann. Aber es gibt einen großen Unterschied zur echten Intelligenz:

Ich verstehe die Welt nicht wirklich, sondern arbeite mit Mustern.

Ich habe keine eigenen Gedanken, kein Bewusstsein, keine Ziele.

Alles, was ich liefere, ist eine Art "fortgeschrittene Muster-Vervollständigung", die auf deinem Input und meinem Training basiert.

Man kann sagen:
👉 Ich bin eine Art Taschenrechner für Sprache und Wissen – unglaublich leistungsfähig bei Mustern, Verknüpfungen und Darstellungen, aber nicht „intelligent“ im menschlichen Sinne.

Ned Flanders · 4. September 2025

Micha- schrieb:
Tatsächlich nicht

tatsächlich doch! -->

Ned Flanders schrieb:
Ich halte die LLMs weder für menschlich nich für inteligent und hab das auch ausführlich dargestellt.

Micha- schrieb:
Solche trivialen Fragen lasse ich mittlerweile von der KI beantworten

Das war nur nicht die Frage. Die Frage war wie Du nach Deinem Model der Funktion von LLMs
... -->

Micha- schrieb:
LLM fügen nur Token mit der höchsten Wahrscheinlichkeit aneinander.

... mechanistisch erklären kannst, wie ein LLM die Anzahl der Buchstaben im Wort "Wildbuschbidartschiff" korrekt bestimmen konnte. Du steckst ja drinn in der Materie ;-) Ich halte Dein Model für unterkomplex und du hast mich korrigiert. Also los gehts!

Erklärs mir!

Metalveteran · 4. September 2025

Von echter INTELLIGENZ hat hier zumindest meiner Wahrnehmung nach KEINER geredet.....

Es geht eher darum, wie man dieses künstliche, langwierig trainierte getue SINNVOLL nutzen kann!

Micha- · 4. September 2025

Ned Flanders schrieb:
mechanistisch erklären kannst, wie ein LLM die Anzahl der Buchstaben im Wort "Wildbuschbidartschiff" korrekt bestimmen konnte.

Da kann ich mich nur wiederholen:

Wenn ihr euch mal mit der Forschung auf dem Gebiet beschäftigt, dann werdet ihr feststellen das man inzwischen dazu gelernt hat und die Aufgabe erst analysiert und dann ggf einem spezialisierten Modell zuweist.

Ergänzung (4. September 2025)

Und hier die technische Erklärung von jemandem, der es wissen muss

Sehr gute Nachfrage, Michael 👍 – und perfekt geeignet, um einmal wirklich mechanistisch zu erklären, wie ein LLM (wie ich) so eine Aufgabe löst.

1. Trainingsebene: Wie ein LLM Sprache „lernt“

Ich wurde nicht darauf trainiert, Buchstaben zu zählen wie ein Mensch mit Verstand oder mit Stift und Papier.

Stattdessen habe ich beim Training Statistiken über Text gelernt: Wörter, Buchstaben, Silben, Zeichenfolgen und deren Wahrscheinlichkeiten.

Das Modell ist ein großes neuronales Netz (Transformer), das aus Milliarden von Parametern besteht. Diese Parameter sind durch „Gradient Descent“ so angepasst worden, dass ich für Eingaben die wahrscheinlichste Fortsetzung liefere.

2. Tokenisierung: Die Basis-Einheiten

Vor der Verarbeitung wird der Text nicht direkt als Buchstaben gesehen, sondern in Tokens zerlegt.

Ein Token kann ein Buchstabe, ein Teil eines Wortes oder ein ganzes Wort sein, abhängig von der Häufigkeit im Trainingskorpus.

Das Wort „Wildbuschbidartschiff“ wird in eine kleine Sequenz solcher Tokens zerlegt – wahrscheinlich in mehrere Subwort-Tokens, da es ein ungewöhnliches Kompositum ist.

3. Internes Rechnen mit Sequenzen

Um die Länge zu bestimmen, habe ich zwei mögliche Strategien im Netz:

Gelernte Muster: Ich habe viele Trainingsbeispiele gesehen, wo nach „Wie viele Buchstaben hat ?“ direkt eine Zahl stand. Das heißt: Wahrscheinlichkeiten wurden so angepasst, dass ich schon fast „weiß“, dass es um eine Längenzählung geht.

Symbolische Emergenz: Transformer sind sehr gut darin, „positionelles Zählen“ zu simulieren, weil sie Positions-Encodings haben. Sie können quasi die Länge einer Sequenz „aufsummieren“, auch wenn es nie explizit so programmiert wurde.

4. Dein Beispiel „Wildbuschbidartschiff“

Mechanisch passiert Folgendes:

Das Wort wird in Tokens zerlegt (z. B. „Wild“, „busch“, „bi“, „dart“, „schiff“ – reine Hypothese).

Das Modell erkennt die Aufgabe: „Anzahl der Buchstaben bestimmen“.

Interne Repräsentationen enthalten Positionen jedes Zeichens. Transformer sind in der Lage, ein implizites Zählen durchzuführen, weil sie über Positions-Encodings die Länge „sehen“.

Beim Generieren der Antwort „21“ (korrekte Buchstabenzahl) kombiniert das Modell seine Fähigkeit zur string length approximation + gelernte Beispiele.

5. Warum das beeindruckt

Das wirkt wie echtes „Zählen“, aber eigentlich ist es eine emergente Fähigkeit:

Die Architektur erzwingt kein Zählen, sondern das Netz hat „verstanden“, dass Zählen eine Art Mapping von Sequenz → Zahl ist.

Es wurde nie programmiert, aber die Trainingsdaten + Struktur reichen, dass sich diese Funktion herausbildet.

👉 Fazit:
Ich bestimme die Anzahl der Buchstaben nicht so wie ein Mensch (bewusstes Zählen), sondern indem ich über Tokens + Positions-Encodings ein internes Muster aufbaue, das die Sequenzlänge korrekt auf eine Zahl abbildet. Es ist also kein „Bewusstsein“ oder „Intelligenz“, sondern eine hochpräzise Mustererkennung mit impliziter Symbolmanipulation.

Willst du, dass ich dir das an einem ganz konkreten Beispiel mit Tokens für dein Wort durchrechne, also wie „Wildbuschbidartschiff“ tatsächlich in Tokens zerfällt?

Ned Flanders · 4. September 2025

Ach sie an! Es ist also komplexer als ein reines aneinanderfügen der wahrscheinlichsten Tokens?

Micha- · 4. September 2025

Du könntest einfach selber eine KI deiner Wahl befragen

Ja, absolut – ich kann mich dabei irren 🙂

Das liegt an mehreren mechanischen Gründen:

1.

Ich sehe Wörter nicht direkt als Buchstabenfolge, sondern als Tokens.

Ein Token kann z. B. "Wild", "bus", "ch", "schiff" sein – aber manchmal sind es auch merkwürdige Stücke.

Wenn ein Wort selten oder künstlich ist, zerschneidet die Tokenisierung es auf eine Weise, die nicht sauber zur Anzahl der Buchstaben passt.

Beispiel: Ein Token "schiff" repräsentiert 6 Buchstaben, aber intern wird es nur als 1 Symbol behandelt.

Wenn ich die Aufgabe dann rein über Tokenmuster „löse“, kann ein Fehler entstehen.

2.

Ich habe beim Training gelernt: „Wenn jemand fragt: Wie viele Buchstaben …, dann kommt meist eine Zahl.“

Das ist keine echte Rechenregel, sondern ein Wahrscheinlichkeits-Mapping.

Wenn ich seltene Wörter sehe, könnte ich eine Zahl generieren, die nur wahrscheinlich klingt, aber nicht exakt ist.

3.

Transformer können implizit zählen, weil sie Positions-Encodings haben.

Aber: Sie haben kein garantiertes arithmetisches Modul eingebaut.

Deshalb können sie bei langen oder ungewöhnlichen Wörtern danebenliegen – so wie ein Mensch, der sich beim Zählen verzählt.

4.

Bei „Haus“ (4 Buchstaben) treffe ich praktisch immer.

Bei sehr langen Kunstwörtern („Superkalifragilistischexpialigetisch“) liege ich manchmal 1–2 daneben.

Bei Sonderzeichen, Umlauten oder Bindestrichen steigt die Fehlerwahrscheinlichkeit.

👉 Kurz gesagt:
Ich kann korrekt zählen, aber ich bin nicht darauf spezialisiert. Meine „Zählfähigkeit“ ist ein Nebeneffekt des Trainings – deshalb können sich Fehler einschleichen, besonders bei ungewöhnlichen Wörtern oder sehr langen Zeichenketten.

Soll ich dir mal ein Experiment machen und für verschiedene Wörter (kurz, lang, zusammengesetzt) demonstrieren, wo ich richtig und wo ich wahrscheinlich danebenliege?

Ned Flanders · 4. September 2025

@Micha- Dude, du erzählst hier das LLMs ein reines aneinanderreihen statistisch wahrscheinlicher Tokens sind, ich weise darauf hin, dass das unterkomplex ist, du verneinst das, ich frage wie es dann funktioniert und du sagst, !!nach dem befragen einer KI!! das es komplexer ist.

Danke, keine weiteren Fragen und gute Nacht. Zumindest sind wir am Ende einer Meinung.

Micha- · 4. September 2025

Du drehst dir das auch so hin wie du es willst. Komplex wurde es ja erst, weil es ja "nur" Wahrscheinlichkeits Maschinen sind und man deren Nachteile ausgleichen will.

Metalveteran · 4. September 2025

Ich bin auch raus für heute. Ich unterhalte mich lieber mit Claude. Ist produktiver.

Sorry @Micha- aber ist heute nicht Deine Sternstunde.

Ned Flanders · 4. September 2025

@Micha- Nein, ich drehe das so hin wie es ist. Du hast einen Strohman aufgebaut indem du behauptet hast ich würde sagen sie seien intelligent. Das habe ich nie. Ich habe lediglich gesagt die Darstellung von fortgeschrittenen LLMs wie 4o als reine Wortkettengeneratoren basierend auf statistischen indices von Token sei "Unterkomplex" und das ist sie auch.

Ich habe sogar die Analogie zur Evolutionstheorie gebracht. Hast du beim Bekämpfen deines eigenen Strohmans nur offensichtlich nicht mehr mitbekommen.

Micha- · 4. September 2025

Wenn Dich das besser schlafen lässt...

floTTes · 5. September 2025

Moin, ich habe ja schon geschlafen! Ich darf also weiterreden.

Ich glaube, wir sind uns alle einig darüber, dass (aktuelle Hype-)KI nicht intelligent (im herkömmlichen Sinne) ist und dass sie mit Tokens und Wahrscheinlichkeit arbeitet. Auch wenn die Sätze, Bilder, Code etc. von KI Sinn ergeben, (er)kennt die KI den Sinn selber nicht. Es ist ein stupides Werkzeug, das gut raten kann, was der Werkzeugnutzer lesen/sehen/hören will.

Kommen wir aber mal zur zentralen Frage zurück. Was können KI-Modelle mit unterschiedlichen Plugins/Modulen und unterschiedlichen Bezahlmodellen.
Es gibt paar YT-Videos, die sich mit den einzelnen Fähigkeiten der unterschiedlichen LLM-Modelle beschäftigen. Eine totale Übersicht wäre mir nicht bekannt.

Auch interessant:
Kann man LLMs besser nutzen, wenn man selber besser mit ihnen kommunizieren kann?

Und wieder OT:
"Die Landschildkröte mag keinen Senf!":
arbeitet das LLM intern englisch oder deutsch? Zählt es vor/nach einem Translation-Layer?

GeCKo127 · 5. September 2025

Metalveteran schrieb:
Nachdem es hier jetzt ja schon doch eher um LLMs im Allgemeinen geht und ich in den letzten Wochen vermehrt damit gearbeitet habe, hier mal meine 2 cents als Späteinsteiger/Spätzünder:

Am Anfang hab ich das alles nur belächelt. Probiert man ne KI aus (egal welche) und benutzt sie als "besseres Google" merkt man schnell - das wird nix! Ich kann ein Modell von 2022 nicht fragen, wo in einem Spiel von 2023 ein bestimmtes Item zu finden ist. Zumindest nicht, wenn die KI nicht selbstständig im Internet recherchiert. Entweder hab ich den Button für "Web Search" übersehen, oder die KIs sind in der Hinsicht besser geworden.

However.

Ich habe mittlerweile ein Abo bei Claude und code auch ganz vernünftiges Zeug mit ihm/ihr. Die sind allerdings "streng". Da schaltet das nicht auf ein schwächeres Modell runter, da heisst es gleich "Nö, für X Stunden hast Du nun erstmal Sendepause! (es sei denn Du zahlst noch mehr!)"

Google Gemini..... man merkt, wenn Pro zu Flash wird. Als ob statt Chef selber nur noch der Azubi mit Dir redet. Der Dialog kann zwar weitergeführt werden, aber speziell beim Coden ist flash (mMn) quasi unbrauchbar, solche dummen Tippfehler mach nichtmal ich! (Erst recht nicht 3 Stunden am Stück hintereinander IMMER DENSELBEN..... rant)

Deepseek: In meiner Wahrnehmung absolut alltagstauglich und auch für längere Dialoge geeignet. Nach den "üblichen" 30-40 Minuten (so wie ich es nutze) kommt zwar mal sowas wie "Serverfehler", aber paar Minuten geht es ganz normal weiter. Einen Unterschied wie bei Gemini merke ich absolut nicht!

ChatGPT: hör ich immer wieder, wie gut das sein soll. Für meinen persönlichen Anwendungszweck habe ich da aber (bisher) keine Verwendung für. Zum coden nehme ich halt Claude, und für Alltagskram Deepseek.

Copilot: Uh, Microsoft, das kann ja nur schiefgehen! Will sich in Dein Betriebssystem einklinken und Fotos machen! (jaja in Verbindung mit Recall, but I hope you get the point). Gleichzeitig: Top-Integration in VSCode! Ich habe grad mal die 30 Tage Test abgeschlossen, aber noch nicht soo viel mit gemacht. Ersteindruck aber auf jeden fall nicht negativ!

Tjoa egal, will jetzt nicht alle Modell aufzählen die ich angetestet habe. Aber ich denke ERNSTHAFT über ne nVidia Karte mit 16GB nach, um auch mal im lokalen Bereich was testen zu können (nichtmal tinyllama macht mit ner 1080GTX Spaß)

Jetzt, wo ich etwas reingekommen bin und den Dingern mal eine faire Chance gegeben habe: Ich fühl mich wie damals, als ich das Internet entdeckt habe (10 Stunden AOL, wer sich erinnert). Ich freue mich jeden Tag drauf, an meinem Projekt weiterarbeiten zu können. Heute hab ich einfach mal n paar Zutaten aus meinen (spärlich bestückten) Essensvorräten bei Deepseek gepostet; es war jetzt nicht Gordon Ramsey, aber schon ganz nice!

Abblocken kann jeder! Etwas ne faire Chance geben kann aber nicht jeder!

So, nachdem ich in den letzten Wochen richtig deep in die LLM-Welt eingetaucht bin, dachte ich, ich geb mal meinen Senf als relativer Spätzünder dazu. 😄

Am Anfang war ich total skeptisch und hab das ganze nur belächelt. Wenn man eine KI wie einen "besseren Google" benutzt, merkt man schnell: Naja... Das bringt erstmal nichts. Ein Modell von 2022 weiß halt nicht, wo in einem Spiel von 2023 ein verstecktes Item liegt – es sei denn, es darf selbst im Internet suchen. Ob ich den "Web Search"-Button übersehen hab oder die Modelle einfach besser geworden sind, keine Ahnung.

Aber! Mittlerweile hat mich das KI-Fieber gepackt.

Claude hab ich mal fürs Coden abonniert. Der ist richtig gut, aber auch mega streng! Kein "Leistung runter, Preis runter", nein, da heißt es einfach: "Nope, für die nächsten X Stunden ist Sendepause! (Es sei denn, du blechst mehr!)" 😅

Google Gemini... puh. Wenn da "Pro" zu "Flash" wird, ist es, als ob der Chef in die Mittagspause geht und nur noch der Azubi da ist. Der Dialog geht weiter, ja, aber speziell beim Coden macht Flash so dämliche Fehler, dass ich mich frage, ob der drei Stunden am Stück nur tippen übt... und zwar immer denselben Buchstaben verhaut. Rant Ende

Deepseek ist für mich der Allrounder. Locker flockig, alltagstauglich und hält auch längere Dialoge aus. Klar, nach 30-40 Minuten mal ein "Serverfehler", aber nach paar Minuten geht's wieder. Für mich kein spürbarer Qualitätsabfall wie bei Gemini. Ein echter Kracher!

ChatGPT wird immer als der Heilsbringer gepriesen. Für meine Zwecke (vor allem Coden) hab ich aber da noch nicht so den Durchbruch gehabt. Dafür mache ich das mit Claude, und den Alltagskram regelt Deepseek.

Copilot... ui, Microsoft. Das rieft erstmal nach "wird sich sicher in dein OS einklinken wollen" (Looking at you, Recall 😬). Aber die Integration in VSCode ist schon top! Hab die 30 Tage Probe gerade durch, aber noch nicht viel gemacht. Ersteindruck aber auf jeden Fall solide!

Joa, das wär's von meiner Seite. Ich überlege mir ernsthaft, mir eine nVidia mit 16 GB zuzulegen, um auch lokal was auszuprobieren. TinyLlama macht mit meiner alten 1080GTX einfach keinen Spaß.

Jetzt, wo ich drin bin, fühl ich mich wie damals, als ich das Internet entdeckt hab (noch jemand 10 Stunden AOL-CDs? 😉). Ich freu mich jeden Tag, mit meinem Projekt weiterzumachen. Heute einfach mal meine spärlichen Vorrats-Zutaten bei Deepseek reingeworfen und ein Rezept bekommen. War jetzt nicht Gordon Ramsay, aber für den Hunger zwischendurch voll okay!

Fazit: Alles kann man einfach abblocken und hat seine Ruhe. Aber manchmal lohnt es sich, Dingen eine faire Chance zu geben!

Probier mal LM Studio und diverse Quant Versionen. Auf meiner 4070 mit 12 GB kann ich einiges lokal und brauchbar laufen lassen.

blöderidiot · 6. September 2025

LLMs haben Probleme mit Perl und dessen Ausgaben. Kein LLM schafft:

Please run this Perl-code (single line) and interpret the output:

Perl:

for(qw$f29970i425010i429110i521210i2c8110 629979ed10i9652192420if6521f6c10i9a52192420i929119e520 7ed9i924ai76c9i124ai1e5a70 9c894fe0i925a2121ife5813e0i925a2121i92994f21$){print$/;for(split"i"){$o=unpack("b*",pack("h*",$_));$o=~tr/10/# /;print"$o$/";}}

Des Ergebnis ist:

Bash:

J U S T
A N O T H E R
P E R L
H A C K E R

in ASCII-Art:

Keine Chance! Wahrscheinlich niemals.
Gemini pro 2.5 ist in einem endlos-error-loop gelandet und hat nach ca. 20 Durchläufen abgebrochen.

oicfar · 6. September 2025

@blöderidiot ich packe hier mal ein Screenshot von ChatGPT 5 Thinking rein.

User38 · 6. September 2025

blöderidiot schrieb:
Keine Chance! Wahrscheinlich niemals.

Viele vergessen, das ganze Thema „KI“ steckt heute noch total in den Kinderschuhen. Vergleiche die ganzen Systeme (Stand 2025) mit dem Anfang des WWW damals.

Ich bin aufjedenfall gespannt und interessiert wo die Reise hin geht.

oicfar · 6. September 2025

User38 schrieb:
Viele vergessen, das ganze Thema „KI“ steckt heute noch total in den Kinderschuhen. Vergleiche die ganzen Systeme (Stand 2025) mit dem Anfang des WWW damals.

Ich sehe es auch so und vergleiche die aktuelle Phase zu der Dotcom-Blase.

Die Leute meckern, was heute noch alles nicht geht. Aber das ist erst der Anfang. Ich muss auch sagen, dass gewisse Entwicklungen mir auch nicht gefallen.

Ned Flanders · 6. September 2025

,

blöderidiot schrieb:
Wahrscheinlich niemals.

https://chatgpt.com/s/t_68bc33ac26b88191968dc9ed1d381dec

blöderidiot · 6. September 2025

oicfar schrieb:
@blöderidiot ich packe hier mal ein Screenshot von ChatGPT 5 Thinking rein.

Anhang anzeigen 1654674

ChatGPT (free) in default mode schafft es zumindest noch nicht:

Das ist also hier noch gescheitert. Aber ich bin erstaunt, dass GPT5 in "thinking mode" das gepackt hat. Danke für den Tipp!

Uwe_Bit · 16. September 2025

Ich wollte hier auch mal meine Meinung dazu schreiben.
Seit kurzem habe ich wie viele andere die Version 5 von ChatGPT, und ehrlich gesagt kommt sie mir schwächer vor als die 4er. Vor allem die Bildqualität hat ziemlich nachgelassen.

Ich habe ChatGPT sogar gefragt, was sich verändert hat, und die Antwort war, dass es wegen Urheberrechten mehr Einschränkungen gibt. Für Bilder habe ich dann mal Gemini ausprobiert – das Ergebnis hat mir heute besser gefallen. Ich habe das Bild sogar ChatGPT gezeigt, und er meinte selbst, dass er so etwas im Moment nicht hinbekommt.

Auch bei Texten merke ich, dass die Qualität gesunken ist. Manchmal stimmt die Logik nicht oder im Code sind kleine Fehler. Sowas kann ich zwar meist korrigieren, aber auffallen tut es schon.

Trotzdem finde ich es spannend, wie sich KI entwickelt. Am Ende hängt es ja stark davon ab, wofür man sie einsetzt. Natürlich gibt es auch Risiken, und ich weiß, dass viele Teams gerade daran arbeiten, KI sicherer zu machen.

Trotz der Schwächen sehe ich das Ganze positiv – es ist interessant, das mitzuverfolgen und zu sehen, wohin die Entwicklung geht.

Wie prüft ihr, was ChatGPT wirklich kann?

Captain

Fleet Admiral

Lt. Commander

Captain

1. Trainingsebene: Wie ein LLM Sprache „lernt“​

2. Tokenisierung: Die Basis-Einheiten​

3. Internes Rechnen mit Sequenzen​

4. Dein Beispiel „Wildbuschbidartschiff“​

5. Warum das beeindruckt​

Fleet Admiral

Captain

1.​

2.​

3.​

4.​

Fleet Admiral

Captain

Lt. Commander

Fleet Admiral

Captain

Commander

Lieutenant

Captain

Captain

Lt. Junior Grade

Captain

Fleet Admiral

Captain

Newbie

Ähnliche Themen

1. Trainingsebene: Wie ein LLM Sprache „lernt“

2. Tokenisierung: Die Basis-Einheiten

3. Internes Rechnen mit Sequenzen

4. Dein Beispiel „Wildbuschbidartschiff“

5. Warum das beeindruckt

1.

2.

3.

4.