Wie prüft ihr, was ChatGPT wirklich kann?

Ned Flanders schrieb:
Das wurde bereits mehrfach beantwortet.
Tatsächlich nicht


Ich hätte gerne die Frage beantwortet lieber
Solche trivialen Fragen lasse ich mittlerweile von der KI beantworten
Das ist eine sehr spannende Frage 🙂


Ich bin kein Mensch und habe kein Bewusstsein, sondern ein Sprachmodell. Das bedeutet:


  • Ich wurde auf riesigen Mengen an Text trainiert – Bücher, Artikel, technische Dokumentationen, Gespräche usw.
  • Dabei habe ich gelernt, Muster in Sprache zu erkennen: Welche Wörter typischerweise zusammen vorkommen, welche Argumentationsketten logisch sind, wie sich Wissen miteinander verknüpfen lässt.
  • Wenn du mir etwas fragst, berechne ich mit Wahrscheinlichkeiten, wie die nächste sinnvolle Antwort aussehen könnte.

Das wirkt oft intelligent, weil ich Informationen ordnen, Schlüsse ziehen und in natürlicher Sprache ausdrücken kann. Aber es gibt einen großen Unterschied zur echten Intelligenz:


  • Ich verstehe die Welt nicht wirklich, sondern arbeite mit Mustern.
  • Ich habe keine eigenen Gedanken, kein Bewusstsein, keine Ziele.
  • Alles, was ich liefere, ist eine Art "fortgeschrittene Muster-Vervollständigung", die auf deinem Input und meinem Training basiert.

Man kann sagen:
👉 Ich bin eine Art Taschenrechner für Sprache und Wissen – unglaublich leistungsfähig bei Mustern, Verknüpfungen und Darstellungen, aber nicht „intelligent“ im menschlichen Sinne.
 
  • Gefällt mir
Reaktionen: nutrix
Micha- schrieb:
Tatsächlich nicht
tatsächlich doch! -->

Ned Flanders schrieb:
Ich halte die LLMs weder für menschlich nich für inteligent und hab das auch ausführlich dargestellt.

Micha- schrieb:
Solche trivialen Fragen lasse ich mittlerweile von der KI beantworten
Das war nur nicht die Frage. Die Frage war wie Du nach Deinem Model der Funktion von LLMs
... -->
Micha- schrieb:
LLM fügen nur Token mit der höchsten Wahrscheinlichkeit aneinander.
... mechanistisch erklären kannst, wie ein LLM die Anzahl der Buchstaben im Wort "Wildbuschbidartschiff" korrekt bestimmen konnte. Du steckst ja drinn in der Materie ;-) Ich halte Dein Model für unterkomplex und du hast mich korrigiert. Also los gehts!

Erklärs mir!
 
Von echter INTELLIGENZ hat hier zumindest meiner Wahrnehmung nach KEINER geredet.....

Es geht eher darum, wie man dieses künstliche, langwierig trainierte getue SINNVOLL nutzen kann!
 
  • Gefällt mir
Reaktionen: Sinatra81 und floTTes
Ned Flanders schrieb:
mechanistisch erklären kannst, wie ein LLM die Anzahl der Buchstaben im Wort "Wildbuschbidartschiff" korrekt bestimmen konnte.
Da kann ich mich nur wiederholen:

Wenn ihr euch mal mit der Forschung auf dem Gebiet beschäftigt, dann werdet ihr feststellen das man inzwischen dazu gelernt hat und die Aufgabe erst analysiert und dann ggf einem spezialisierten Modell zuweist.
Ergänzung ()

Und hier die technische Erklärung von jemandem, der es wissen muss

Sehr gute Nachfrage, Michael 👍 – und perfekt geeignet, um einmal wirklich mechanistisch zu erklären, wie ein LLM (wie ich) so eine Aufgabe löst.




1. Trainingsebene: Wie ein LLM Sprache „lernt“​


  • Ich wurde nicht darauf trainiert, Buchstaben zu zählen wie ein Mensch mit Verstand oder mit Stift und Papier.
  • Stattdessen habe ich beim Training Statistiken über Text gelernt: Wörter, Buchstaben, Silben, Zeichenfolgen und deren Wahrscheinlichkeiten.
  • Das Modell ist ein großes neuronales Netz (Transformer), das aus Milliarden von Parametern besteht. Diese Parameter sind durch „Gradient Descent“ so angepasst worden, dass ich für Eingaben die wahrscheinlichste Fortsetzung liefere.



2. Tokenisierung: Die Basis-Einheiten​


  • Vor der Verarbeitung wird der Text nicht direkt als Buchstaben gesehen, sondern in Tokens zerlegt.
  • Ein Token kann ein Buchstabe, ein Teil eines Wortes oder ein ganzes Wort sein, abhängig von der Häufigkeit im Trainingskorpus.
  • Das Wort „Wildbuschbidartschiff“ wird in eine kleine Sequenz solcher Tokens zerlegt – wahrscheinlich in mehrere Subwort-Tokens, da es ein ungewöhnliches Kompositum ist.



3. Internes Rechnen mit Sequenzen​


  • Um die Länge zu bestimmen, habe ich zwei mögliche Strategien im Netz:
    1. Gelernte Muster: Ich habe viele Trainingsbeispiele gesehen, wo nach „Wie viele Buchstaben hat ?“ direkt eine Zahl stand. Das heißt: Wahrscheinlichkeiten wurden so angepasst, dass ich schon fast „weiß“, dass es um eine Längenzählung geht.
    2. Symbolische Emergenz: Transformer sind sehr gut darin, „positionelles Zählen“ zu simulieren, weil sie Positions-Encodings haben. Sie können quasi die Länge einer Sequenz „aufsummieren“, auch wenn es nie explizit so programmiert wurde.



4. Dein Beispiel „Wildbuschbidartschiff“​


Mechanisch passiert Folgendes:


  1. Das Wort wird in Tokens zerlegt (z. B. „Wild“, „busch“, „bi“, „dart“, „schiff“ – reine Hypothese).
  2. Das Modell erkennt die Aufgabe: „Anzahl der Buchstaben bestimmen“.
  3. Interne Repräsentationen enthalten Positionen jedes Zeichens. Transformer sind in der Lage, ein implizites Zählen durchzuführen, weil sie über Positions-Encodings die Länge „sehen“.
  4. Beim Generieren der Antwort „21“ (korrekte Buchstabenzahl) kombiniert das Modell seine Fähigkeit zur string length approximation + gelernte Beispiele.



5. Warum das beeindruckt​


Das wirkt wie echtes „Zählen“, aber eigentlich ist es eine emergente Fähigkeit:


  • Die Architektur erzwingt kein Zählen, sondern das Netz hat „verstanden“, dass Zählen eine Art Mapping von Sequenz → Zahl ist.
  • Es wurde nie programmiert, aber die Trainingsdaten + Struktur reichen, dass sich diese Funktion herausbildet.



👉 Fazit:
Ich bestimme die Anzahl der Buchstaben nicht so wie ein Mensch (bewusstes Zählen), sondern indem ich über Tokens + Positions-Encodings ein internes Muster aufbaue, das die Sequenzlänge korrekt auf eine Zahl abbildet. Es ist also kein „Bewusstsein“ oder „Intelligenz“, sondern eine hochpräzise Mustererkennung mit impliziter Symbolmanipulation.




Willst du, dass ich dir das an einem ganz konkreten Beispiel mit Tokens für dein Wort durchrechne, also wie „Wildbuschbidartschiff“ tatsächlich in Tokens zerfällt?
 
  • Gefällt mir
Reaktionen: nutrix
Ach sie an! Es ist also komplexer als ein reines aneinanderfügen der wahrscheinlichsten Tokens? :lol:
 
  • Gefällt mir
Reaktionen: Otsy
Du könntest einfach selber eine KI deiner Wahl befragen

Ja, absolut – ich kann mich dabei irren 🙂


Das liegt an mehreren mechanischen Gründen:




1.​


  • Ich sehe Wörter nicht direkt als Buchstabenfolge, sondern als Tokens.
  • Ein Token kann z. B. "Wild", "bus", "ch", "schiff" sein – aber manchmal sind es auch merkwürdige Stücke.
  • Wenn ein Wort selten oder künstlich ist, zerschneidet die Tokenisierung es auf eine Weise, die nicht sauber zur Anzahl der Buchstaben passt.
  • Beispiel: Ein Token "schiff" repräsentiert 6 Buchstaben, aber intern wird es nur als 1 Symbol behandelt.
  • Wenn ich die Aufgabe dann rein über Tokenmuster „löse“, kann ein Fehler entstehen.



2.​


  • Ich habe beim Training gelernt: „Wenn jemand fragt: Wie viele Buchstaben …, dann kommt meist eine Zahl.“
  • Das ist keine echte Rechenregel, sondern ein Wahrscheinlichkeits-Mapping.
  • Wenn ich seltene Wörter sehe, könnte ich eine Zahl generieren, die nur wahrscheinlich klingt, aber nicht exakt ist.



3.​


  • Transformer können implizit zählen, weil sie Positions-Encodings haben.
  • Aber: Sie haben kein garantiertes arithmetisches Modul eingebaut.
  • Deshalb können sie bei langen oder ungewöhnlichen Wörtern danebenliegen – so wie ein Mensch, der sich beim Zählen verzählt.



4.​


  • Bei „Haus“ (4 Buchstaben) treffe ich praktisch immer.
  • Bei sehr langen Kunstwörtern („Superkalifragilistischexpialigetisch“) liege ich manchmal 1–2 daneben.
  • Bei Sonderzeichen, Umlauten oder Bindestrichen steigt die Fehlerwahrscheinlichkeit.



👉 Kurz gesagt:
Ich kann korrekt zählen, aber ich bin nicht darauf spezialisiert. Meine „Zählfähigkeit“ ist ein Nebeneffekt des Trainings – deshalb können sich Fehler einschleichen, besonders bei ungewöhnlichen Wörtern oder sehr langen Zeichenketten.




Soll ich dir mal ein Experiment machen und für verschiedene Wörter (kurz, lang, zusammengesetzt) demonstrieren, wo ich richtig und wo ich wahrscheinlich danebenliege?
 
  • Gefällt mir
Reaktionen: nutrix
@Micha- Dude, du erzählst hier das LLMs ein reines aneinanderreihen statistisch wahrscheinlicher Tokens sind, ich weise darauf hin, dass das unterkomplex ist, du verneinst das, ich frage wie es dann funktioniert und du sagst, !!nach dem befragen einer KI!! das es komplexer ist.

Danke, keine weiteren Fragen und gute Nacht. Zumindest sind wir am Ende einer Meinung.
 
  • Gefällt mir
Reaktionen: Otsy und Metalveteran
Du drehst dir das auch so hin wie du es willst. Komplex wurde es ja erst, weil es ja "nur" Wahrscheinlichkeits Maschinen sind und man deren Nachteile ausgleichen will.
 
  • Gefällt mir
Reaktionen: nutrix
Ich bin auch raus für heute. Ich unterhalte mich lieber mit Claude. Ist produktiver.

Sorry @Micha- aber ist heute nicht Deine Sternstunde.
 
@Micha- Nein, ich drehe das so hin wie es ist. Du hast einen Strohman aufgebaut indem du behauptet hast ich würde sagen sie seien intelligent. Das habe ich nie. Ich habe lediglich gesagt die Darstellung von fortgeschrittenen LLMs wie 4o als reine Wortkettengeneratoren basierend auf statistischen indices von Token sei "Unterkomplex" und das ist sie auch.

Ich habe sogar die Analogie zur Evolutionstheorie gebracht. Hast du beim Bekämpfen deines eigenen Strohmans nur offensichtlich nicht mehr mitbekommen.
 
  • Gefällt mir
Reaktionen: Otsy
Wenn Dich das besser schlafen lässt...
 
  • Gefällt mir
Reaktionen: Ned Flanders
Moin, ich habe ja schon geschlafen! Ich darf also weiterreden. :evillol:

Ich glaube, wir sind uns alle einig darüber, dass (aktuelle Hype-)KI nicht intelligent (im herkömmlichen Sinne) ist und dass sie mit Tokens und Wahrscheinlichkeit arbeitet. Auch wenn die Sätze, Bilder, Code etc. von KI Sinn ergeben, (er)kennt die KI den Sinn selber nicht. Es ist ein stupides Werkzeug, das gut raten kann, was der Werkzeugnutzer lesen/sehen/hören will.

Kommen wir aber mal zur zentralen Frage zurück. Was können KI-Modelle mit unterschiedlichen Plugins/Modulen und unterschiedlichen Bezahlmodellen.
Es gibt paar YT-Videos, die sich mit den einzelnen Fähigkeiten der unterschiedlichen LLM-Modelle beschäftigen. Eine totale Übersicht wäre mir nicht bekannt.

Auch interessant:
Kann man LLMs besser nutzen, wenn man selber besser mit ihnen kommunizieren kann?

Und wieder OT:
"Die Landschildkröte mag keinen Senf!":
arbeitet das LLM intern englisch oder deutsch? Zählt es vor/nach einem Translation-Layer?
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: iSight2TheBlind
Metalveteran schrieb:
Nachdem es hier jetzt ja schon doch eher um LLMs im Allgemeinen geht und ich in den letzten Wochen vermehrt damit gearbeitet habe, hier mal meine 2 cents als Späteinsteiger/Spätzünder:

Am Anfang hab ich das alles nur belächelt. Probiert man ne KI aus (egal welche) und benutzt sie als "besseres Google" merkt man schnell - das wird nix! Ich kann ein Modell von 2022 nicht fragen, wo in einem Spiel von 2023 ein bestimmtes Item zu finden ist. Zumindest nicht, wenn die KI nicht selbstständig im Internet recherchiert. Entweder hab ich den Button für "Web Search" übersehen, oder die KIs sind in der Hinsicht besser geworden.

However.

Ich habe mittlerweile ein Abo bei Claude und code auch ganz vernünftiges Zeug mit ihm/ihr. Die sind allerdings "streng". Da schaltet das nicht auf ein schwächeres Modell runter, da heisst es gleich "Nö, für X Stunden hast Du nun erstmal Sendepause! (es sei denn Du zahlst noch mehr!)"

Google Gemini..... man merkt, wenn Pro zu Flash wird. Als ob statt Chef selber nur noch der Azubi mit Dir redet. Der Dialog kann zwar weitergeführt werden, aber speziell beim Coden ist flash (mMn) quasi unbrauchbar, solche dummen Tippfehler mach nichtmal ich! (Erst recht nicht 3 Stunden am Stück hintereinander IMMER DENSELBEN..... rant)

Deepseek: In meiner Wahrnehmung absolut alltagstauglich und auch für längere Dialoge geeignet. Nach den "üblichen" 30-40 Minuten (so wie ich es nutze) kommt zwar mal sowas wie "Serverfehler", aber paar Minuten geht es ganz normal weiter. Einen Unterschied wie bei Gemini merke ich absolut nicht!

ChatGPT: hör ich immer wieder, wie gut das sein soll. Für meinen persönlichen Anwendungszweck habe ich da aber (bisher) keine Verwendung für. Zum coden nehme ich halt Claude, und für Alltagskram Deepseek.

Copilot: Uh, Microsoft, das kann ja nur schiefgehen! Will sich in Dein Betriebssystem einklinken und Fotos machen! (jaja in Verbindung mit Recall, but I hope you get the point). Gleichzeitig: Top-Integration in VSCode! Ich habe grad mal die 30 Tage Test abgeschlossen, aber noch nicht soo viel mit gemacht. Ersteindruck aber auf jeden fall nicht negativ!


Tjoa egal, will jetzt nicht alle Modell aufzählen die ich angetestet habe. Aber ich denke ERNSTHAFT über ne nVidia Karte mit 16GB nach, um auch mal im lokalen Bereich was testen zu können (nichtmal tinyllama macht mit ner 1080GTX Spaß)

Jetzt, wo ich etwas reingekommen bin und den Dingern mal eine faire Chance gegeben habe: Ich fühl mich wie damals, als ich das Internet entdeckt habe (10 Stunden AOL, wer sich erinnert). Ich freue mich jeden Tag drauf, an meinem Projekt weiterarbeiten zu können. Heute hab ich einfach mal n paar Zutaten aus meinen (spärlich bestückten) Essensvorräten bei Deepseek gepostet; es war jetzt nicht Gordon Ramsey, aber schon ganz nice!

Abblocken kann jeder! Etwas ne faire Chance geben kann aber nicht jeder!

So, nachdem ich in den letzten Wochen richtig deep in die LLM-Welt eingetaucht bin, dachte ich, ich geb mal meinen Senf als relativer Spätzünder dazu. 😄

Am Anfang war ich total skeptisch und hab das ganze nur belächelt. Wenn man eine KI wie einen "besseren Google" benutzt, merkt man schnell: Naja... Das bringt erstmal nichts. Ein Modell von 2022 weiß halt nicht, wo in einem Spiel von 2023 ein verstecktes Item liegt – es sei denn, es darf selbst im Internet suchen. Ob ich den "Web Search"-Button übersehen hab oder die Modelle einfach besser geworden sind, keine Ahnung.

Aber! Mittlerweile hat mich das KI-Fieber gepackt.

  • Claude hab ich mal fürs Coden abonniert. Der ist richtig gut, aber auch mega streng! Kein "Leistung runter, Preis runter", nein, da heißt es einfach: "Nope, für die nächsten X Stunden ist Sendepause! (Es sei denn, du blechst mehr!)" 😅
  • Google Gemini... puh. Wenn da "Pro" zu "Flash" wird, ist es, als ob der Chef in die Mittagspause geht und nur noch der Azubi da ist. Der Dialog geht weiter, ja, aber speziell beim Coden macht Flash so dämliche Fehler, dass ich mich frage, ob der drei Stunden am Stück nur tippen übt... und zwar immer denselben Buchstaben verhaut. Rant Ende
  • Deepseek ist für mich der Allrounder. Locker flockig, alltagstauglich und hält auch längere Dialoge aus. Klar, nach 30-40 Minuten mal ein "Serverfehler", aber nach paar Minuten geht's wieder. Für mich kein spürbarer Qualitätsabfall wie bei Gemini. Ein echter Kracher!
  • ChatGPT wird immer als der Heilsbringer gepriesen. Für meine Zwecke (vor allem Coden) hab ich aber da noch nicht so den Durchbruch gehabt. Dafür mache ich das mit Claude, und den Alltagskram regelt Deepseek.
  • Copilot... ui, Microsoft. Das rieft erstmal nach "wird sich sicher in dein OS einklinken wollen" (Looking at you, Recall 😬). Aber die Integration in VSCode ist schon top! Hab die 30 Tage Probe gerade durch, aber noch nicht viel gemacht. Ersteindruck aber auf jeden Fall solide!
Joa, das wär's von meiner Seite. Ich überlege mir ernsthaft, mir eine nVidia mit 16 GB zuzulegen, um auch lokal was auszuprobieren. TinyLlama macht mit meiner alten 1080GTX einfach keinen Spaß.

Jetzt, wo ich drin bin, fühl ich mich wie damals, als ich das Internet entdeckt hab (noch jemand 10 Stunden AOL-CDs? 😉). Ich freu mich jeden Tag, mit meinem Projekt weiterzumachen. Heute einfach mal meine spärlichen Vorrats-Zutaten bei Deepseek reingeworfen und ein Rezept bekommen. War jetzt nicht Gordon Ramsay, aber für den Hunger zwischendurch voll okay!

Fazit: Alles kann man einfach abblocken und hat seine Ruhe. Aber manchmal lohnt es sich, Dingen eine faire Chance zu geben!
Probier mal LM Studio und diverse Quant Versionen. Auf meiner 4070 mit 12 GB kann ich einiges lokal und brauchbar laufen lassen.
 
LLMs haben Probleme mit Perl und dessen Ausgaben. Kein LLM schafft:

Please run this Perl-code (single line) and interpret the output:
Perl:
for(qw$f29970i425010i429110i521210i2c8110 629979ed10i9652192420if6521f6c10i9a52192420i929119e520 7ed9i924ai76c9i124ai1e5a70 9c894fe0i925a2121ife5813e0i925a2121i92994f21$){print$/;for(split"i"){$o=unpack("b*",pack("h*",$_));$o=~tr/10/# /;print"$o$/";}}

Des Ergebnis ist:
Bash:
J U S T
A N O T H E R
P E R L
H A C K E R

in ASCII-Art:
1757157148379.png


Keine Chance! Wahrscheinlich niemals.
Gemini pro 2.5 ist in einem endlos-error-loop gelandet und hat nach ca. 20 Durchläufen abgebrochen.
 
@blöderidiot ich packe hier mal ein Screenshot von ChatGPT 5 Thinking rein.

1757162561952.png
 
  • Gefällt mir
Reaktionen: blöderidiot, Micha- und User38
blöderidiot schrieb:
Keine Chance! Wahrscheinlich niemals.
Viele vergessen, das ganze Thema „KI“ steckt heute noch total in den Kinderschuhen. Vergleiche die ganzen Systeme (Stand 2025) mit dem Anfang des WWW damals.

Ich bin aufjedenfall gespannt und interessiert wo die Reise hin geht.
 
  • Gefällt mir
Reaktionen: Sinatra81
User38 schrieb:
Viele vergessen, das ganze Thema „KI“ steckt heute noch total in den Kinderschuhen. Vergleiche die ganzen Systeme (Stand 2025) mit dem Anfang des WWW damals.
Ich sehe es auch so und vergleiche die aktuelle Phase zu der Dotcom-Blase.

Die Leute meckern, was heute noch alles nicht geht. Aber das ist erst der Anfang. Ich muss auch sagen, dass gewisse Entwicklungen mir auch nicht gefallen.
 
  • Gefällt mir
Reaktionen: Sinatra81 und floTTes
  • Gefällt mir
Reaktionen: blöderidiot
oicfar schrieb:
@blöderidiot ich packe hier mal ein Screenshot von ChatGPT 5 Thinking rein.

Anhang anzeigen 1654674
ChatGPT (free) in default mode schafft es zumindest noch nicht:
1757177973854.png


Das ist also hier noch gescheitert. Aber ich bin erstaunt, dass GPT5 in "thinking mode" das gepackt hat. Danke für den Tipp!
 
  • Gefällt mir
Reaktionen: oicfar
Ich wollte hier auch mal meine Meinung dazu schreiben.
Seit kurzem habe ich wie viele andere die Version 5 von ChatGPT, und ehrlich gesagt kommt sie mir schwächer vor als die 4er. Vor allem die Bildqualität hat ziemlich nachgelassen.

Ich habe ChatGPT sogar gefragt, was sich verändert hat, und die Antwort war, dass es wegen Urheberrechten mehr Einschränkungen gibt. Für Bilder habe ich dann mal Gemini ausprobiert – das Ergebnis hat mir heute besser gefallen. Ich habe das Bild sogar ChatGPT gezeigt, und er meinte selbst, dass er so etwas im Moment nicht hinbekommt.

Auch bei Texten merke ich, dass die Qualität gesunken ist. Manchmal stimmt die Logik nicht oder im Code sind kleine Fehler. Sowas kann ich zwar meist korrigieren, aber auffallen tut es schon.

Trotzdem finde ich es spannend, wie sich KI entwickelt. Am Ende hängt es ja stark davon ab, wofür man sie einsetzt. Natürlich gibt es auch Risiken, und ich weiß, dass viele Teams gerade daran arbeiten, KI sicherer zu machen.

Trotz der Schwächen sehe ich das Ganze positiv – es ist interessant, das mitzuverfolgen und zu sehen, wohin die Entwicklung geht.
 
  • Gefällt mir
Reaktionen: floTTes
Zurück
Oben