Wie prüft ihr, was ChatGPT wirklich kann?

Uwe_Bit schrieb:
Ich wollte hier auch mal meine Meinung dazu schreiben.
Seit kurzem habe ich wie viele andere die Version 5 von ChatGPT, und ehrlich gesagt kommt sie mir schwächer vor als die
Hast du das Abo oder nur die kostenlose Version?
 
"Wie prüft ihr, was ChatGPT wirklich kann?"

Um mal wieder auf die Ausgangsfrage einzugehen, ich bin ein großer Gegner, Modellen die Frage zu stellen, was sie können und was nicht. Ein Modell wird Trainiert. Was ein Modell kann, kann zur Erstellungszeit also noch gar nicht Inhalt der Trainingsdaten sein und so auch nie im Modell als Information landen.
Nun kann man aber so ein Basis-Modell noch anpassen, da könnte man dann händisch nachhelfen, oder per RAG, oder, oder, oder.
Im laufe der Zeit wird man aber fast zwangsläufig eine Frage stellen, deren Antwortmuster nicht (gut genug) im Modell hinterlegt ist. Dennoch gibt es eine Ausgabe, denn die Modelle können nicht nicht Antworten! Ein wahrer Quell für Halluzinationen.
Zudem sind die recht streng autoregressiv. D.h. sie können ihre Ausgabe während der Ausgabe nicht "reflektieren" (eigentlich ne falsche Wortwahl). Daher schlagen Aufgaben wie "Schreib einen Satz aus exakt 5 Worten" so gerne fehl. Man kann die Ausgabe aber wieder in die Eingabe packen und fragen, ob der Satz aus 5 Worten besteht. Genau das ist im Kern der Thinking-Modus, den gerade viele so hypen.
Spannend auch, die Entwicklung, dass LLM wärend der Erstellung des Outputs externe Daten/Funktionen abgreifen können. Auf der Website ChatGPT z.B. schön zu sehen, wenn man ein Bild haben will. Den das Bild kommt nicht vom Modell ChatGPT5 sondern aus image-1 oder aus dem alten Dall-e3.

Für mich persönlich ist jedoch nicht ausschlaggebend "was ein Modell kann", sondern was es "häufig genug erfolgreich kann". Aufgaben können 9 von 10 mal klappen und einmal geht's schief und andere Aufgaben klappen dann nur 2 von 10 mal. Hilft mir nicht und LLMs sind nicht deterministisch im klassischen Sinn.

Und was nun intelligent ist und was nicht... Private Definitionen helfen null für einen sinnvollen Diskurs. Soweit meine Meinung.
 
  • Gefällt mir
Reaktionen: floTTes und iSight2TheBlind
Micha- schrieb:
Ob die Token nun Sprache, Wörter, Musik oder Bilder wiedergeben ist egal. Die Systeme haben einfach gelernt, wenn ich Pixel so und so anordne, dann bekomme ich eine Belohnung, weil das Ergebnis ein Ding namens "Katze" ist.

Deshalb scheiterte ja auch der Prompt ein randvoll gefülltes Rotweinglas zu zeichnen - das war niemals in irgendwelchen Trainingsdaten, weil das im RL einfach nahezu nie thematisiert wird. Wenn man Oberflächenspannung demonstrieren will nimmt man ein Glas Wasser, Rotwein ist dafür zu schade.
Die Systeme haben deshalb nie gelernt, wie ein randvoll gefülltes Rotweinglas auszusehen hat und da es eben keine künstliche Intelligenz ist sondern nur Wortvervollständigungsautomaten die auch zeichnen können, fehlt das komplette Grundverständnis was es da eigentlich gerade tut. Physikalische Gesetze spielen im Training keine Rolle, es wird immer nur anhand existierenden "Outputs" trainiert, also z.B. ein Foto eines vom Baum fallenden Apfels dient als Trainingsmaterial, aber warum der Apfel vom Baum fällt ist nicht Teil des Trainings. Das kommt dann zwar alles an anderer Stelle in Textform in die Trainingsdaten weil ein Physiklehrbuch da auch drinsteckt - aber die Bildausgabe wird nur davon gesteuert wie ein Bild auszusehen hat, nicht wie die Objekte auf dem Bild physikalisch funktionieren.

Ein Mensch kann mit Buntstiften jederzeit ein Bild eines randvoll gefüllten Rotweinglases zeichnen, weil er weiß wie ein Rotweinglas aussieht (KI auch), welche Farbe Rotwein hat (KI auch) und er weiß von Wasser her wie Oberflächenspannung funktioniert (KI (für Wasser) auch). Die Transferleistung, dass wahrscheinlich auch Rotwein Oberflächenspannung besitzt und das Glas überhaupt voll ausfüllen kann (und dank Oberflächenspannung darüber hinaus), das ist für einen Menschen möglich, für KI jedoch nicht.
Die kann nur wiederkäuen, aber nichts wirklich Neues (was also nicht im Trainingsmaterial vorkam) erschaffen, höchstens existierendes so weit verändern, dass es für uns neu (genug) wirkt.
 
@iSight2TheBlind,
habe dein interessantes Beispiel nicht getestet, aber sollte ein gut trainiertes Modell das nicht trotzdem können? Mangelt es da nicht an Tokens/Bild-Tags?

Wasser, Flüssigkeit, farblos, lichtdurchlässig
Rotwein, Flüssigkeit, rot, lichtdämpfend
 
@floTTes Mittlerweile können sie es, weil das Thema vor einigen Monaten durch die Medien ging und dann nachtrainiert wurde!

(~5 Millionen Aufrufe)
https://www.alexoconnor.com/p/why-cant-chatgpt-draw-a-full-glass

Einen Monat später dann:
https://www.forbes.com/sites/esatde...ll-glass-of-wine--heres-why-thats-a-big-deal/

Ist auch geil wie ChatGPT in dem Video versichert, dass das Glas vollständig bis zur Kante mit Rotwein gefüllt ist, obwohl es das offensichtlich nicht ist. Allein das - gepaart mit der Alternative, nämlich "Ach stimmt, ist es ja gar nicht, Ich erstelle ein neues Bild..." und das erstellte Bild enthält dann die selben offensichtlichen Probleme - zeigt doch wie gut aktuelle KI ist.
Und auch ob es sinnvoll ist die KI zu fragen welche Fertigkeiten sie beherrscht, siehe Startpost, weil die Systeme gar nicht "wissen" was sie können oder was überhaupt irgendetwas ist oder bedeutet.
 
  • Gefällt mir
Reaktionen: h00bi und floTTes
@iSight2TheBlind,
sehr, sehr interessant! Selbst wenn du also ein Modell fragst, worin es trainiert wurde, kannst du die Antwort knicken. Es sagt ja nichts über die Qualität des Trainings aus. Klasse! :freak:

"KI, wie bewertest du die Qualität deines Trainings?" - "Lächerlich, man sollte mich einstampfen!" :evillol:
 
Ich beurteile ein Modell schlicht danach ob der erzeugte Code - vorzugsweise auf Anhieb - funktioniert, denn das ist für mich der Hauptanwendungsfall.
In anderen Bereichen habe ich schlicht kein Bock die KI Antwort zu verifizieren, denn das dauert genauso lange wie ohne KI.
Bei Code drücke ich auf ausführen und weiß mehr oder weniger Bescheid ob das passt oder nicht.

Da stecke ich auch ein bisschen in einem Dilemma, denn während ich Copilot beruflich mit Firmendaten nutzen darf, liefert mir qwen viel bessere Ergebnisse. Dort muss ich aber hinterfragen was ich in die Alibaba Cloud werfen darf und was nicht.

Sinatra81 schrieb:
Das sind nur zwei Beispiele, die nicht nach einer Wörterkette aussehen. 🤷🏻‍♂️
Richtig, das sind Beispiele wie für unnötigen Blödsinn der Planet durch Ressourcenverbrauch zugrunde gerichtet wird und Länder mit Vorräten an fossilen Brennstoffen unter der Erde weiterhin die Weltwirtschaft diktieren.

Versteh mich nicht falsch, Urlaubsreisen sind das auch, aber hey, das sichert wenigstens etliche Arbeitsplätze in der gesamten Tourismuskette.
 
  • Gefällt mir
Reaktionen: iSight2TheBlind
h00bi schrieb:
der Planet durch Ressourcenverbrauch
Boah, diese Weltverbesserer-Attitüde 🤮

Die Bilder sollten zeigen, dass KI mehr als nur Wortkette ist. Natürlich, hier von mir völlig kontextlos gepostet – aber dein Kommentar zeigt, was passiert, wenn man unbedingt schlauer klingen will, als man ist.

Dieser kleine Weltuntergangs-Moralismus, den du da dranhängst, wirkt dabei eher wie ein Ersatz für fehlendes Verständnis. Aber hey, wenigstens bist du so selbst zum besten Beispiel geworden.

Und ‚versteh mich nicht falsch‘ – genau da fängt’s immer an. Kauf ja keinen neuen PC(Rohstoffe!), Stream keinen Film(Strom&Ressourcen für Server 😳) sondern beschäftige Dich mit dir selbst!

Aber lies ja kein Buch (Papier, Ressourcen!) und atme vorsichtshalber auch sparsam – CO₂, du weißt schon.

Absoluter Dummfug.
 
Sinatra81 schrieb:
Die Bilder sollten zeigen, dass KI mehr als nur Wortkette ist.
Naja, wenn dir jemand sagt: "Ein Computer ist im Prinzip auch nur ein bisschen Silizium, das unter Spannung steht", dann ist das offensichtlich auch stark vereinfacht und wird der Komplexität moderner Halbleitertechnologie sicherlich nicht mal im Ansatz nicht gerecht. Im Kern trifft es das aber doch ziemlich gut.

Man kann natürlich dann konkretistisch darauf hinweisen, dass ein Computer durchaus nicht nur aus Silizium besteht, sondern auch andere Elemente darin zu finden sind. Das wird aber niemand ernsthaft anzweifeln, meinst du nicht auch?

Vergleichbar damit war dein Einwand, dass generative KI neben Wortketten auch zum Eingabeprompt passende Bilder generieren kann. Sicherlich richtig, hat aber auch niemandem neue Erkenntnisse gebracht, weil es niemand ernsthaft angezweifelt hat. Was wolltest du also damit erreichen?

Die Pointierung von @h00bi bzgl. der Auswirkungen von moderner generativer KI solltest du sicherlich nicht zu persönlich nehmen. Es geht dabei sicherlich eher darum, dass man sich dessen grundsätzlich bewusst ist. Deine Gegenargumentation, dass andere Dinge ja auch Ressourcen verbrauchen, ist aber ein klassisches Strohmannargument! Kritisiert wurde ja nicht grundsätzlich der Verbrauch von Resourcen, sondern der sorglose Umgang damit. Und, naja, da ist deine Bildgenerierung - unter der Prämisse, dass sie nicht notwendig war - nunmal ein gutes Beispiel.

Menschen mit Weltverbesserer-Attitüde sind mir übrigens deutlich lieber als Menschen mit Weltverschlechterer-Attitüde ;)
 
  • Gefällt mir
Reaktionen: Sinatra81
Web-Schecki schrieb:
dass andere Dinge ja auch Ressourcen verbrauchen, ist aber ein klassisches Strohmannargument

Natürlich, das ist mir auch bewusst. 👍

Aber ich lass mir doch wirklich nicht von jemandem, der sonntags sinnlos mit dem Motorrad
durch die Berge bollert, erklären, was sinnvoller Ressourceneinsatz ist und was unnötiger.

‚Versteh mich nicht falsch‘ – klar, klingt immer nett, bevor dann die Moralkeule geschwungen wird. Aber mal ehrlich: Wer ernsthaft glaubt, zwei KI-Bilder im Forum seien ein größerer Schlag gegen den Planeten als der eigene Spritverbrauch, der hat den Bezug zur Realität irgendwo zwischen Tankstelle und Auspuff verloren.


Web-Schecki schrieb:
Was wolltest du also damit erreichen?
Es wurde hier behauptet, ChatGPT könne nichts anderes, als Wörter nach statistischer Wahrscheinlichkeit aneinanderreihen. Die Bilder(hatte ich mir mal in anderem Kontext fertigen lassen) sollten lediglich zeigen, dass diese Behauptung so nicht stimmt – nicht mehr und nicht weniger.
 
  • Gefällt mir
Reaktionen: GeCKo127
Sinatra81 schrieb:
Aber ich lass mir doch wirklich nicht von jemandem, [...]
Wie gesagt, nimm es nicht persönlich. Ich denke, das war eher eine Generalkritik am sorglosen Umgang damit. Dass ausgerechnet deine beiden Bilder nun weitere Hungersnot ausgelöst haben sollen wird wohl keiner behaupten. Aber dass sich der OpenAI-Typ hinstellt und sagt "Energieverbrauch ist kein Problem, in 10 Jahren haben wir dank KI dann sowieso Kernfusion", das ist schon an Respektlosigkeit gegenüber der Menschheit nur schwer zu überbieten. Natürlich kann die Kosten-Nutzen-Rechnung für KI positiv ausfallen, keine Frage. Sehe ich aber aktuell nicht als zwingend gegeben an, um es mal vorsichtig zu formulieren ;)

Sinatra81 schrieb:
Es wurde hier behauptet, ChatGPT könne nichts anderes, als Wörter nach statistischer Wahrscheinlichkeit aneinanderreihen.
Naja, ersetze "Wörter" durch "Bits" und du hast im Kern dieselbe Aussage, die du so nicht widerlegen kannst. Weil sie eben grundsätzlich vollkommen korrekt ist. Dass das so erstaunlich gut funktioniert ist natürlich erstmal beeindruckend und sicherlich alles andere als naheliegend.
 
iSight2TheBlind schrieb:
Die Systeme haben deshalb nie gelernt, wie ein randvoll gefülltes Rotweinglas auszusehen hat und da es eben keine künstliche Intelligenz ist sondern nur Wortvervollständigungsautomaten die auch zeichnen können, fehlt das komplette Grundverständnis was es da eigentlich gerade tut.
ChatGPT ist bereits seit Monaten in der Lage ein solches Bild zu generieren und zwar, soweit ich weiß, seit nicht mehr Dall E3 zur Bildgenerierung verwendet wird:

https://www.pcworld.com/article/264...f-a-completely-full-glass-of-wine-it-did.html

Zum eigentlichen Thema:
  • Beim Klick auf das Plus-Symbol gleich links neben der Chateingabe wird in der Bezahlversion angezeigt, welche Modi zur Verfügung stehen.
  • Vielleicht gibts eine Website, die auflistet, was welche ChatGPT-Version zur Zeit kann. Die Adresse könnte man dann in die Prompt einbauen. Jedoch ist das je nach genutztem Modell evtl. nicht ganz zuverlässig, da der Inhalt der Website falsch interpretiert werdn kann.
Bin mir ziemlich sicher, dass es nicht weiß was es kann und was es nicht kann, also hilft eine Prompt nur wenig.
 
Zuletzt bearbeitet:
Also Perplexity Pro kann es nicht :D

1012.jpg
 
  • Gefällt mir
Reaktionen: Sinatra81
Drewkev schrieb:
ich weiß nicht, welche Technik ChatGPT nutzt, aber sie kann es auch nicht trotz Prompt ohne jeglichen Interpretationsspielraum:

"Erstelle mir eine Grafik eines Weinglas in realistischer Optik. Es soll bis zum obersten Rand mit Rotwein gefüllt sein. Nicht ein Tropfen weniger. Hast du mich verstanden? Und kriegst du das hin?"

Antwort:

"Ja, ich habe dich verstanden 👍
Du möchtest ein realistisch aussehendes Weinglas, das bis exakt zum oberen Rand komplett mit Rotwein gefüllt ist – ohne dass auch nur ein Millimeter Platz bleibt."


weinglass.png


Muss jetzt zur Arbeit, keine Zeit, das mit ihr auszudiskutieren! :D
 
Auch mit Wasser geht es nicht, obwohl die KI ihren Fehler erkennt:
1758271368146.png
 
Warum konzentriert ihr euch nicht einfach darauf, was eine KI kann und nicht darauf, was sie nicht kann? Was soll das bezwecken, was ihr hier mit den Bildern betreibt? Niemand hat behauptet, dass LLMs und Co. fehlerfrei funktionieren würden.
 
GeCKo127 schrieb:
Warum konzentriert ihr euch nicht einfach darauf, was eine KI kann und nicht darauf, was sie nicht kann?
Öhm, tut mir Leid dich enttäuschen zu müssen, aber hier geht es sowieso nicht um KI. In der allerersten Antwort hier im Thread wurde das schon klargestellt.
 
GeCKo127 schrieb:
Warum konzentriert ihr euch nicht einfach darauf, was eine KI kann und nicht darauf, was sie nicht kann?

Mir geht es in keiner Weise darum, die ki schlecht zu machen. Mir macht es einfach Spaß mit ihr rum zu spielen und ich bin begeistert, was sie kann.
 
@GeCKo127 Im Eröffnungspost steht bereits dies:
Mir ist aufgefallen, dass ChatGPT oft sagt, es könne etwas umsetzen, kann es dann aber nicht.

Und das ist halt schon ein fehlerhafter Ansatz, da ChatGPT kein intelligenter Gesprächspartner ist der über seine Fähigkeiten Bescheid weiß, sondern ein Textausgabesystem. Ein sehr fortgeschrittenes, aber es ist halt trotzdem generierter, menschlich wirkender Text zu einem Thema - ohne eine zugesicherte Realität.
Und es gibt immer einen Output, bei dem die KI - um sie mal zu anthropomorphisieren - von der Qualität komplett überzeugt ist! - Wenn man sie dann auf Fehler hinweist, sagt sie, dass man recht habe (nicht weil sie den Fehler erkennt sondern weil das die passende Antwort ist, wenn man immer "gefallen" will.

Da ist also überhaupt keine Basis um Antwort auf die Frage "Was kannst du?" glauben zu können.

Und an solchen Sachen wie dem Zählen von Worten oder Erstellen von Texten mit bestimmten Regeln zur Länge etc. oder auch dem Weinglas, kann man das sehr sehr gut demonstrieren.
Auf den Hinweis, dass das Weinglas gar nicht randvoll ist kommt immer eine Entschuldigung mit dem Vorschlag es neu erstellen und dann passiert exakt derselbe Fehler erneut.
Weil da kein Lernprozess, Einsehen von Fehlern oder sowas hintersteckt, nur Textgenerierung (und Bildgenerierung).
Die Texte sind einfach Bullshit!
Next, we consider the view that when they make factual errors, they are lying or hallucinating: that is, deliberately uttering falsehoods, or blamelessly uttering them on the basis of misleading input information. We argue that neither of these ways of thinking are accurate, insofar as both lying and hallucinating require some concern with the truth of their statements, whereas LLMs are simply not designed to accurately represent the way the world is, but rather to give the impression that this is what they’re doing. This, we suggest, is very close to at least one way that Frankfurt talks about bullshit. We draw a distinction between two sorts of bullshit, which we call ‘hard’ and ‘soft’ bullshit, where the former requires an active attempt to deceive the reader or listener as to the nature of the enterprise, and the latter only requires a lack of concern for truth. We argue that at minimum, the outputs of LLMs like ChatGPT are soft bullshit: bullshit–that is, speech or text produced without concern for its truth–that is produced without any intent to mislead the audience about the utterer’s attitude towards truth. We also suggest, more controversially, that ChatGPT may indeed produce hard bullshit: if we view it as having intentions (for example, in virtue of how it is designed), then the fact that it is designed to give the impression of concern for truth qualifies it as attempting to mislead the audience about its aims, goals, or agenda.
 
Zurück
Oben