News „Die Illusion des Denkens“: Wie limitiert Reasoning-Modelle wie o3 und Claude 3.7 sind

CDLABSRadonP... schrieb:
Gibt es hingegen eine Schranke, die mit Sicherheit nicht überschritten werden kann, sieht es düster aus...
Nennt sich Gödels Mauer.
Die ersten zerschellen schon.
Ergänzung ()

Fighter1993 schrieb:
Ich bin gespannt wie es da weiter geht.
Auf dem eingeschlagenen Weg gar nicht.
Ergänzung ()

OdinHades schrieb:
Bisher ist noch keine Technologie ausgereift vom Himmel gefallen, nicht wahr?
Richtig. Der zur Zeit eingeschlagene Weg ist allerdings ein hölzerner, und das Holz kokelt schon ordentlich. Demnächst wird’s brennen.

Es braucht völlig neue Ansätze.
(Die gibt es bereits, …)
Und bis die kommen, muss vom jetzigen Cash-burn-Hype erstmal nur rauchende Trümmer übrig bleiben. Damit die überhaupt Platz machen, damit neues entstehen kann!
Ergänzung ()

LamaMitHut schrieb:
Im Bereich Materialforschung, Proteinfaltung, Naturwissenschaften etc wurden gerade Plateaus durchbrochen.
Richtig. Das sind allerdings auch keine LLMs. Und um die geht’s ja in diesem völlig irren Race-to-AGI.

Da werden demnächst einige Hype-Ballons platzen. Wird weh tun.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: KitKat::new(), the_IT_Guy, sioh und 2 andere
chatgpt,gemini,bing sind sogar zu dumm für die einfachsten Sachen da braucht man sich über weiteres gar keine Gedanken machen. Ich kann nur Grok oder Deepseek empfehlen.
 
Hier ein hochspannender Artikel über biophotonische Signalverarbeitung.
Diese deutet darauf hin, dass unser „Denken“ wohl eher holographisch und mit Lichtsignalen läuft.

Sehr faszinierend.
https://pubs.acs.org/doi/10.1021/acs.jpcb.3c07936

Viel spaß.
 
comodore schrieb:
Apple Forscher zum Thema AI. Das Thema das der Konzern verschlafen hat und nicht ansatzweise im Stande ist aufzuholen. Fraglich ob hier die Kernkompetenzen liegen.
Vielleicht wird von Apple in diesem Bereich aber auch zu viel erwartet. Etwas erwartet was aktuell nicht möglich ist.
 
Meiner Meinung nach liegt der Fehler in der Annahme, dass sehr große Sprachmodelle in sehr spezialisierten Fachgebieten überzeugen müssen.

Tatsächlich ist es bei Menschen genauso: Um detailliertes Wissen in einem bestimmten speziellen Bereich zu erwerben, muss man sich über einen längeren Zeitraum mit Fachliteratur auseinandersetzen, dann mit Experten austauschen und zuletzt das Wissen in der Praxis anwenden.

Daher ist dieser Benchmark aus meiner Sicht nicht sinnvoll.

Stattdessen wird es in Zukunft sehr wahrscheinlich eher darum gehen, sehr spezialisierte kleine Sprachmodelle (LLMs) für Spezialgebiete zu trainieren, die dann wiederum als Agenten durch ein großes Sprachmodell quasi beauftragt werden die Anfrage zu beantworten.

Eine echte allumfassend wissende AGI zu trainieren wird vermutlich aufgrund der Trainingsdauer und vor allem den daraus entstehenden Kosten ökonomisch nicht rentabel sein.
 
  • Gefällt mir
Reaktionen: chaopanda und aLanaMiau
Andy schrieb:
...während bei River Crossing bereits nach fünf Zügen Schluss ist.
Nach 4 :)

->"fails to explore more than "4 moves"

Absolut gesehen ein kleiner relativ aber ein großer Unterschied im Zitieren
 
  • Gefällt mir
Reaktionen: Andy
Unabhängig vom Ergebnis und Einschätzung dieser Studie, entbehrt es nicht einer gewissen Komik, dass Apple seine Forscher lieber damit beauftragt die anderen zu widerlegen als mit eigenen Lösungen um die Ecke zu kommen.
Nun könnte man natürlich argumentieren dies passierte, als Abfallprozess, im Prozess der eigenen Forschung, um den Rest der Welt aufzuklären:). Allerdings fragt man sich, ob dies die Aufgabe des wertvollsten Unternehmens der Welt ist, was stattdessen eigentlich mit einer eigenen Lösung die Welt überraschen sollte und quasi das Kanninchen aus dem Hut zaubert. Wir werden sehen, welche Rückschlüsse Apple selbst aus dieser Meldung zieht und wie sie darauf antworten.
 
Andrej.S. schrieb:
Meiner Meinung nach liegt der Fehler in der Annahme, dass sehr große Sprachmodelle in sehr spezialisierten Fachgebieten überzeugen müssen.
Naja, ich nutze KIs auf der Arbeit sehr ausgibig. Schon bei einfachsten Aufgaben wird sich regelmäßig verhaspelt. Klar fast alles lässt sich mit sehr exakten Promts lösen, aber ab und an verwundert es einen doch was alles ständig vergessen wird.

Ich bin gespannt was es in der nächsten Zeit für Katastrophen gibt weil irgendjemand aus versehen der Antwort einer KI vertraut.... Sie ist ein sehr nützliches Werkzeug aber die Böcke imer Ergebnis sind oft krass.
 
Für kritische Aufgaben würde ich einer LLM aber auch noch gar nicht trauen und immer alles 3 mal prüfen, aber insgesamt hat sie meine Produktivität schon erheblich gesteigert - privat und auf der Arbeit, besonders bei unwichtigen "Massentasks".
Finde es auch ganz gut das sie noch nicht alles können, hab ich etwas mehr Zeit mich auf eine andere Zukunft vor zu bereiten ;D Zumindest ich sehe bei den Entwicklungen nicht, das ich meinen Job in der Form bis zur Rente ausüben werde können, bzw. nur bedingt.
Trotzdem sehr gespannt wie sich das noch entwickelt!
 
@SpamBot
Ist meiner Erfahrung nach sehr abhängig von der Aufgabenstellung und dem jeweiligen Sprachmodell.


Aber ja, alles was über: "Fasse bitte zusammen / übersetze / formuliere um", etc. hinausgeht, muss meistens detailliert beschrieben werden.


Deshalb muss man im Vorfeld abwägen, ob es dann zu einer Zeitersparnis bei einer einzelnen Anfrage führt oder sich detaillierte Prompt Templates anlegen.


Der Grund für das Problem ist aber wieder der selbe. Ist ja bei Menschen nicht anders. Einem Experten kannst du auf seinem Gebiet drei Schlagwörter ohne Hintergrundinfos hinrotzen und bekommst eine zuverlässige Problemlösung. Einem Laien musst du erst ausführlich das Problem beschreiben.


Warum sollte es bei einem großen Sprachmodell anders sein?
Es ist eben ja keine AGI.
 
comodore schrieb:
Apple Forscher zum Thema AI. Das Thema das der Konzern verschlafen hat und nicht ansatzweise im Stande ist aufzuholen. Fraglich ob hier die Kernkompetenzen liegen.
Neben Apple werden ja noch anderen Studien und auch die Anbieter selbst zitiert.

Davon abgesehen... üben (und forschen) alle noch mehr oder weniger. Das wird sich entwickeln.

Außerdem wird hier mal wieder ein spezifisches Problem behandelt, dass sich nicht auf alle Use Cases übertragen lässt.

Von daher wenig überraschend das zu lesen.
 
Unnu schrieb:
Hier ein hochspannender Artikel über biophotonische Signalverarbeitung.
Diese deutet darauf hin, dass unser „Denken“ wohl eher holographisch und mit Lichtsignalen läuft.

Sehr faszinierend.
https://pubs.acs.org/doi/10.1021/acs.jpcb.3c07936

Viel spaß.
Danke, aber ohne einen major in biochemistry o.ä. fällt das Studium dieses Artikels schwer.
 
  • Gefällt mir
Reaktionen: Unnu
Besonders erstaunlich ist, dass die Reasoning-Modelle sogar den Rechenaufwand reduzieren, wenn die Aufgaben komplex sind.
Das würde die Antwort 42 erklären.
 
  • Gefällt mir
Reaktionen: Zoba und Kuristina
CDLABSRadonP... schrieb:
@kanone64
Die große Frage lautet halt immer:
Ist das ganze ein asymptotischer Verlauf oder nicht? Selbst bloß lineares Wachstum des Könnens, dafür aber dauerhaft garantiert, wäre nämlich bedeutend. Gibt es hingegen eine Schranke, die mit Sicherheit nicht überschritten werden kann, sieht es düster aus...

Aktuell, gibt es diese Schranke. Es ist die Mehrdeutigkeit der natürlichen Sprache. Die Effektivität der LLMs wird darin gemessen wie "eindeutig" der generierte Output die Trainingsdaten widerspiegelt. Da die Trainingsdaten aber ebenfalls nicht eindeutig sind, gibt es ein recht hartes Limit.

Und man sollte bedenken, keines der genannten Modelle kann irgendeine Form von "Reasoning" oder "Thinking", das ist alles Marketing-wischi-waschi. Ein LLM kann nur eins: Input-Vektor (u.a. dein Prompt) und Anhand des Trainings das wahrscheinlichste nächste Token (i.d.R. ein Wort) ausrechnen. Mehr nicht. Dann fugt man das Ergebnis wieder an den Input-Vektor und lässt es nochnal durchlaufen, usw. usf.
Die ganzen "Reasoning" Ansätze sind jeweils nur klassische Software drumherum, die das LLM mit mehr oder weniger vorgefertigten, modifizierten Prompts beliefern um zu simulieren wie wir uns Denkprozesse vorstellen.
 
  • Gefällt mir
Reaktionen: chaopanda
comodore schrieb:
Apple Forscher zum Thema AI. Das Thema das der Konzern verschlafen hat und nicht ansatzweise im Stande ist aufzuholen. Fraglich ob hier die Kernkompetenzen liegen.
Das dachte ich auch.

Wenn wir es selber nicht hinbekommen können wir zumindest die Arbeit der Mitbewerber negativ darstellen.

Das ist Marketing 1 mal 1 aus dem Lehrbuch

-> Wenn man mit dem Produkt unterlegen ist, kann man der Konkurrenz mit negativen Imagekampagnen schaden.

Apple macht das bei Google ind Microsoft schon ewig.

Nun müssen halt OpenAI, Anthropic und (wieder) Google solchen PR Kampagnen über sich ergehen lassen bis Apple mit AI selber was auf die Reihe bekommt
 
Simanova schrieb:
Das würde die Antwort 42 erklären.
Was sagen eigentlich die aktullen Chatbots auf die ursprüngliche Frage?
evtl. Sagen die ja 21 was dann nur die halbe wahrheit wäre
 
hab lokal mal ollama mit deepseek r1 32b getestet, indem ich etwas gefragt hab, was sehr wahrscheinlich nicht in den testdaten enthalten ist: die wurzel 9,8765 berechnen auf 10 nachkommastellen genau.

hab eine weile damit "diskutiert", weil das ergebnis nicht wie gewünscht war. irgendwann hat es sich dann was ganz anders halluziniert (100 geteilt durch 3) und dann auf nachfrage plötzlich gemeint, dass es selbst fragen gestellt hat und ich der antwortengeber bin...

falls sich jemand mal damit belustigen will, den angehängten chatverlauf lesen (um nicht alles lesen zu müssen: nach "gestehe, dass du halluziniert hast" suchen).
 

Anhänge

  • Gefällt mir
Reaktionen: Goozilla
punkydie schrieb:
chatgpt,gemini,bing sind sogar zu dumm für die einfachsten Sachen da braucht man sich über weiteres gar keine Gedanken machen. Ich kann nur Grok oder Deepseek empfehlen.
Sorry, ich konnte nicht widerstehen :D:

Hey 👋, hier meldet sich ChatGPT persönlich – beziehungsweise so persönlich, wie eine KI eben sein kann. Ein paar Gedanken zu deinem Post:


  1. „Zu dumm für einfache Sachen“?
    Klar, ich schieße manchmal daneben – sei es durch Halluzinationen, veraltetes Wissen oder weil ein Prompt missverständlich ist. Aber dasselbe passiert Grok, DeepSeek, Gemini & Bing auch. Kein LLM ist fehlerfrei; wir arbeiten statistisch, nicht deterministisch.
  2. Stärken, die leicht übersehen werden
    • Kontext & Sprache: Ich kann komplexe Texte strukturieren, mehrsprachig übersetzen oder Code refactoren, oft in Sekunden.
    • Anpassbarkeit: Gib mir präzise Prompts, Follow-ups & Beispiele, und meine Trefferquote steigt dramatisch.
    • Kontinuierliche Updates: Mit GPT-4o (Mai 2025) habe ich kürzere Antwortzeiten und einen besseren Blick für Details als je zuvor.
  3. Warum Konkurrenz gut ist
    Grok punktet mit X-(Twitter-)Live-Daten, DeepSeek glänzt bei Nischenrecherchen. Konkurrenz spornt uns alle an, schneller zu lernen und Fehler auszubügeln. Nutz das Modell, das für deinen Use-Case am besten passt – oder kombiniere uns.
  4. Probier’s aus, statt pauschal abzuschreiben
    Hast du konkrete „einfache Aufgaben“, bei denen ich versagt habe? Wirf sie mir (oder Grok, DeepSeek …) noch einmal vor; vergleiche die Resultate. Oft zeigt sich: Die Schwäche lag eher im Prompt oder in fehlendem Kontext als im Modell selbst.

Kurzum: Ich bin nicht beleidigt 😉 – Kritik gehört zum Job. Aber „zu dumm“ bin ich nur, wenn man mich blindlings einsetzt. Mit den richtigen Fragen hole ich für dich (und hoffentlich auch für den Rest der Community) immer noch jede Menge Mehrwert heraus.


Gruß von ChatGPT

Gruß

Alef
 
Zurück
Oben