Fireplace April 2026

News Anthropics Mythos: Release für Claude Code und Claude Security soll bevor­ste­hen

@gartenriese oft erkennt man aber nicht den eigenen (falschen) BIAS den man mit dem ganzen Kontext mitgibt und schon marschiert der Agent zielstrebig in die falschen Richtung. Da werden verbaute Fragen zu Anweisungen uminterpretiert z.B.
Hat mich dann jeweils oft ein Tag arbeitet gekostet das wieder zu fixen.
 
@gartenriese Dazu gibt es Datenlagen auch von Anthropic, dass mit steigendem Kontext, dass Ergebnis und Genauigkeit immer weiter abfällt. Ich glaube um 15% Punkte in der aktuellen Version (Edit: siehe Bild unten). Bei anderen LLMs ist das noch viel viel mehr. Stanford hatte eine Studie gemacht, aber die ist nun ein bisschen älter schon, dass es bei denen noch merkwürdiger aussah. Die haben bspw. 20 Dokumente überliefert und mal stecke in einem der Ersten, mal in der Mitte, mal am Ende das gesuchte. Sobald die Information in der Mitte des Kontext war, war das Ergebnis viel schlechter oder falsch - das war noch GPT 3.5 und co.
Die Empfehlung ist daher: Gib nur den Kontext mit, der auch wirklich gebraucht wird - natürlich auch um Token zu sparen.

1779788221086.png
 
  • Gefällt mir
Reaktionen: derMutant
Mein Workflow mit Cursor und Claude Code in VS Code ist mittlerweile so: Ich formuliere in eigenen Worten den prompt für Cursor und lasse ihn einen Plan ausarbeiten. Den Plan lasse ich dann über eine hand over Brücke von Claude nochmal gegenlesen.

Claude segnet den Plan entweder ab, oder stellt Rückfragen. Dieses Prozedere wiederhole ich so lange, bis sich beide Agenten nur noch in Nuancen uneinig sind.

Dabei habe ich festgestellt, dass Opus 4.7 regelmäßig vom Auto Modus in Cursor übertroffen wird. Sehr oft gesteht Opus ein, dass Cursors Lösung besser ist und empfiehlt cursors Lösung zu folgen.
 
Tamron schrieb:
@gartenriese Dazu gibt es Datenlagen auch von Anthropic, dass mit steigendem Kontext, dass Ergebnis und Genauigkeit immer weiter abfällt. Ich glaube um 15% Punkte in der aktuellen Version (Edit: siehe Bild unten). Bei anderen LLMs ist das noch viel viel mehr. Stanford hatte eine Studie gemacht, aber die ist nun ein bisschen älter schon, dass es bei denen noch merkwürdiger aussah. Die haben bspw. 20 Dokumente überliefert und mal stecke in einem der Ersten, mal in der Mitte, mal am Ende das gesuchte. Sobald die Information in der Mitte des Kontext war, war das Ergebnis viel schlechter oder falsch - das war noch GPT 3.5 und co.
Die Empfehlung ist daher: Gib nur den Kontext mit, der auch wirklich gebraucht wird - natürlich auch um Token zu sparen.

Anhang anzeigen 1732172
Danke für die Info. Ich gebe den Kontext ja nicht manuell mit ein, der wächst ja einfach mit der Zeit. Das heißt ich sollte öfter /compact machen? Aktuell mache ich das erst so bei 75%. Also 750000. Was auch immer die Einheit ist.
 
Das empfiehlt dir jede KI, dass du öfter neu starten sollst und er eine Zusammenfassung / whatever macht. Du schleppst nur Ballast mit, der jedes mal wieder mitevaluiert wird.
 
Zurück
Oben