News Claude Opus 4.8: Mehr Leistung und Kon­trolle sowie geplante Mythos-Mo­delle für alle

Ra9n@R0Ck schrieb:
Ich frage mich ja wie ihr alle so zufrieden mit Opus seid. Bei mir verliert das Modell sehr schnell den Fokus/Details/Infos und programmiert dann Murks zusammen. Es ist halt auch einfach eine extrem komplexe Aufgabe. Aber das "Kurzzeitgedächtnis" lässt zu wünschen übrig.
Deswegen nutzt man das Model auch mit nem Agenten, nicht direkt.
 
ich finde 4.8 klar besser, also bei mir ist die Preis/Leistung seit dem aushölen von 4.6 im Februar und dem mäßigen 4.7 jetzt wieder deutlich rauf. Gefühlt war 4.6 zum Jahreswechsel immer noch das beste, aber für mich war das so ein inflection point ab dem ich mich selber eine Ebene höher begeben konnte. Meine custom benchmarks sind zwar Nische, aber mich interessier halt wie es für meine use-cases taugt und da ist 4.8 deutlich besser als 4.6 jemals war. Die Zeit bis zur lauffähigen (proofed) Lösung ist deutlich kürzer und time=money gilt auch. Human in the loop bleibt zwar, aber auf einem layer höher.

Ich sollte erwähnen, dass ich mich bewusst nicht auf max effort beziehe, die Aussage ist normalisiert auf Preis und da ist für mich bei 4.8 plötzlich medium effort klar vorn.

Meine Anwendungen sind: Physik, Laser/Optik Modelle, Data-Science, Image processing, Metastudien/Recherche, Experimentdesign usw. Sprachlich von Python, C#, Rust, Matlab bis hin zu "BrowserMiniTools" alles dabei.
 
  • Gefällt mir
Reaktionen: BeBur
njal schrieb:
Sie scheinen zumindest nicht produktiv damit zu arbeiten.
Aber du? Keine deiner Erfahrungen habe ich heute Nachmittag und Abend gemacht.
 
Feuerbiber schrieb:
Solche Wünsche gehören in die Claude.md. Abgesehen davon sollte man ohnehin standardmäßig entsprechende Skills (Brainstorming, Spezifizierungsplan, Implementierungsplan) aktivieren. Dann läuft jedes neue Projekt und auch jeder kleine Patch sauber interaktiv und der Reihe nach durch.
Ich muss mich selbst korrigieren, es hängt mit der Version der Claude CLI und der LLM Version zusammen ab. Ich habe das als Regel unter ".claude/rules". 3-4 Antworten werden die Regeln beachtet, wobei das nach Ermessen von Claude liegt wie stark, danach nicht mehr. Claude gibt es auch zu, wenn man nachfragt. Regeln werden einmal in den Context geladen. Je länger der Chat-Context wird, vor allem wenn viel Code generiert wird oder viele Dateiinhalt gelesen werden, nimmt das Gedächtnis rapide ab. Ich habe dazu Hooks erstellt, dass sich Claude selbst an die Regeln wieder erinnert, jedoch liegt es im Ermessen von Claude wie stark das beachtet wird. Claude sagt dazu von sich selbst, dass er Determinismus und Wiederholungen irgendwann ignoriert.

Fraggil schrieb:
Dann hast du die Ki aber nicht im Griff.
Schreibe eine Anweisung das die KI nichts machen darf außer Chatten.
Schreibe eine zweite Anweisung und er du nur einen Ordner freigeben tust.

Mann muss schon ganz klar der KI Vorgeben was die darf und was nicht. Sonst endet das im Chaos.
Siehe Antwort oben. Es sind Regeln zur Ordner-Sicherheit erstellt worden. Opus 4.7 hat auch schon sehr intensiv fremde Ordner durchforstet. Gerne erstellt Claude auch im Plan Modus Code oder im Accept Edits sagt er, er wäre im Plan Modus und kann keinen Code erstellen. Das passiert oft in Sessions die viel Context haben. Da werden gerne auch Regeln und Vorgaben von Anthropic selbst missachtet. Es gibt auch eine unschöne Funktion. Claude kann von sich aus temporäre Dateien erstellen (Scratchpad), gerne mal außerhalb des Projekt-Ordners.

Benj schrieb:
Aber du? Keine deiner Erfahrungen habe ich heute Nachmittag und Abend gemacht.
Ja, das mache ich und konnte deshalb auch meinen Senf dazu geben, da mir das aufgefallen ist. Wenn man länger mit egal was arbeitet, dann entwickelt man vielleicht auch Vergleichsparameter. Machst du das nicht? Wenn ich den Modellen die selben Standard-Anweisung gebe und Opus 4.6 = 30 sec, Opus 4.7 = 1 min und Opus 4.8 = 4 min braucht, das fällt schon auf.

Wobei Rules, Hooks, CLAUDE.md nur Vorgaben sind und Anthropic selbst sagt, dass es keine Garantie gibt, dass das immer beachtet wird. Deshalb läuft Claude auch in einer Sandbox bei mir.

Fragen an alle (nicht nur die drei, denen ich eine Antwort gegeben habe).
  1. Schaut ihr auch die Claude-Logs an? Damit ihr wisst was gemacht wurde, um an das Ergebnis zu kommen?
  2. Fragt/Prüft ihr Claude auch explizit, ob alles auch wirklich beachtet wurde? Anweisung, Regeln, Skills, Hooks?
  3. Fragt ihr Claude, ob er sich auch daran gehalten hat, was ihr im als Anweisung gegeben habt oder etwas dazu erfunden hat?
Ich mache das während jeder Session.
 
Bisher mäßig zufrieden, erfindet Problem die es nicht gibt, wenn man Hinweise gibt das es nicht stimmt weil x,y,z, dann lenkt er ein, aber man muss den gefühlt wieder zu oft "einfangen" bisher kein wirkliches Update, auf die Benchmarks gebe ich kein, das sind nur Zahlen sonst nichts.
 
Zuletzt bearbeitet:
4.8 läuft 😁

Webshop Design mit Claude Design erstellen lassen. Dann Claude Desktop die Anweisung gegeben auf einer neuen VM das Komplettprogramm umzusetzen. Also blanker Debian 12 Proxmox Container und SSH Zugriff für Claude gewährt, Claude.MD erstellt und loslegen lassen: Auf Basis von Wordpress und der HTML Datei, mit Nginx, Valkey, NextJS und Anbindung an Cloudflare & Stripe einen laufenden Webshop zu bauen inkl. Theme Editor....

2 Stunden und sehr viele Tokens später hatte ich einen lauffähigen schönen, konsistenten und schnellen Webshop fertig auf dem Server. Funktionalitäten zu ca 80% gegeben, bugfrei ist das sicherlich nicht.

Hätte ich damit eine Agentur beauftragt wäre ich locker mal mind. Faktor 100 drüber beim Preis, von der Zeit rede ich gar nicht erst. Jetzt läuft gerade der Job alles auf der Seite von Opus selbst zu testen, die Fehler zu finden (einige habe ich ihm genannt) und zu fixen... Mal sehen wie das Ergebnis wird....

Diese Coding AI sind echt ein Segen. Damit wird Code nur noch zur Commodity aber man muss sehr exakt die architektonische Leistung selbst erbringen, sonst kommt meistens nur Murks raus. Und Claude Code ist einfach 🔥

Edit: Der Fairness halber muss ich natürlich erwähnen dass allein das Erstellen der Claude.MD ca. 1 Tag gedauert hat mit nachdenken, strukturieren und Research aller wichtigen Themen
 
  • Gefällt mir
Reaktionen: gaelic
@Xiaolong das zeigt gut wohin die Reise geht. Und in einem Jahr ist das höchst wahrscheinlich nochmal schneller, besser, bugfreier, ...


Programmieren ist damit quasi tot, wichtig ist die richtigen Anweisungen zu geben.
 
@gaelic Würde ich so pauschal nicht sagen. Je nachdem was man unter "Programmieren" versteht. Wenn es die reine "Produktion von Code" ist, wie sie z.B. über diese zahlreichen indischen "Dienstleister" gibt, dann wird das mittelfristig aussterben.
Geht es jedoch um Orchestrierung von größeren Architekturen und Kontextverständnis, wird es absehbar erstmal noch den Menschen brauchen. Die Frage ist wie lange noch.
 
Xiaolong schrieb:
Geht es jedoch um Orchestrierung von größeren Architekturen und Kontextverständnis, wird es absehbar erstmal noch den Menschen brauchen.
Das habe ich ja geschrieben: "die richtigen Aneweisungen geben". Wissen ala: "ich kenne die Syntax von C++ und Python" wird unwichtig(er).
 
Zurück
Oben