News Claude Mythos und Opus 4.7: Was leisten Anthropics neue Spitzenmodelle?

Azghul0815 · Samstag um 17:13

lynx007 schrieb:
Weil spätestens die Energie Endlich ist

Davon sind wir aber noch ne Ecke entfernt.
Klar gets langsamer, aber auch Modelle werden irgendwann effizienter usw.

R O G E R · Samstag um 17:25

Also für ein bisschen Coden was ich mache reicht mir meistens das 4.5 Haiku Modell. In der Freien Version vom Github Copilot gibt es nichts besseres
Habe auf der Arbeit zugriff auf den Github Copilot mit Abo. Trotzdem nutze ich da meistens das 4.5er Haiku Modell, weil es halt am sparsamsten ist und für mich ausreichende Leistung bringt.

lynx007 · Samstag um 17:25

@Azghul0815
Schau dir das Vid an! Das ist dort schon Thema! und in der usa sind energie preise wo solche AIs stehen im schnitte 300% höher....
das ist jetzt in der USA der Case. AI Datencenter werden jetzt gestoppt dort, weil das Problem akutel ist! Was umgekehrt keine Rolle spielt, weil laut Huang sowieso das limitierende die Instalateure und Elektroniker sien soll.... aber auch Energie wie dann später auch im Vid erwähnt.

Das sie nicht effizenter werden, dagegen sage ich nicht mal was. Auch das ist Thema im Vid! Man muss (die USA) effizenter sein, weil eben nicht im gegensatz zu China unendlich viel Chips und Energie zur verfügung steht.
Das ist sogar kernthema dort, stichwort TCO. Und umgekehrt, Stromnetzte, Kraftwerke die sind eben nicht da... schau nach europa...stell dir hier vor man würde den Strompreis einfach lokal um 300% steigern, wie es in manchen bundesstaaten in der USA der fall ist...

Und du hast ja das hänne und ei problem. AI braucht erstmal unmengen an ernergie. Aber die Netze, der Strom ist nicht da. Wer bezahlt jetzt das StromUpgrade?! Und die Frage kann man sich beantworten, wen man auch wieder in die USA schaut, wo zu den Investoren dieser Datencenter nicht nur die GPU hersteller, bzw BigFive gehören, sondern auch die Stromerzeuger. IN welchen Case macht es sinn, das der Stromerzeuger sein beseter Kunde wird?! Dort wo der Verkaufspreis vom Token, über die erzeugungskosten liegt! Aber was passiert damit mit dem Strompreis?!?! Dein Strom wird vom Wert der Token gesteuert. Plötzlich ist dein Stromverbrauch unverbrauchte Token. PLötzlich zahlst du dafür das duch deinen Stromverbruach keine Token generiert werden.

Das ist in der USA realität.... und wen du nachrichten schaust... die diskution um den Industriestrompreis hier Deutschland, und das hier Stromerzeuger zugleich Datencenter plannen... natürlich ist Energie aus perspektive des Verbrauchers dann endlich. Aus der Perspektive des Erzeugers, der die Datencenter aufbaut natürlich nicht.

QXARE · Samstag um 17:35

JaniC schrieb:
Akquise ist vorbei, jetzt wird kassiert.

Schade, habe viel mit 4.6 gearbeitet und war teilweise echt begeistert. Konnte mit dem Limit gut umgehen, hat gereicht und dann eben Pause wenn aufgebraucht. Jetzt trau ich mich kaum an 4.7 ran, auf reddit drehen alle völlig frei. Voller Fehler, ignoriert hinterlegte Anweisungen, frisst noch mehr Tokens als 4.6 sowieso schon.. und rollback auf 4.6 bringt auch nix, da sie das auch hart generfed haben.

Schade, sobald etwas zu groß wird, wird's mies. Wie bei allem.

Ähm, probieren und sich selbst ein Bild davon machen? Kommt sicher drauf an was man macht, aber da wird gefühlt maßlos übertrieben sofern nicht mit ganzen Agent Teams gearbeitet wird.

Man muss auch nicht gleich immer mit Opus reingehen. Sonnet ist/war super für die meisten Tasks. Opus wählt teilweise aber auch selbst bspw. Haiku wenn es weniger komplex scheint.

zeaK · Samstag um 17:49

Kommt wenig überraschend das die Modelle sukzessive schlechter gemacht werden. Irgendwie muss das Geld wieder rein kommen.

Firmen die sich blind in die Abhänigkeit begeben und evtl. sogar Entwickler entlassen weil das jetzt alles via KI schneller geht, werden früher oder später damit auf die Nase fallen - spätestens wenn an der Preisschraube gedreht wird.

Azghul0815 · Samstag um 17:58

lynx007 schrieb:
AI Datencenter werden jetzt gestoppt dort, weil das Problem akutel ist!

Ja und wenn die technologie in den USA Strom braucht oder später in China baut man halt AKWs.

Das das net von heute aif morgen passiert ist mir klar, aber das ist letztendlich nicht der limitierende Faktor, die Kurve flacht ab. Definitiv.

lynx007 · Samstag um 18:22

@Azghul0815
Aber dir ist schon kalr das die Datencenter jetzt schon hochgezogen werden und oft vor den "AKW"s in betrieb gehen und viele Datencenter nicht grundlos von den Bewohnern blockiert werden. Und zwar nicht weil sie AI und Fortschritt grundsäztlich hassen hoffe ich?!!

Und wen es nicht limitrend wäre, würde man auch nicht 2 Datencenter planen, wo man aufgrund Instalateuren, Elektronikern (das laut Huang wirkliche Hardcap) nur eines Bauen könnte?!

Eines dort wo man es gerne Hätte und eines dort, wo die Komune, der Staat so pleite ist, das man es am endetrotzdem durchgedrück bekommt, als Fallback.

Eben weil die Anwohner wissen das ein AKW gute 10, 20 oder wen es schlecht läuft 30 Jahre dauert bis es gebaut wird. Und wir sind uns sicher einig, das die Datencenter die jetzt Hochgezogen werden, nicht geplannt ist in 30 Jahren angeschlossen zu werden, wen die AKWs dafür fertig sind.

riloka · Samstag um 18:39

Man könnte natürlich auch Windkraft und Solarzellen bauen die deutlich günstiger sind

Azghul0815 · Samstag um 18:50

lynx007 schrieb:
Eben weil die Anwohner wissen das ein AKW gute 10, 20 oder wen es schlecht läuft 30 Jahre dauert bis es gebaut wird. Und wir sind uns sicher einig, das die Datencenter die jetzt Hochgezogen werden, nicht geplannt ist in 30 Jahren angeschlossen zu werden, wen die AKWs dafür fertig sind.

Schau mal über den Tellerrand raus. Ja die USA sind das eine Land, die Chinesen werden die USA in dem Thema vermutlich die nächsten 10 Jahre überholen.
Da gibts dann keine Bevölkerungseinsprüche usw.

Versteh mich net Falsch, ich sage nicht, du hast im JETZT nicht recht, aber denk mal 10 Jahre in die Zukunft. KI bleibt, wird ausgebaut usw. Kann man gut finden oder nicht...ich denke da kommt noch eine ganze Menge auf uns als Gesellschaft und vor allem als Europäer zu...

Drahminedum · Samstag um 19:26

JaniC schrieb:
ignoriert hinterlegte Anweisungen

Das dürfte rein am Memory liegen, der overruled gerne eigene Anweisungen. Ein bisschen muss man sich schon mit den Neuerungen beschäftigen.

LisasPapa · Samstag um 19:37

Die Schlange die sich selbst fraß...

ChatGPT ist für Entwickler eher unbrauchbar, man möge Claude.ai verwenden. Jetzt wurde der Code geleakt und den haben sich einige findige Leute angesehen und auf Hacker-News mal einen Beitrag dazu abgegeben:

https://techtrenches.dev/p/the-snake-that-ate-itself-what-claude Im Chrome-Browser lässt sich das prima ins deutsche übersetzen, wer dem englischen nicht so mächtig ist.

JaniC · Samstag um 19:37

Hab's nur auf reddit gelesen, wahrscheinlich overblown. Nächste Woche mal selbst rumprobieren.

SheepShaver · Samstag um 20:37

@LisasPapa
Der Harness/Agent wurde geleakt. Das sagt jetzt aber leider rein garnichts über das Model aus.

aluis · Samstag um 20:59

T3rm1 schrieb:
Überall wird berichtet, wie schlecht Opus 4.7 gegenüber 4.6 sei

Kann ich bestätigen. Hab eine 4.7 Sitzung gemacht, 8 Stunden. Das war wie KI auf Speed, richtig schlecht. Am nächsten Tag 4.6 Sitzung, auch acht Stunden. Ein Unterschied in der Qualität wie Tag und Nacht. Ich habe am Ende 4.6 gesagt, vergleiche beide Sitzungen. Sogar 4.6 sagst selber, dass 4.7 Schrott ist:

...ohne aus dem Feedback zu lernen. ...Aber dass das Verhalten sich qualitativ unterscheidet, sehe ich in den Chatverläufen.

DeusExMachina · Samstag um 21:02

aufkrawall schrieb:
Die sind aber auch nur mit sehr viel Salz zu genießen, da sehen diverse Modelle wesentlich stärker aus, als sie in der Realität bei (Vibe) Coding sind.

Weil sie höchstwahrscheinlich schummeln

https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/

Die Benchmarks sind nämlich totaler Schrott.

-----

Aber Goodhart's Law schlägt da halt wieder voll durch

Muntermacher · Samstag um 21:25

Für mich sieht es so aus, als wenn Claude besser in Sachen als Algoritmen ala ChatGPT ist. Mich würde interessieren, wie es aussieht, wenn man Autos mit Selbstfahrerlaubnis mal manuell steuert, aber die Selbatfahrbewertung aufzeichnet und mit Claude analysieren läßt, ob dann andere Entscheidungen kommen und vielleicht nur die Interpretation der Sensorik optimiert werden muß. Gibt es in der Richtung schon Veröffentlichungen?

JP-M · Samstag um 22:57

Nächste Woche vielleicht mal wieder reinschauen. 4.6 ist zumindest grandios daran gescheitert eine "legacy" Spring Boot 2 Applikation nach Spring Boot 4 zu migrieren .. da wurden einfach wild APIs durcheinander geworfen und nichts ging

.
Ich sehne mich so sehr nach einem Modell mit echtem Verständnis für das, was es da macht :-/

Ayo34 · Samstag um 23:01

Rockhound schrieb:
Auf reddit liest man das 4.7 ca. 35% mehr Tokens verbraucht aber nicht viel besser sein soll. Man läuft also noch schneller ins Limit. ...

steht nicht nur auf Reddit, sondern auch ganz offen im Release-Beitrag von Anthropic zu Opus 4.7. Zum einen wurde der Tokenizer optimiert (Verbrauch bis 1,35-fach), zum anderen wurde der standardmäßige Thinking-Modus von „high” auf „highx” um eine Stufe erhöht.

"Opus 4.7 is a direct upgrade to Opus 4.6, but two changes are worth planning for because they affect token usage. First, Opus 4.7 uses an updated tokenizer that improves how the model processes text. The tradeoff is that the same input can map to more tokens—roughly 1.0–1.35× depending on the content type. Second, Opus 4.7 thinks more at higher effort levels, particularly on later turns in agentic settings. This improves its reliability on hard problems, but it does mean it produces more output tokens."

-> Man muss also manuell wieder auf „High” umstellen, dann geht der Verbrauch auch deutlich wieder runter.

T3rm1 schrieb:
Keine Ahnung wie der Autor auf diese Ergebnisse kommt. Überall wird berichtet, wie schlecht Opus 4.7 gegenüber 4.6 sei und das es das bisher schlechteste Model sei.

Opus 4.7 hat einige Änderungen vorgenommen, weshalb die Prompts angepasst werden müssen. Einige Parameter wurden komplett abgeschafft und Anweisungen werden viel wortwörtlicher genommen. In meinen Augen ist das z. B. gut, aber ohne Anpassungen werden einige sehr gut funktionierende Prompts leider schlechter.

Unterm Strich ist Opus 4.7 nach den Benchmarks erst einmal besser. In der Praxis gibt es durch die ganzen Umstellungen leider einige Probleme und Ärger aktuell.

ameisenbaer · Samstag um 23:50

Hat Opus vorher auch schon viele Test beim coden gebaut? es kommt jetzt so "test driven" vor...

Micha- · Sonntag um 00:18

Habe gestern Opus 4.7 ausprobiert und das Vorgehen der KI war deutlich systematischer und sie hat mir erstmals ausführlich verschiedene Lösungen angeboten. Das hatte ich bisher immer eingefordert, aber meist hat sie gleich code generiert. Ich kann nicht klagen.

News Claude Mythos und Opus 4.7: Was leisten Anthropics neue Spitzenmodelle?

Fleet Admiral Pro

Vice Admiral

Rear Admiral

Lt. Commander

Lieutenant

Fleet Admiral Pro

Rear Admiral

Captain

Fleet Admiral Pro

Lieutenant Pro

Cadet 4th Year

Lt. Junior Grade

Commodore

Lieutenant

Lieutenant

Lt. Commander

Lt. Commander

Admiral

Lieutenant

Captain

Ähnliche Themen