News Claude Mythos und Opus 4.7: Was leisten Anthropics neue Spitzenmodelle?

Claude Mythos ist Anthropics Spitzenmodell, das aber nicht für ausgewählte Organisationen bereitgestellt wird

Das soll wahrscheinlich nur heißen.
 
  • Gefällt mir
Reaktionen: eastcoast_pete, Zagrthos, lordZ und 3 andere
Naja, wieso sollen die Modelle nicht besser werden und wieso sollen Menschen alle Fehler finden. Wenn ich genug Energie in eine Auomatismus stecke, der alle Wahrscheinlichkeiten abklappern kann, wird der nunmal Fehler finden.
Positiv formuliert ist das schon spannend wo das hinführt, vor allem im globalen Kontext.
 
Der Beitrag und die darin präsentierten Ergebnisse decken sich nicht mit den vielen vielen Klagen in Onlineforen darüber wie 'dumm' Opus plötzlich geworden ist. Anthropic wird wohl ordentlich Einsparungen fahren und die Zeit der billigen starken Modellen für alle mag bereits vorbei sein. Schön wars.
 
  • Gefällt mir
Reaktionen: onkuri, Sithys, Alphanerd und 5 andere
Keine Ahnung wie der Autor auf diese Ergebnisse kommt. Überall wird berichtet, wie schlecht Opus 4.7 gegenüber 4.6 sei und das es das bisher schlechteste Model sei.
 
  • Gefällt mir
Reaktionen: Sithys, aluis, Sav3k und 8 andere
Azghul0815 schrieb:
Wenn ich genug Energie in eine Auomatismus stecke, der alle Wahrscheinlichkeiten abklappern kann, wird der nunmal Fehler finden.
Ja, man hat ja in den 80/90ern schon erkannt das das Problem eigentlich immer vor dem Bildschirm sitzt, von daher klar - wenn da fehlerfreie Routinen implementiert werden wird die KI auch tatsächlich hilfreich sein, einem viel Arbeit abnehmen und viele Projekte massiv beschleunigen - wäre ja nichts schlechtes per se, wenn da nicht dieses Riesenproblem mit der Wegrationalisierung von zahllosen Arbeitsplätzen wäre - das ist halt leider die Schattenseite von KI.
 
Die Grundlagen von Open Source sieht man davon aber nicht in Gefahr.
Indirekt schon, indem darauf vollständig verzichtet wird und alles von diesen AI Tools entweder geforked oder ohnehin gleich selbst implementiert wird, das ganze natürlich nicht auf ihre Funktionsweise geschweige denn Schwachstellen getestet.

Woher viele Sicherheitslücken stammen wird nicht mehr diskutiert—ein Großteil davon kommt mittlerweile sicher auch schon von der Verwendung jener Tools. Das quasi perfekte Business Modell wenn man auf der Angebots- und Nachfrage-Seite mitwirken kann. 😎
 
T3rm1 schrieb:
Keine Ahnung wie der Autor auf diese Ergebnisse kommt. Überall wird berichtet, wie schlecht Opus 4.7 gegenüber 4.6 sei und das es das bisher schlechteste Model sei.
Das ist bei jedem, wirklich jedem neuen Modell egal von welchem Anbieter so. Einfach mal die Redditsuche anschmeißen. "Lobotomized" ist mittlerweile zum absoluten Standardbegriff geworden. Deckt sich zum Beispiel aber überhaupt nicht mit den Tests von Artificial Analysis.
 
  • Gefällt mir
Reaktionen: panzercrak, [ACE].:SHARK:. und DNS81

…Schon spannend und „The Morpheus“ hat immer interessante Blicke und Sichtweisen auf die Dinge.
 
  • Gefällt mir
Reaktionen: Feuerbiber, Nebuk und Kazuja
Auf reddit liest man das 4.7 ca. 35% mehr Tokens verbraucht aber nicht viel besser sein soll. Man läuft also noch schneller ins Limit. Nutze derzeit Codex und Gemini für meine 0815-Programmierunterstützung und bin sehr zufrieden. Bei reddit findet man ja gute "Angebote" für die Pro-Varianten bei 4€ im Monat.
 
  • Gefällt mir
Reaktionen: Raknar, TheLizardator und Kazuja
T3rm1 schrieb:
Keine Ahnung wie der Autor auf diese Ergebnisse kommt. Überall wird berichtet, wie schlecht Opus 4.7 gegenüber 4.6 sei und das es das bisher schlechteste Model sei.
Das ist der übliche Zyklus bei der Einführung neuer Modelle. In drei Monaten heisst es dann überall "Nimm 4.7, mit 4.6 konnte man ja nicht wirklich arbeiten!"
 
  • Gefällt mir
Reaktionen: serve1chilled, DNS81, Azdak und 4 andere
Rockhound schrieb:
Auf reddit liest man das 4.7 ca. 35% mehr Tokens verbraucht aber nicht viel besser sein soll. Man läuft also noch schneller ins Limit. Nutze derzeit Codex und Gemini für meine 0815-Programmierunterstützung und bin sehr zufrieden. Bei reddit findet man ja gute "Angebote" für die Pro-Varianten bei 4€ im Monat.
Wenn man sich alle neuen Funktionen aufschwatzen lässt kann das eventuell passieren, aber 35% mehr weiß ich jetzt auch nicht?

Und 4€ für die anderen Pro Subscriptions? Wo gibt es das? Habe prompt eine Seite gefunden, aber die ist in etwa so dubios wie bei anderen "Key-Sellern" im Gaming Bereich. Oder hast du zufällig auch eine seriöse Quelle dafür?

Ansonsten auch Copilot, den gibt's für 10€ mit freier Modellauswahl und anderen Features, die einen sogar noch aktiv beim Programmieren!! unterstützen.
 
Erstaunlich wie wenig Kommentare und (ich schließe daraus) wie wenig Interesse es hierzu gibt. Aber wenn nVidia die RTX 3060 neu auflegt, dann eskaliert alles :p

Die Monetarisierung ist mir hier definitiv zu aggressiv. Ich bin kostenpflichtig in ChatGPT und Gemini, aber Claude wollte ich gestern mal testen, der wollte schon nach dem dritten Prompt Geld von mir. So werden die mich kaum anfixen.
 
  • Gefällt mir
Reaktionen: zhompster, serve1chilled, Bl4cke4gle und 3 andere
Opus 4.6 und 4.7 fressen dir halt die Limits wie sonst was, ich nutze es mittlerweile nur noch wenn es nicht anders geht. Das Opus 4.6 die letzten Monate schlechter geworden ist, ist erst seit ein paar Tagen im Gespräch.
Man muss hier schon sagen ob das nicht Vorwand ist, damit 4.7 besser da steht.
 
-->Er@zor_X<-- schrieb:
Deckt sich zum Beispiel aber überhaupt nicht mit den Tests von Artificial Analysis.
Die sind aber auch nur mit sehr viel Salz zu genießen, da sehen diverse Modelle wesentlich stärker aus, als sie in der Realität bei (Vibe) Coding sind.

Neu bei Opus 4.7 ist, dass es offenbar schon an Tag 1 generft ist. Habe mittlerweile extrem viele Berichte gelesen, wie es gegenüber Opus 4.5 (oder 4.6 vor dem Nerf) massiven Blödsinn halluzinieren soll.
 
T3rm1 schrieb:
Keine Ahnung wie der Autor auf diese Ergebnisse kommt. Überall wird berichtet, wie schlecht Opus 4.7 gegenüber 4.6 sei und das es das bisher schlechteste Model sei.
Weil es sich nicht um eine Objektive Meinung handelt. Jeder der in diesem Thema informiert ist, wird es beim lesen des Artikels bemerken.

2Stoned schrieb:
Der Beitrag und die darin präsentierten Ergebnisse decken sich nicht mit den vielen vielen Klagen in Onlineforen darüber wie 'dumm' Opus plötzlich geworden ist. Anthropic wird wohl ordentlich Einsparungen fahren und die Zeit der billigen starken Modellen für alle mag bereits vorbei sein. Schön wars.
Die platzen aus allen nähten und können die versprochenen Produkteigenschaften nicht halten. Siehe das Thema vom "adaptive thinking" und anderer Änderungen die mit Verlust der Leistungsfähigkeit des Modells einhergehen. Die user sind gar nicht erfreut.

konkretor schrieb:
Das Opus 4.6 die letzten Monate schlechter geworden ist, ist erst seit ein paar Tagen im Gespräch.
Seit über einem Monat und das nachweißlich aufgrund eingeführter Änderungen seitens Anthropic um unter anderem ressourcenschonender zu laufen.

konkretor schrieb:
Man muss hier schon sagen ob das nicht Vorwand ist, damit 4.7 besser da steht.
Wäre denkbar und wird heiß diskutiert.

Ciero
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: konkretor
second.name schrieb:
Absolute sehenswert. Vor allem bezüglich der Morpheusschen Eier Theorie
 
  • Gefällt mir
Reaktionen: Feuerbiber und roaddog1337
Azghul0815 schrieb:
Naja, wieso sollen die Modelle nicht besser werden und wieso sollen Menschen alle Fehler finden. Wenn ich genug
Energie in eine Auomatismus stecke, der alle Wahrscheinlichkeiten abklappern kann, wird der nunmal Fehler finden.
Positiv formuliert ist das schon spannend wo das hinführt, vor allem im globalen Kontext.
Weil spätestens die Energie Endlich ist, zugleich die Anforderung von Tokens Expotenziel zunehmen. Sprich du kannst das nicht mehr einfach nur ausskalieren.... weil doppelt soviel Datencenter nicht mehr doppelt so gutes ergebnis bedeutetn... sonder im schlimmstenfall nur deine kosten vervielfacht.

Wunderschönes VIdeo dazu vom Lederjackenträger selber! Der vieles was TPU, Datencenter, AI gut einordnet. Ganz wichtig, indeinem kontext TCO!
TCO steht für Total Cost of Ownership (Gesamtkosten des Betriebs). Ist jetzt nicht ganz leichte kost! Ich empfehle jedem der kein BWL hatte, sich nebenbei nen tranlator und wiki auf zu machen, weil dort schon sehr viele wichtige Acronyme rumfliegen.... Superspandendes Video für AI Fans, insbesondere die Kaufleute untereuch. Wen einem AI, aber auch das ganze Eco zeug interessiert drum herum, ganz klare Pflicht und 10/10! Auch and das CB Team! @Andy Weil das viele Sachen bringt, die vor der realisierung statt finden und die man oft als User garnicht auf dem Schirm hat. Mann muss es nicht gesehen haben. Aber man versteht, AI Thema AI geil findet, auf jedenfall sehenswert auf "watch later" zu speichern.

Aber vorsicht" AMD Fanboys, NV Hater", dannach war Huang direkt mir sympatischer.... ist natürlich auch der Sinn von so ein Videos. :evillol: Also wer die Geschichte von Huang, als Looser und Underdog nicht kennt, könnte ein Problem bekommen! ALso nur kucken wen ihr kein Problm mit BWL Acronymen habt und dem risiko das eure Feindbild risse bekommen könnte. ;)

Der Zweite Punkt, welcher automatismus? Du musst doch dne Fehler finden, um sicher zustellen das auch der Automatismus fehlerfrei ist! Merkst du was? Stichwort Kontrolle! Skynet kann nur verhindert werden, wen wir nicht die kontrolle verlieren.... wen du also ein tool entwickelst, das fehler beseitigt, ohne garantieren zu können das es fehler frei ist, wie willst du gewährleisten das es zuverlässig funktioniert? Sprich du hast nen paradoxon....
Viele davon ist Grundlagen vorschung... aber das was du beschreibst... agent, prüft agent, der prüft agent.... ja, und hinten knallen wir Atomkraftwerke dran... ja, auf kamm schon so mancher... aber das ist genau der punkt wo die klügsten der klügsten, die nicht bei den AI firmen arbeiten, zweifel haben das sich das ausskalieren läst....

Ich finde das super spannend. Aber es ist auch sehr hyperabstrakt. Gerade die Frage, wie gewährleiste ich das sowas wie Skynet nicht passiert, wen so etwas wie in diesem Video realität ist nur mit weniger Humor, und keiner hat ahnung warum das bis dahin super funktioniert hat, und dannach nicht mehr....

Nein, wir müssen Fehler finden.... Aber das Kernproblem ist, wie schliesen wir eine spezelle sorte von Fehler aus. Das ist ja schon konzeptionel Teil der Grundlagen vorschung. Erinnere dich an HitlerGrok... Oder dem FrauenFeindlichen GPT.... super spannend auf jeden falll. auch weil die Klügsten der Klügsten AI Forscher eben daran zweifeln das man die probleme einfahc ausskalieren kann, zugleich die selben sind die sage AI könnte uns auslöschen. Vieleicht ist nichtmal das Atom der Grund warum wir keine Aliens sheen. Sondern eine AI die den heimatplanten in eine RubicCube Verwandelt und bei Erfolg abschaltet. ;):evillol:
 
Akquise ist vorbei, jetzt wird kassiert.

Schade, habe viel mit 4.6 gearbeitet und war teilweise echt begeistert. Konnte mit dem Limit gut umgehen, hat gereicht und dann eben Pause wenn aufgebraucht. Jetzt trau ich mich kaum an 4.7 ran, auf reddit drehen alle völlig frei. Voller Fehler, ignoriert hinterlegte Anweisungen, frisst noch mehr Tokens als 4.6 sowieso schon.. und rollback auf 4.6 bringt auch nix, da sie das auch hart generfed haben.

Schade, sobald etwas zu groß wird, wird's mies. Wie bei allem.
 
  • Gefällt mir
Reaktionen: Divad, Alphanerd, 2Stoned und eine weitere Person
Zurück
Oben