News Spitze in Benchmarks: Anthropics Claude Opus 4.5 schlägt Gemini 3 und GPT-5.1

Andy · 25. November 2025

Mit Claude Opus 4.5 hat Anthropic ein neues Spitzenmodell vorgestellt, das sich vor allem beim Coding, den Agenten-Fähigkeiten und der Computer-Nutzung von der Konkurrenz absetzen soll. Laut den internen Benchmarks positioniert es sich sowohl vor Gemini 3 Pro von Google als auch OpenAIs GPT-5.1.

Zur News: Spitze in Benchmarks: Anthropics Claude Opus 4.5 schlägt Gemini 3 und GPT-5.1

Fighter1993 · 25. November 2025

Naja, ob 77,9 oder 80,3 merkt man das?

jodd2021 · 25. November 2025

Gibt also schneller falsche Antworten. Auch nicht schlecht, hat man mehr Zeit das richtige zu Suchen.

Averomoe · 25. November 2025

Mir sagen diese Prozente ehrlich gesagt gar nichts. Was entspricht denn 1% in dieser Skala? Was wäre entsprechend 0% bzw. was muss passieren, um 100% zu erreichen?

Cepheus77 · 25. November 2025

Habe mit Claude bisher die besten Erfahrungen beim GitHub Copilot gemacht. Werde das Neue gleich testen.

Abrexxes · 25. November 2025

OpenAI wird es merken. Hop, schnell weitere 2 Billionen auftreiben. ^^

Uzer1510 · 25. November 2025

naja sobald OpenAI 5.5 rausbringt oder 6.0 sind die halt wieder für ein paar Wochen ganz vorne - das wechselt sich an der Spitze doch dauernd ab, je nachdem wer halt ein gerade neu trainiertes Modell hat.

Wichtig ist doch nur dass man nicht komplett abgeschlagen irgendwo auf den hintersten Plätzen rumdümpelt und der Abstand immer grösser wird.

Metalveteran · 25. November 2025

Für meinen Usecase ist Claude echt schon fantastisch, selbst Sonnet! Für Opus bin ich aber zu geizig. Da kann man <hier Währung einfügen> echt beim schmelzen zusehen.

Aber vielleicht wird Sonnet ja aufgebohrt, "demnächst"?

Me ❤️ Claude

Yosup · 25. November 2025

Was macht eigentlich mistral.ai so?

TheInvisible · 25. November 2025

Für wie viele Anfragen reicht das im normalen 20EUR Abo?

Ist ja das hauptproblem, gibt man einmal mehr Input ist das Limit ja sofort aufgebraucht, selbst im 100EUR Abo rennt man schnell in Limits. Kann man zwar auf API umsteigen aber da brennt man aus wie man ja an den Preisen pro Mio Token sieht. Und trotzdem machen die KI Firmen Mrd Verluste im Quartal, da müsste man ja mindestens 10x mehr verlangen.

Bin ja echt gespannt wo das hinführt und wie lange das noch so weitergeht.

Metalveteran · 25. November 2025

Yosup schrieb:
Was macht eigentlich mistral.ai so?

Haben die einen eigenen CLI-Client für Linux? (ehrliche Frage noch nicht geschaut).

Mistral steht in der Tat auf der Liste "mal sehen, was damit geht", aber meine "yay -Ss mistal" Ergebnise waren eher..... hm.

EL-SANTO · 25. November 2025

Zum coden ist Claude definitiv das Beste!

TheInvisible schrieb:
Und trotzdem machen die KI Firmen Mrd Verluste im Quartal, da müsste man ja mindestens 10x mehr verlangen.

Bin ja echt gespannt wo das hinführt und wie lange das noch so weitergeht.

Oder die KIs werden 10x effizienter. Optimierte Hardware, optimierte Software und schon ist der Drops gelutscht.

Zum Thema: Claude mit abstand der beste Coding-Freund! Also wenn es mal etwas professioneller wird als, erstelle mir das Spiel Tic-Tac-Toe oder bau mir eine Website, egal wie das Ding ausschaut,, egal ob man es gescheit nutzen kann.... Hab die Tage auch Antigravity mit Gemini 5 Pro getestet aber die Ergebnisse waren etwas ernüchternd. Das gleiche mit Claude, viel praktikabler.

Uzer1510 · 25. November 2025

Naja Google/Alphabet hat ja ~ 1000x fache Rechenleistung in 4-5 Jahren für ihren AI Bereich geplant - das wird man kaum durch Hard und Softwareoptimierung alles auffangen

Google geht von einer exponentiellen Steiugerung der Rechneleistung aus - bei Optimierung hat man eher eine exponentielle Entwicklung in die andere Richtung - also grosse weil einfache Optimierugnen zuerst danach wird es immer schwerer.

Metalveteran · 25. November 2025

TheInvisible schrieb:
Für wie viele Anfragen reicht das im normalen 20EUR Abo?

Ist wie Glücksspiel, hab ich das Gefühl. Die Token können schmelzen wie Eis in der Sonne, und manchmal kann man gefühlt "ewig" rumhantieren.

....kann HIER die EU nicht mal eingreifen? Ich will transparente Nutzung in den Tools sehen "Ihr Token kostet x.xx€ möchten Sie fortfahren? (yes/no/always)

TheInvisible · 25. November 2025

EL-SANTO schrieb:
Oder die KIs werden 10x effizienter. Optimierte Hardware, optimierte Software und schon ist der Drops gelutscht.

Passiert ja nicht, sonst würde man nicht ankündigen um 100e Mrd neue Rechenzentren zu bauen. Gemini 3 pro API zb auch wieder teurer.

EL-SANTO schrieb:
Zum Thema: Claude mit abstand der beste Coding-Freund!

Denke auch, aber irgendwie schaffen sie bei komplexeren Projekten nie zu Ende. Heute auch wieder, so 80-90% gehen quasi immer via AI aber das finalisieren failen sie immer hart, auch sonnet 4.5

Enurian · 25. November 2025

Metalveteran schrieb:
Ich will transparente Nutzung in den Tools sehen "Ihr Token kostet x.xx€ möchten Sie fortfahren? (yes/no/always)

Geht über Github Copilot, da ist auch Opus 4.5 verfügbar. Da zahlt man pauschal pro "Chatanfrage", egal wie viel er dadurch ackert. Nachteil ist, dass meist das Kontextfenster deutlich kastriert ist.

aLanaMiau · 25. November 2025

Claude ist wirklich extrem gut. Aber mir kann selbst das kostenlose Chat-GPT ausreichend und zuverlässig genug meine Fragen beantworten.

Magellan · 25. November 2025

Bisschen selektive Bench Auswahl, beim vending vergleicht man dann z.b. nur mit Sonnet obwohl die Gemini 3 Werte da bekannt (aber halt besser) sind.
Letztlich aktuell alles nicht so relevant für mich, Claude, ChatGPT und Gemini sind alle ziemlich stark - entscheidend ist dann eher was man für die API Nutzung hinlegen muss.

wüstenigel · 25. November 2025

Metalveteran schrieb:
Haben die einen eigenen CLI-Client für Linux? (ehrliche Frage noch nicht geschaut).

Keinen eigenen aber es gibt soweit ich weiß zwei Stück:

https://www.piwheels.org/project/mistral-cli-tool/

https://github.com/aumbriac/MistralCLI

SDJ · 25. November 2025

Also ich finde so manche Ergebnisse äußerst beeindruckend. Wie zb ein Minecraft clon:

https://x.com/marmaduke091/status/1993072138023235779?t=ovnVr5CLiXqbGJ1K0xAfTQ&s=19

News Spitze in Benchmarks: Anthropics Claude Opus 4.5 schlägt Gemini 3 und GPT-5.1

Tagträumer

Admiral Pro

Lt. Commander

Commander Pro

Ensign Pro

Commodore Pro

Commander

Lt. Commander

Lieutenant

Banned

Lt. Commander

Lt. Junior Grade

Commander

Lt. Commander

Banned

Commander

Lt. Commander

Fleet Admiral

Lieutenant

Lieutenant

Ähnliche Themen