News Spitze in Benchmarks: Anthropics Claude Opus 4.5 schlägt Gemini 3 und GPT-5.1

User38 · 25. November 2025

@EL-SANTO welches Modell von Claude benutzt du? Sonnet 4.5?

meisterkatzen · 25. November 2025

Hab heute selbst einige Tickets mit Opus 4.5 bearbeitet (Coding Tickets) und die Ergebnisse waren ziemlich stark. Arbeite mit vielen Modellen und umsonst ist der Spaß auch nicht, 220€ zahle ich derzeit im Monat. Aber interessant wie sich das konstant verbessert (und wie man selber vielleicht obsolet wird?), heute ist das beim Coding alles auf jeden fall ein ganz anderes Level als noch vor 12 Monaten.

Ben99 · 25. November 2025

Kann das Ding einen Browser bedienen? Also, z.B. so: "gehe auf Twitter, Insta, Facebook, Computerbase, dann checke dort meine Feeds und meine privaten Nachrichten und schick mir eine Zusammenfassung per E-Mail"?
Das Ding braucht dann natürlich irgendwie meine Login-Daten - Sicherheitsbedenken bitte mal außer acht lassen 😅

knoxxi · 25. November 2025

Für Max bei Perplexity bin ich zu geizig. Aber gut Pro kostet ja auch nur 4€ im Jahr

UrlaubMitStalin · 25. November 2025

Ich kann bestätigen, Claude.AI ist beim Programmieren um Welten besser als ChatGPT oder Gemini.

Ein Problem, an dem ich mit Hilfe von ChatGPT 3 Tage gesessen habe, hat Claude-AI mir binenn 20 Minuten gelöst, bzw. mir die passenden Hinweise gegeben um den Fehler zu finden. Hier lohnen sich als Programmierer definitiv die 20€ im Monat.

Krik · 26. November 2025

Metalveteran schrieb:
Ist wie Glücksspiel, hab ich das Gefühl. Die Token können schmelzen wie Eis in der Sonne, und manchmal kann man gefühlt "ewig" rumhantieren.

....kann HIER die EU nicht mal eingreifen? Ich will transparente Nutzung in den Tools sehen "Ihr Token kostet x.xx€ möchten Sie fortfahren? (yes/no/always)

Das kann man nicht so einfach runterbrechen. Ein Token umfasst manchmal mal nur eine Silbe und manchmal gleichen einen ganzen Satz.

Ich bin mir nicht sicher, ob die EU bereits von der wundersamen Entdeckung der KI gehört hat. Es könnte sein, dass die noch im #Neuland feststecken.

Wedge. · 26. November 2025

+1 Für Claude als beste Coding KI (Webentwicklung und R).
Leider im Terminal kein Opus für Pro User verfügbar - aber Sonnet macht auch einen hervorragenden Job.

MaverickM · 26. November 2025

Diese KI schlägt jene KI, wird wieder von der nächsten geschlagen... Und trotzdem sind die Dinger noch strunzdoof. Wäre schön, wenn es mal um echte Fortschritte gehen würde.

Gandalf2210 · 26. November 2025

Yosup schrieb:
Was macht eigentlich mistral.ai so?

Wenn ich raten müsste Milliarden Subventionen einsacken wie solarworld und northvolt und dann entweder für klein Geld an china verkauft werden oder insolvent gehen

interesTED · 26. November 2025

Yosup schrieb:
Was macht eigentlich mistral.ai so?

Die veröffentlichen auch regelmäßig Updates ihrer Modelle, das wird nur irgendwie nie groß erörtert. Mistral fokussiert aber nicht nur auf die großen, sondern hat bspw. im September das kleine Magistral (reasoning) neu aufgelegt.

Wenn ich schnelle Antworten will nutze ich Mistral, da performen die deutlich besser, als die anderen.

luckysh0t · 26. November 2025

knoxxi schrieb:
Perplexity

Ich weis nicht welches Model die bei der accountlosen Suche nutzen, aber als ich mit der mal ein Script für meinen PVE daheim geschrieben habe, kam gut Fünfmal mal der selbe Fehler trotz Hinweisen und angeblichen obligatorischen entschuldigen und „verstehens“. Ist allerdings schon einige Monate her.

Aber vlt doch mal Claude testen.

anexX · 26. November 2025

Wird langsam mal Zeit für ne "AI Benchmark Software"

konkretor · 26. November 2025

Mit https://abacus.ai/ , kannst immer auf alle Modelle zugreifen, die es aktuell so gibt für 10$ im Monat. Die Credits reichen meistens aus für einen Monat. Jede Anfrage verbraucht eine gewisse Anzahl Credits, bei den Antworten, steht das dabei. Besser als bei einem Anbieter zu sein. Ist die Antwort nicht gut genug, lass die Antwort nochmals von einem anderen LLM beantworten.

calluna · 26. November 2025

EL-SANTO schrieb:
Oder die KIs werden 10x effizienter.

Ja… und dann können sie auch lokal laufen, dann braucht es keinen Cloud-Service.

Slowz · 26. November 2025

knoxxi schrieb:
Für Max bei Perplexity bin ich zu geizig. Aber gut Pro kostet ja auch nur 4€ im Jahr

Anhang anzeigen 1679104 Anhang anzeigen 1679105

Das Problem ist, dass man über Perplexity keinen Zugriff auf das CLI Tool hat, oder? Das ist für mich das allerwichtigste Kriterium mittlerweile.

Majestro1337 · 26. November 2025

Nach meinen internen Benchmarks bin ich auch einer Mischung aus Einstein, Herkules und Chris Evans

calluna · 26. November 2025

UrlaubMitStalin schrieb:
Hier lohnen sich als Programmierer definitiv die 20€ im Monat.

Wäre interessant zu Wissen, was deine Fachdomäne ist?
Und wie groß ist die Codebasis?

User38 · 26. November 2025

@konkretor Danke für den Tipp! Sind die Credits dann pro LLM oder auf alle bezogen? Also kann ich z.B. wenn ich die Credits für ChatGPT aufgebraucht habe dann zu Gemini wechseln und habe dort dann wieder Credits? Und wie sind deine Erfahrungen bei "normaler" Benutzung wie lange die Credits halten?

knoxxi · 26. November 2025

Slowz schrieb:
auf das CLI Tool hat, oder?

Wenn Du mir verrätst was ein CLI Tool ist

sedot · 26. November 2025

@knoxxi
CLI meint Command Line Interface. Also irgendwas für „im“ Terminal ausführbares.

https://de.wikipedia.org/wiki/Kommandozeile

News Spitze in Benchmarks: Anthropics Claude Opus 4.5 schlägt Gemini 3 und GPT-5.1

Lt. Junior Grade

Lt. Junior Grade

Cadet 4th Year

Rear Admiral Pro

Lt. Commander

Fleet Admiral Pro

Ensign

20k Fleet Admiral Pro

Commodore

Lt. Junior Grade Pro

Commander

Rear Admiral

Artikeldetektiv

Commander

Lt. Commander

Commander Pro

Commander

Lt. Junior Grade

Rear Admiral Pro

Vice Admiral Pro

Ähnliche Themen