News Spitze in Benchmarks: Anthropics Claude Opus 4.5 schlägt Gemini 3 und GPT-5.1

Andy

Tagträumer
Teammitglied
Registriert
Mai 2003
Beiträge
8.330
  • Gefällt mir
Reaktionen: wexoo, Trent, knoxxi und 5 andere
Naja, ob 77,9 oder 80,3 merkt man das?
 
  • Gefällt mir
Reaktionen: tollertyp, R O G E R, Innocience und 3 andere
Gibt also schneller falsche Antworten. Auch nicht schlecht, hat man mehr Zeit das richtige zu Suchen.
 
  • Gefällt mir
Reaktionen: Strulf, Zoba, Ruff_Ryders88 und 14 andere
Mir sagen diese Prozente ehrlich gesagt gar nichts. Was entspricht denn 1% in dieser Skala? Was wäre entsprechend 0% bzw. was muss passieren, um 100% zu erreichen?
 
  • Gefällt mir
Reaktionen: tollertyp, FrAGgi, Ruff_Ryders88 und 4 andere
Habe mit Claude bisher die besten Erfahrungen beim GitHub Copilot gemacht. Werde das Neue gleich testen.

1764092130692.png
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Zoba, FrAGgi, Boerkel und 6 andere
OpenAI wird es merken. Hop, schnell weitere 2 Billionen auftreiben. ^^
 
  • Gefällt mir
Reaktionen: knoxxi und Kazuja
naja sobald OpenAI 5.5 rausbringt oder 6.0 sind die halt wieder für ein paar Wochen ganz vorne - das wechselt sich an der Spitze doch dauernd ab, je nachdem wer halt ein gerade neu trainiertes Modell hat.

Wichtig ist doch nur dass man nicht komplett abgeschlagen irgendwo auf den hintersten Plätzen rumdümpelt und der Abstand immer grösser wird.
 
  • Gefällt mir
Reaktionen: Rawday, 9t3ndo, Vexz und eine weitere Person
Für meinen Usecase ist Claude echt schon fantastisch, selbst Sonnet! Für Opus bin ich aber zu geizig. Da kann man <hier Währung einfügen> echt beim schmelzen zusehen.

Aber vielleicht wird Sonnet ja aufgebohrt, "demnächst"?

Me ❤️ Claude
 
  • Gefällt mir
Reaktionen: Wedge. und Kazuja
Was macht eigentlich mistral.ai so?
 
  • Gefällt mir
Reaktionen: moppelg, PhilAd, serve1chilled und 3 andere
Für wie viele Anfragen reicht das im normalen 20EUR Abo?

Ist ja das hauptproblem, gibt man einmal mehr Input ist das Limit ja sofort aufgebraucht, selbst im 100EUR Abo rennt man schnell in Limits. Kann man zwar auf API umsteigen aber da brennt man aus wie man ja an den Preisen pro Mio Token sieht. Und trotzdem machen die KI Firmen Mrd Verluste im Quartal, da müsste man ja mindestens 10x mehr verlangen.

Bin ja echt gespannt wo das hinführt und wie lange das noch so weitergeht.
 
  • Gefällt mir
Reaktionen: calluna, ~Rake~ und Lan_Party94
Yosup schrieb:
Was macht eigentlich mistral.ai so?
Haben die einen eigenen CLI-Client für Linux? (ehrliche Frage noch nicht geschaut).

Mistral steht in der Tat auf der Liste "mal sehen, was damit geht", aber meine "yay -Ss mistal" Ergebnise waren eher..... hm.
 
Zum coden ist Claude definitiv das Beste!
TheInvisible schrieb:
Und trotzdem machen die KI Firmen Mrd Verluste im Quartal, da müsste man ja mindestens 10x mehr verlangen.

Bin ja echt gespannt wo das hinführt und wie lange das noch so weitergeht.

Oder die KIs werden 10x effizienter. Optimierte Hardware, optimierte Software und schon ist der Drops gelutscht.

Zum Thema: Claude mit abstand der beste Coding-Freund! Also wenn es mal etwas professioneller wird als, erstelle mir das Spiel Tic-Tac-Toe oder bau mir eine Website, egal wie das Ding ausschaut,, egal ob man es gescheit nutzen kann.... Hab die Tage auch Antigravity mit Gemini 5 Pro getestet aber die Ergebnisse waren etwas ernüchternd. Das gleiche mit Claude, viel praktikabler.
 
  • Gefällt mir
Reaktionen: Boerkel, Wedge. und Metalveteran
Naja Google/Alphabet hat ja ~ 1000x fache Rechenleistung in 4-5 Jahren für ihren AI Bereich geplant - das wird man kaum durch Hard und Softwareoptimierung alles auffangen :D

Google geht von einer exponentiellen Steiugerung der Rechneleistung aus - bei Optimierung hat man eher eine exponentielle Entwicklung in die andere Richtung - also grosse weil einfache Optimierugnen zuerst danach wird es immer schwerer.
 
TheInvisible schrieb:
Für wie viele Anfragen reicht das im normalen 20EUR Abo?

Ist wie Glücksspiel, hab ich das Gefühl. Die Token können schmelzen wie Eis in der Sonne, und manchmal kann man gefühlt "ewig" rumhantieren.

....kann HIER die EU nicht mal eingreifen? Ich will transparente Nutzung in den Tools sehen "Ihr Token kostet x.xx€ möchten Sie fortfahren? (yes/no/always)
 
  • Gefällt mir
Reaktionen: Ganjaware
EL-SANTO schrieb:
Oder die KIs werden 10x effizienter. Optimierte Hardware, optimierte Software und schon ist der Drops gelutscht.
Passiert ja nicht, sonst würde man nicht ankündigen um 100e Mrd neue Rechenzentren zu bauen. Gemini 3 pro API zb auch wieder teurer.
EL-SANTO schrieb:
Zum Thema: Claude mit abstand der beste Coding-Freund!
Denke auch, aber irgendwie schaffen sie bei komplexeren Projekten nie zu Ende. Heute auch wieder, so 80-90% gehen quasi immer via AI aber das finalisieren failen sie immer hart, auch sonnet 4.5
 
Metalveteran schrieb:
Ich will transparente Nutzung in den Tools sehen "Ihr Token kostet x.xx€ möchten Sie fortfahren? (yes/no/always)
Geht über Github Copilot, da ist auch Opus 4.5 verfügbar. Da zahlt man pauschal pro "Chatanfrage", egal wie viel er dadurch ackert. Nachteil ist, dass meist das Kontextfenster deutlich kastriert ist.
 
Claude ist wirklich extrem gut. Aber mir kann selbst das kostenlose Chat-GPT ausreichend und zuverlässig genug meine Fragen beantworten.
 
  • Gefällt mir
Reaktionen: R O G E R
Bisschen selektive Bench Auswahl, beim vending vergleicht man dann z.b. nur mit Sonnet obwohl die Gemini 3 Werte da bekannt (aber halt besser) sind.
Letztlich aktuell alles nicht so relevant für mich, Claude, ChatGPT und Gemini sind alle ziemlich stark - entscheidend ist dann eher was man für die API Nutzung hinlegen muss.
 
Zurück
Oben