GPU für lokale Coding LLM

Metalveteran schrieb:
Ich bin jetzt bei ~5400 Zeilen Code. Von den ~15 Stunden, die ich in meinem Claude-Wochenlimit habe, sind es vielleicht ~1 Stunde Bugfixing. Also ne ziemlich gute Quote wie ich finde. Das erreichen Gemini 2.5 Pro und GLM 4.6 zumindest bei meiner Arbeitsweise nichtmal im Ansatz. Wobei ich mich bei KI als blutigen Anfänger bezeichnen würde, ich hab erst vor ~5 Monaten überhaupt angefangen, mich damit zu beschäftigen.

Habt Ihr schon Erfahrung mit GPT 5 Codex gemacht? 2 Abos im Monat würd ich mir aktuell gefallen lassen.
Ich habe das ChatGPT Plus Abo und da ist Codex auch enthalten. Zumindest eingeschränkt. Ich kam aber bisher nicht dazu es auszuprobieren.
madmax2010 schrieb:
Kisten mit 2-4 H200/B200. Liegen meist zwischen 10-20 Euro/h
API ist billiger, aber dann gehen halt Daten an den Betreiber.
Mal so was https://www.nvidia.com/de-de/data-center/dgx-h200/ wäre nett. ;)
 
  • Gefällt mir
Reaktionen: madmax2010
  • Gefällt mir
Reaktionen: oicfar
madmax2010 schrieb:
Wie schon oben gesagt, du brauchst kein abo.
Hab den Unterschied zwischen API Zugriff und Abo auch noch nicht ganz verstanden :/

Also, um mal bei Claude zu bleiben, von Pro zurück auf Free, API Key holen, Summe X aufladen (hab da sowas in der Anthropic Console gesehen), und sehen wie weit ich komme?
 
Metalveteran schrieb:
Hab den Unterschied zwischen API Zugriff und Abo auch noch nicht ganz verstanden :/

Also, um mal bei Claude zu bleiben, von Pro zurück auf Free, API Key holen, Summe X aufladen (hab da sowas in der Anthropic Console gesehen), und sehen wie weit ich komme?
Ich weiß nicht, wie das bei claude ist, da nie genutzt. Aber beispielsweise bei Openai sind Abo und API getrennt. Beim Abo rödelst du nur im Webchatbot rum. Und über API bezahlst du nur das was du tatsächlich verbrauchst. Also statt den monatlichen 20 Geld wie beim Abo, kann es sein, dass du mit API und nem 10er Geld gerne mehrere Monate auskommen kannst oder in die andere Richtung auch nur einen Tag.
 
  • Gefällt mir
Reaktionen: madmax2010
oicfar schrieb:
Wie ist da die Performance um Vergleich zu H200?
Inference bei gleicher Modellgröße vergleichbar. Größere skalieren halbwegs linear und Qwen3 480B A35B passt halt einfach auf eine einzelne GPU.

Sie versprechen ~2x gegenüber der H200, aber da müssen die Frameworks und ROCm gerade noch nachziehen. Abwarten.
 
  • Gefällt mir
Reaktionen: oicfar
Zurück
Oben