News Datenleck bei Anthropic: Teile des Quellcodes von Claude Code veröffentlicht

Auch wenn Anthropic mMn aktuell das beste Gesamtpaket bietet, wirklich Leid tut es mir nicht.
 
  • Gefällt mir
Reaktionen: schneeland, saalzwasser, flaphoschi und 3 andere
Hätten sie mal Claude fragen sollen, wie sie ihre Daten besser schützen können :D
 
  • Gefällt mir
Reaktionen: schneeland, SteeL1942, lordfritte und 15 andere
Najo, nicht das erste mal das Anthropic die Source Map mit commited.
a.) die User beschweren sich das die 5h Kontingente zu schnell aufgebraucht werden
b.) Anthropic macht wieder Anthropic Dinge bastelt nen neuen Logger und commited das komplette Debugging mit der Source Map
c.) Das halbe Internet forked den Source Code mit Named Dependencies die nur Anthropic verwendet
d.) Anthropic gewinnt mal wieder den Titel für die meisten automatisierten DMCA Strikes auf Github
e.) Die Hidden Features sind auch interessant:
  • Buddy Mode als April Scherz,
  • Dream Mode um vergangene Sitzungen zu analysieren,
  • Coordinator Mode mehrere Claude Code Instanzen aus einer starten -> Super Agentic Mode,
  • Undercover Flags -> um den Agent Flag gegen Open Source Commits zu verstecken,
  • Anti-Distill versteckt gefälschte Tool Aufrufe wenn die Konkurrenz (aus China) mal wieder kopieren möchte

Aber bei Claude Code gibts imho ned viel zu holen, schaut man sich die Programming Benchmarks an läuft Opus 4.6 ja unter Claude Code am schlechtesten :D

//Edit: Auch geil, der komplette Source wurde schon in Rust geforked .. und natürlich hat schon jemand Doom in Claude Code zum laufen gebracht .. Ich brech weg :p
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: saalzwasser, Ech0Foxt, TPD-Andy und 12 andere
Die ultimative Lösung dagegen: Open Source.
Niemand kann leaken was ohnehin offenliegt.
Und ich möchte solche Tools und Modelle bitte nur in Open-Source-Varianten verwenden, alles andere ist unheimlich.
 
  • Gefällt mir
Reaktionen: Zhenwu, VYPA, Muntermacher und 15 andere
Mal sehen ob man das davon etwas mitbekommt wie die Daten verwertet werden. Zum Glück hat die KI nicht selber die Daten veröffentlicht.
 
Oh nein:

Linux leak.jpg
 
  • Gefällt mir
Reaktionen: Samhein, PixelBubti, RMS_der_Zweite und 10 andere
Marcel55 schrieb:
Die ultimative Lösung dagegen: Open Source.
Aber... Aber... Dann hätte ja nicht ein Konzern oder ein einziger CEO die Macht über all die Leute, die das Produkt nutzen... Denk doch an die armen CEOs und deren minimal Gehälter! Wie die da leiden würden! Unzumutbar!
Ironie Ende


Yikes. Sowas wird je öfter ähnliche Fälle passieren immer mehr ein "Security" Albtraum...
Wobei man bei "Security through Obscurity" die Hochkommas um "Security" fett machen müsste.

Wird noch lustig in der Welt der Vibe-Coder und CEOs die Angestellte zwingen "doppelt so effizient" zu sein oder "KI" nutzen MÜSSEN, ohne dass genug Expertise oder Zeit besteht die Ergebnisse richtig zu begutachten. Security Probleme sind da vorprogrammiert, oben drauf noch Performance Probleme, Kompatibilitäts-Probleme, Maintanance-Probleme... Und alles nur, damit man mehr Zeilen Code pro Monat erzeugen kann, da diese die "Produktivität" super abbilden können. Getreu dem Motto "Trust me bro! I'm CEO! I know what I'm talking about!".
 
  • Gefällt mir
Reaktionen: VYPA und TPD-Andy
steirerblut schrieb:
Aber bei Claude Code gibts imho ned viel zu holen, schaut man sich die Programming Benchmarks an läuft Opus 4.6 ja unter Claude Code am schlechtesten :D

Benchmark != Praxis. In praxisnahen Benchmarks wie "WE-bench Verified" toppt Claude die Liste und auch in der Praxis-Zuverlässigkeit liegt es vorne, „First-Try Correctness“ von ~ 95 %.

Du lässt dich an der Nase herumführen :D
 
Zuletzt bearbeitet:
Ich gehe auch davon aus das dies Anthropic Schaden wird, die Konkurrenz wird sich sich genau anschauen und seine Vorteil daraus ziehen. Für den Anwender ist das natürlich erstmal gut, generell toll das es sowas heutzutage gibt.
 
Oppenheimer schrieb:
Benchmark != Praxis. In praxisnahen Benchmarks wie "WE-bench Verified" glänzt Claude und auch in der Praxis-Zuverlässigkeit liegt es vorne, „First-Try Correctness“ von 95 %.

Du hast offensichtlich keine Ahnung von der Materie.
Wieso immer gleich Beleidigend werden? Ich dachte auf CB sind wir alle nett zueinander! Btw
1775051873533.png
 
Oppenheimer schrieb:
Benchmark != Praxis. In praxisnahen Benchmarks wie "WE-bench Verified" toppt Claude die Liste und auch in der Praxis-Zuverlässigkeit liegt es vorne, „First-Try Correctness“ von ~ 95 %.

Du lässt dich an der Nase herumführen :D
Praxisnahe Benchmarks != Praxis

Und da sieht es für Claude im Vergleich mit Codex aus eigener Erfahrung heraus schlecht aus.
 
steirerblut schrieb:

Das ist ein Terminal Benchmark und kein Coding-Benchmark. Claude Code ist auf Software-Entwicklung ausgelegt. Da es kein spezialisierter Terminal-Agent ist, wurde es für diesen spezifischen Benchmark einfach nicht optimiert.

Trotzdem musste das Gehirn (Opus 4.6) für Platz 1 herhalten, damit sollte alles beantwortet sein :D
Ergänzung ()


codengine schrieb:
Praxisnahe Benchmarks != Praxis

Und da sieht es für Claude im Vergleich mit Codex aus eigener Erfahrung heraus schlecht au

Was ist das für eine völlig unlogische Schlussfolgerung. Natürlich ist ein praxisnaher Benchmarks keine Praxis, aber immer noch näher bzw. am nächsten an der Praxis als ein nicht praxisnaher Benchmark.

Mal davon ab ist (d)eine schlechte anekdotische Evidenz, sowieso nichts wert.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: nipponpasi
Angesichts dessen wie von KIs mit freier Software umgegangen wird, gönne ich ihnen alles.
 
  • Gefällt mir
Reaktionen: OdinHades, Schokolade, Tornhoof und 6 andere
Klingt nach einem SuperGAU für Anthropic...
 
  • Gefällt mir
Reaktionen: TPD-Andy
Oppenheimer schrieb:
Das ist ein Terminal Benchmark und kein Coding-Benchmark. Claude Code ist auf Software-Entwicklung ausgelegt. Da es kein spezialisierter Terminal-Agent ist, wurde es für diesen spezifischen Benchmark einfach nicht optimiert.

Trotzdem musste das Gehirn (Opus 4.6) für Platz 1 herhalten, damit sollte alles beantwortet sein :D
Mal davon abgesehen das wir immer noch davon schreiben das selbe LLM in verschiedenen Code/CLI Harness auszuführen und 100x der selbe Code prompt zu wahrscheinlich 100 abweichenden Ausgaben führt; wie soll sich der reine Code Output des selben LLMs Qualitativ nach verwendeten CLI/Harness unterscheiden?
Also ich nutz Claude Code auch für SQL Prompts, Api Calls/Output, Logs, Dependency+Package Installs, Debugging, Builds, Docker Configs, Security Audits. Refactors, um zu Dokumentieren usw usf.
Mir persönlich wird schwindelig wenn ich Gemini CLI Zuschau wie er 10x hintereinander ein Select prompt gegen eine nicht existierende Datenbank absetzt und dabei Where Klauseln rotiert. :p
 
Da hat ein Unternehmen aber mal die Hosen runtergelassen
 
  • Gefällt mir
Reaktionen: TPD-Andy
Zurück
Oben