Bericht Die Ratatouille-KI: Claude Code im Langzeittest – wo es vibed und wo es hakt

sNo0k schrieb:
Jetzt wird also die Arbeit auf die Werkzeuge angepasst? Merkwürdige Entwicklung, normalerweise werden/wurden Werkzeuge entwickelt, um die Arbeit zu erleichtern.
Bald ist die KI der "Arbeiter", du bist dann nur das Werkzeug das die Prompts eingibt.
Es wird sicherlich Bereiche geben, die zum großteil von einer KI gemacht werden können.
Dann braucht man "nur" noch jemanden der die Befehle eingibt oder das Ding mit den entsprechenden Daten füttert.

Die Politik muss sich auch mal damit beschäftigen wie man langfristig damit umgehen soll.
Ich bin mir sicher, dass auch im öffentlichen Dienst mittelfristig viele Jobs verloren gehen könnten, wenn man die Dinge richtig digitalisiert, vereinheitlicht und dann noch auf KI setzt.
Deutschland kann sich auch nicht davor verstecken, sondern muss sich damit ernsthaft auseinandersetzen, ansonsten wird der Wasserkopf immer größer und wichtige Infrastruktur Projekte werden auf der Strecke bleiben.

Zum Thema:
Ich bin kein Programmierer, aber habe mir mal Cloude Code angeguckt und damit auch Kleinigkeiten erstellt.
Für interene Zwecke kann ich mir das sehr gut vorstellen.
 
  • Gefällt mir
Reaktionen: RedDragon83
Deutschland ist Safe - KI kann nicht faxen
 
  • Gefällt mir
Reaktionen: BornBad, RedDragon83, eastcoast_pete und eine weitere Person
Bright0001 schrieb:
Ich hab nichts von Fehlern gesagt.

Bright0001 schrieb:
Und wenn es dazu noch Kontext gibt, dann können alle Varianten komplett falsch sein
Deine Argumentation um Mehrdeutigkeit drehte sich um diese Schlussfolgerung. Das Wort "falsch" habe ich wohl überinterpretiert, das tut mir dann leid.

Bright0001 schrieb:
Und formale Sprachen existieren für dich gar nicht, oder wie darf man sich das vorstellen? :lol:
Mathematik ist keine Sprache. Dass sie Sprache benutzt, habe ich nicht bestritten. Warum das Strohmannargument "Mathematik" und jetzt "formale Sprachen" kommt, weiß ich nicht. Vielleicht erklärst du mal, wo dein Problem damit liegt anstatt rhetorische Fragen zu stellen, die nur beleidigend rüberkommen.
Ergänzung ()

Bright0001 schrieb:
Wo habe ich behauptet, Code wäre keine Sprache?
Ergänzung ()

Bright0001 schrieb:
Denn wenn man den Pfad geht, dann ist auch das Englische als solches nur ein Idiom der deutschen/germanischen Sprache.
Schlag erst einmal nach, was ein Idiom ist, bevor du Argumente umdrehst.
 
  • Gefällt mir
Reaktionen: KitKat::new()
Opus und Sonnet sind nicht schlecht, sie sind aber auch nicht super.
Da braucht es noch viel Optimierungsbedarf.
Beide haben ein Aufmerksamkeitsdefizit, sie vergessen strikte Regeln, wenn das Regelwerk zu komplex wird.
Damit mein ich nicht Kontextfenster, die sind mit 1M super.

Beide Modelle haben auch den Hang zur Ablaufoptimierung.
An sich nicht schlecht, aber es hakt dann, wenn man etwas vollständig analysiert haben möchte und die Modelle etwas nur exemplarisch auswerten und dann daraufhin Annahmen für den Rest treffen.

Gerade im Zusammenhang mit dem ADHS-Syndrom, was ich als erstes genannt habe, eine tödliche Kombo für gewissenhafte wissenschaftliche Auswertungen.

Oder bei Codedebugging, wo erst Analysen erfolgen sollen, dann Konzepte entwickelt, dann Umsetzung.
Wenn dann plötzlich das Modell trotz gegenteiliger expliziter Never-Regeln plötzlich mit Trial&Error noch in der Analyse-Phase beginnt, ist das mehr als kontraproduktiv.

In kleinen Projekten mag das nicht auffallen oder keinen Impact haben, aber bei Großprojekten macht es diese kaputt.

Beide Modelle haben auch den Hang zur Überoptimierung.
Da ist eine Routine im Quelltext kaputt, sie soll repariert werden. Das wird auch gemacht. Gleichzeitig bei Analyse sieht das Modell Potential in einer anderen, und plötzlich wird diese auch optimiert. Manchmal sogar kaputtoptimiert.

Und mehr vorgegebene Regel lösen das Problem nicht, sondern verschärfen es nur, siehe oben.

Danke also für den oberflächlichen Überblick. Ein richtiger Langzeittest war das auf jeden Fall nicht.
 
  • Gefällt mir
Reaktionen: Benj, sioh und Astorek86
Mal zwei Punkte aus meiner Praxis die zeigen, dass diejenigen, die die KI einfach machen lassen, üblen Mist programmieren. Gilt in meinem Beispiel für Claude Code, gilt sicher auch für andere. Und ja, ich weiss wie man gute Prompts formuliert und die .mds konfiguriert, ich arbeite täglich damit.

Wie schafft man Claude Code etwas an?
Wer von Softwareentwicklung keine Ahnung hat, kann Claude Code vielleicht sagen "Mach mir ein Eingabeformular mit diesen und jenen Fähigkeiten" oder "Schreib mir ein Skript, das dies und jenes tut", aber das hat mit Softwareenentwicklung so viel zu tun als würde ich behaupten ich wäre Mauerer, nur weil ich mich auf eine Baustelle stellen kann und die Anweisung gebe "hier will ich eine Mauer haben".
Wenn man zB Code für eine Datenbank produzieren lässt, dann sollte man schon ein wenig Bescheid wissen über Themen wie optimistic concurrency control, Limits der verwendeten Datenbank, etc etc

Was Claude Code produziert:
Bei einem Durchlauf hat mir Claude Code eine Konstante eigenmächtig auf den numerischen Wert "1" geändert. Das Programm funktioniert, aber wenn man Monate später die Konstante ändert funktioniert das Programm nicht mehr, und man muss suchen, woher der Bug kommt.

Oder: für ein simples Hinzufügen eines Dialogs mit einem Default-Button hat Claude Code extra ein Javascript programmiert, das den Default-Button "drückt". Warum macht Claude Code das so umständlich anstatt ins Framework eingebaute Mechanismen zu nehmen? Ganz einfach:

Das ist ein häufiges Muster bei codegenerierenden LLMs: Sie greifen eher zu imperativen Lösungen (Event-Listener hinzufügen, DOM manipulieren) als zu deklarativen (die eingebaute Fokus-Steuerung der Komponente konfigurieren), weil imperative Codebeispiele in den Trainingsdaten deutlich häufiger vorkommen und unabhängig von Framework-spezifischen Feinheiten ‚immer funktionieren'.

Fazit:
Wer die KI also einfach machen lässt, produziert am Ende seltsame Bugs, Sicherheitslücken und viel redundaten Code. Man muss Erfahrung haben, die KI anleiten und überwachen.
 
  • Gefällt mir
Reaktionen: Benj, Boerkel, Brrr und eine weitere Person
Es hilft auch explizit am Ende einer Aufforderung zu fragen, ob die Infos ausreichend sind um die Aufgabe zu erfüllen. Das vermeidet, das sich die KI einfach was ausdenkt um die Lücken zu füllen und dich stattdessen fragt.
 
Drahminedum schrieb:
Was Claude Code produziert:
Bei einem Durchlauf hat mir Claude Code eine Konstante eigenmächtig auf den numerischen Wert "1" geändert. Das Programm funktioniert, aber wenn man Monate später die Konstante ändert funktioniert das Programm nicht mehr, und man muss suchen, woher der Bug kommt.

Oder: für ein simples Hinzufügen eines Dialogs mit einem Default-Button hat Claude Code extra ein Javascript programmiert, das den Default-Button "drückt". Warum macht Claude Code das so umständlich anstatt ins Framework eingebaute Mechanismen zu nehmen? Ganz einfach:

Das ist meiner Erfahrung nach hauptsächlich ein Problem mit Claude KIs. Die nehmen gern Abkürzungen und ändern Dinge die gar nicht nötig sind bzw. die nicht geändert werden sollen.

Das passiert mir mit GPT-Modellen und Reasoning high/xhigh so gut wie gar nicht. Dafür plane ich mit Opus 4.6 lieber.
 
Ich habe da die andere Erfahrung. Claude editiert tatsächlich den Code (wobei er sich dabei auch mal irrt), während die anderen jedesmal den ganzen Code neu generieren. Aber die Erfahrung ist auch schon wieder 3 Monate alt. Vielleicht hat sich das schon wieder geändert.
 
jonathansmith schrieb:
...die besten Methoden für zuverlässigen Output sind:
  • Workflows für KI definieren die Planung, Implementierung, Review (mit eigenen Anweisungen für Checks ob die Implementierung dem Plan und den Anforderungen entspricht, Sicherheitsprüfung, etc.) in einer Loop beinhalten.
  • Skills für unterschiedliche Aufgaben
  • Klare Vorgaben via Agents.md + Hilfsdateien wie die Codebase zu navigieren ist

Mit welchen Tools machst du das?
 
KI ist ja nicht so einfach wie man denkt, es gibt tausend Dinge die schiefgehen können. Wenn man Workflows und Pläne erstellt, kann das helfen, aber es ist immer noch ein Risiko, dass was falsch läuft. Es ist wichtig, dass man die Sicherheitsprüfungen und Reviews ernst nimmt, sonst kann man schnell in Schwierigkeiten geraten.
 
Bin gespannt, wie man das ganze in fünf Jahren im Rückblick bewertet.

Ich nutze auch regelmäßig Opus 4.6 für die Entwicklung. Ist beeindruckend, was alles geht, wenn man die richtigen "Knöpfe" drückt. Besonders für rapid prototyping ne tolle Sache oder private "geht das"-Projekte.

Muss aber ehrlich sagen: Mir macht meine Arbeit dadurch viel weniger Spaß.
Wenn der Weg dahin geht, dann ist das so und ich werd am Ball bleiben, weil es noch weit bis zur Rente ist. Aber einfach ne Horde Agenten zu koordinieren und trotzdem die Verantwortung für den Code zu tragen: Da kann ich auch ins Management oder die Teamleitung gehen...
 
  • Gefällt mir
Reaktionen: Benj und Brrr
Bei uns in der Arbeit ist es für alle noch stressiger geworden. Viele berichten, dass sie am Ende des Tages noch deutlich kaputter sind als früher.

Früher war der Stress irgendetwas nicht rechtzeitig zu schaffen, weil es länger dauert oder schwerer ist als gedacht. Heute coded man drei Prototypen gleichzeitig statt sich bei einem Design zu verlaufen. Hat x Session parallel laufen, da Claude auch immer Zeit braucht und man während dessen 5 andere Sachen startet. Heute hat man Stress weil man ohne Pause viel schaffen kann, aber kaum den Überblick halten kann.


Mir macht es einersetis Spass weil man weniger mit frustrierendem Debugging oder coden beschäftigt ist und einfach mehr Machen kann, aber andererseits arbeiten wir schwer daran uns selbst überflüssig zu machen. Klar das war zum Teil immer so in Software, aber es geht nun so rasend schnell, dass ich mich Frage wann haben wir alles erledigt und was tun wir dann.
Gerade Bürokraten/Büroangestellt in relativ langweiligen aber einfachen Rollen werden durch eine rasende Digitalisierung und Automatisierung nicht komplett überflüssig werden aber eventuell braucht es 5 gute statt 25 Leute. Die 5 guten, haben es noch eine Weile halbwegs gut, die 20 schlechten sitzen im Boot mit vielen anderen aus anderen Unternehmen die auch keiner braucht.

Die positive Sicht, sieht eine rasende Digitalisierung (die wir uns im öffentlichen Dienst immer schon gewünscht hätten). Jobs die sich mehr auf das interessante konzentrieren können, da die langweiligen Admistrativen Aufgaben von einem Handwerker z.B. einfach die "AI" Sekretär erledigt. Am Ende steigt die Produktivität und es boomt wie nie zuvor. (Eventuell schafft es Microsoft wieder gute Software zu produzieren, oder Linux + AI ersetzt den Koloss)

Die negative Sicht, sieht gewaltige Teile der Gesellschaft die umschulen müssen, aber zuerst der Teil dem es am schwersten fällt (war immer so, aber nicht in wenigen Monaten). Die Kluft zwischen Eliten und Abgehängten wird schnell wachsen. Am Ende kommt der Kaufkraftverlust der Abgehängten aber auch in der Wirtschaft an und trifft alle. Gepaart mit Inflation da nur mehr für wenige Reiche produziert wird, der Rest aus dem Wirtschaftsleben austritt. Dann kommt eventuell der Gesellschaftliche Umbruch in welcher Form auch immer.
 
  • Gefällt mir
Reaktionen: Drahminedum, Benj und Brrr
matschei schrieb:
Mit welchen Tools machst du das?
The Agents.md und Skills hab ich mir selbst zusammengebaut. Das war Learning by doing - immer wenn etwas nicht gepasst hat, habe ich nachgearbeitet, sodass es beim nächsten mal besser funktioniert hat.

Für den Workflow gibt es inzwischen viele verschiedene Lösungen. Such mal nach Ralph-Loop, Spec Kitty, Agent OS und CLIO - Command Line Intelligence Orchestrator. Gibt noch unzählige andere, aber mit diesen Dingen hatte ich gute Erfolge.

Man muss Zeit investieren damit es rund läuft, aber es zahlt sich aus.
 
  • Gefällt mir
Reaktionen: Moerf und matschei
duskkk schrieb:
Die Kluft zwischen Eliten und Abgehängten wird schnell wachsen
Diese Kluft wächst seit den 80ern massiv.
Die Schere geht immer schneller immer weiter auf.
duskkk schrieb:
Dann kommt eventuell der Gesellschaftliche Umbruch in welcher Form auch immer.
Das ist bisher nicht passiert und wird auch nicht passieren. Nur weil sich ein Paar Millionen dazu gesellen und aus 90%+ Abgehängten nun 90%+X Abgehängte werden? Da glaube ich nicht dran.
 
Mag sein dass Claude und ChatGPT grade die heißesten Modelle am Markt sind, aber das ausprobieren ausserhalb dessen was M365 schon mitliefert ist verdammt nervig.
Warum braucht jeder Verdammte Account heutzutage eine Handynummer wo doch SMS am sterben sind?
Zweiter Faktor geht auch bequemer. Schickt mir ne Mail, lasst mich meine Authenticator App des Vertrauens nehmen. Wie rückständig ist das denn?
 
Bright0001 schrieb:
heißt selbst wenn das Ergebnis tatsächlich wie gewünscht funktioniert, kann man sich damit trotzdem eine Menge technischer Schulden einhandeln, die den eigentlichen Implementierungsaufwand übersteigen.
Wenn die Grenzkosten für Software gen 0 gehen (und dafür gibt es ja zumindest Indizien), dann ist der Schritt nicht mehr soweit Software nicht mehr zu warten, sondern "einfach" neu zu erstellen. Dann verschieben sich die Kosten in systemische Implementierung, prozessuale Integration, Nutzerschulungen, ... In der Vergangenheit nannte man das Entwicklung. Oder anders ausgedrückt, der Computer hilft uns Probleme zu lösen, den wir ohne ihn gar nicht hätten.
 
Zurück
Oben