Bericht Die Ratatouille-KI: Claude Code im Langzeittest – wo es vibed und wo es hakt

Codex & Claude Code sind schon jetzt hervorragende Entwicklungswerkzeuge. Mein Output hat sich mit passenden Workflows vervielfacht.

Zugegeben, es war eine kleine Lernkurve alles so einzurichten, dass man nicht ständig nacharbeiten muss, aber jetzt habe ich alleine den Durchsatz den vorher 10 Entwickler hatten. Wenn nicht mehr.

Ich arbeite nebenbei in meiner Freizeit an Projekten, die ich schon seit Jahren umsetzen will, wofür mir aber die Zeit gefehlt hat. Und im Berufsleben geht es auch wesentlich zügiger voran, ohne dass die Qualität leidet.

Und das ist erst der Anfang. Ich gehe davon aus, dass der nächste große Punkte der mit KI-Coding gelöst werden wird, die Architektur-Mängel sind, die jetzige Modelle noch produzieren, wenn man keine klaren Vorgaben macht.

Nein, nicht jeder kann mit diesen Agents Software erstellen, aber wir nähern uns mit schnellen Schritten dem Punkt wo das durchaus möglich sein wird. Aber schon jetzt ist reines Code-Schreiben de facto gelöst und jeder der etwas anderes behauptet lügt oder hat sich nicht ernsthaft mit Coding-Agents wie GPT 5.4 oder Claude Opus auseinandergesetzt (und glaubt wir hängen noch immer bei grottigem GPT 4o Code-Output fest).
 
  • Gefällt mir
Reaktionen: njal, [wj] und Micha-
sNo0k schrieb:
Jetzt wird also die Arbeit auf die Werkzeuge angepasst? Merkwürdige Entwicklung, normalerweise werden/wurden Werkzeuge entwickelt, um die Arbeit zu erleichtern.
Was ist daran merkwürdig? Wenn ein Unternehmen ein ERP System einführt, ist es auch sinnvoller, dass sich die Arbeit daran anpasst und nicht das man die Prozesse von Papierakten in das neue System überträgt. Das hört sich eher nach dem Motto an: Das haben wir schon immer so gemacht und daran wird sich nichts ändern.
 
  • Gefällt mir
Reaktionen: butchooka und jonathansmith
zett0 schrieb:
Was ist daran merkwürdig?
Dass Prozesse auf neue Werkzeuge angepasst werden ist völlig normal.
Hier klingt aber für mich durch, dass mit der Brechstange versucht wird, (sinnvolle) Anwendungszwecke zu finden, es also nicht um Arbeitserleichterung geht, sondern "irgendwas" zu finden, bei dem man LLMs nutzbringend einsetzen kann...

getreu dem Motto: "Für jede Schraube gibt es den richtigen Hammer" 🙄
 
Da konstruierst du dir aber was. Deine Arbeitsweise musstest du immer schon anpassen. Neue Sprache, IDE, APIs, etc
 
Micha- schrieb:
Inzwischen arbeite ich an einem Programm für meine Abteilung, das nur noch von der KI gecodet wird. Kein Copy & Paste mehr. Das wäre viel zu zeitraubend und fehleranfällig.

Ich versuche das auch immer wieder, aber die KI macht bei großer Codebasis Fehler rein die ich ausbessern muss womit ich am Ende länger beschäftigt bin (ich verwende derzeit Junie (jetbrains) und Gemini.

Wie groß ist deine Codebasis in etwa?
Und wie gehst du dabei vor?
 
Die Security-Issues mit OpenClaw und der Memory.md haben mich davon weggebracht.

Ich experimentiere gerne mit lokaler KI via llama.cpp-hip (shell-starter) und lm-studio (Qwen3.5 9B, 27B) sowie mcp-server via 'npm install', also auch lokal. Auch hier ist mir nicht immer klar was da gerade passiert, wenn man den lazy-mode aktiviert - aber die Tools die man damit erstellen kann sind so enorm hilfreich, das man nur an den System-Prompts herumdoktor'n muss (idiomatischer Code, .gitignore, Readme, shell-starter etc.) um echt brauchbare Ergebnisse zu bekommen.

Ich nutze lokale KI auch zum Log-Lesen via grep-awk-template für die idempotenz und einer DeSkilling-GUI - sowie als Analyse-Tool im Allgemeinen. Darin ist Qwen einfach unschlagbar. Ebenso in Tools wie Obsidian. Das macht sogar Spass - und auch ein bisschen Arbeit (wegen der Formatierung der .md's).

Die Cloud-KI ist für mich eher ein Chatbot, der mich über Dinge aufklärt oder Youtube-Videos analysiert und kompakt wiedergibt (Gemini).

Sollten sich die lokalen Modelle in der selben Geschwindigkeit verbessern wie bisher, dann werden diese Aufgaben in Zukunft von noch kleineren Modellen bereits wahrgenommen - also auch lokal. Das wäre mein Wunschzustand.
 
  • Gefällt mir
Reaktionen: Quantität
matschei schrieb:
Ich versuche das auch immer wieder, aber die KI macht bei großer Codebasis Fehler rein die ich ausbessern muss womit ich am Ende länger beschäftigt bin (ich verwende derzeit Junie (jetbrains) und Gemini.
Ich arbeite mit Claude und habe das Projekt bewusst in einzelne Module unterteilen lassen. Jede Funktion hat sein eigenes Modul und ist weitgehend unabhängig. Das vermeidet schon mal, das mehr als eine Funktion "kaputt" geht. Nervig sind Design Geschichten. Eine komplexe Datenbankoperation ist ruckzuck fertig, aber die Formatierung der UI zu ändern ist wie das einreden auf ein kleines Kind.

Aktuell: 33Module mit ~9.900 Zeilen
 
  • Gefällt mir
Reaktionen: matschei
Bright0001 schrieb:
@Boimler Ein merkwürdiger Beitrag. Du behauptest ich läge falsch, nur um dann in anderen Worten fast das gleiche zu sagen. :freak:
Man kann ja gleicher Meinung sein und trotzdem von verschiedenen Seiten her dazu kommen. Ich behaupte lediglich, dass das, was du als "Fehler" beschreibst, in der natürlichen Sprache als "Metapher" oder "Trope" gesehen wird und das Grundgerüst der Sprache ausmacht. Ein Missverständnis unter Menschen ist kein Fehler in der Sprache ;). Das ist übrigens auch Konsens in der Literatur- und Sprachwissenschaft, aus der ich - jedenfalls teilweise - komme.

Bright0001 schrieb:
Mathematiker schreiben auch Formeln die verstanden werden wollen, damit ist Mathe aber kein Superset der natürlichen Sprache.
Mathematik ist eine Strukturwissenschaft und keine Sprache. Die Mathematik hatte schon immer ein großes Dilemma, weil sie sprachliche Zeichen benutzen muss (die immer mehrdeutig sind), um eindeutige Sachverhalte zu beschreiben. Schön dargelegt in diesem Buch. Was du mit "verstehen wollen" beschreibst, ist genau das Problem: Wer kein Deutsch kann und griechische Buchstaben nicht gelernt hat, versteht eine mathematische Formel im Schulbuch genau so wenig wie die Hieroglyphen - der Unterschied zwischen der Formel und der ägyptischen Sprache erschließt sich nur aus dem Kontext, ansonsten sind sie sprachlich das gleiche.

Bright0001 schrieb:
All das bekommst du in einer Programmiersprache syntaktisch nicht äquivalent abgebildet, was auch der These widerspricht, dass die natürliche Sprache Teilmenge der Programmiersprachen ist.
Dann hast du mich falsch verstanden: Code ist einfach ein Idiom der natürlichen Sprache und die Eindeutigkeit ist nur dadurch gegeben, dass der Empfänger (der Computer) eine mathematische Syntax benutzt, die für gleiche Eingaben gleiche Produkte erzeugt. Das, was du da eingibst, kann aber von einem Menschen komplett anders verstanden werden, vor allem, wenn er kein Programmierer ist. Was passiert, wenn selbst Programmierer nicht mehr lesen können, was sie schreiben, sieht man übrigens schön an den Voyager-Sonden. Da werden inzwischen junge Programmierer von den alten Hasen ausgebildet, weil der Code zwar unglaublich simpel, aber eben ohne Vorkenntnisse missverständlich ist - Sprache eben ;).
 
@Andy : Kleiner Typo bei "Jedes Mail ..."
Ergänzung ()

Zum Thema gefragt: Interessiert euch Datenschutz/Informationsschutz dabei? Alle Prompts, jeder Code als Context wird doch mit hochgeladen und von den Anbietern geloggt und später dann auch wieder zum Training genutzt. Führt das zu keinem Problem bei euch? Vor allem im beruflichen Umfeld?
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Andy
@sNo0k

Was du beschreibst, erlebe ich so bei den herkömmlichen GenAI-Chatbots. Wenn das Prompten länger als die eigentliche Aufgabe benötigt, nutzt mir KI-Automatisierung nichts. Bei den Agenten ist das anders, da habe ich jetzt schon mehrere Office-Aufgaben identifiziert, bei denen ich teils mehrere Stunden Arbeitszeit einspare. Also beispielsweise Routine-Aufgaben, bei denen man Daten händisch aufbereiten muss.

Nur klappt es auch nicht alles auf Knopfdruck. Man muss sich schon überlegen, wie man die Tools einsetzt, um wirklich einen Produktivitätsgewinn zu haben und auch ein vernünftiges Ergebnis. Das war das, was ich mit der Passage gemeint habe.
 
  • Gefällt mir
Reaktionen: sNo0k
@ich_nicht

Die ausführliche Kritik mit glasklarer Fehleranalyse hilft @Andy und uns anderen krass weiter.

Richte deinem Bruder Dank aus.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Moerf, the_IT_Guy, Neubauten und 4 andere
wer das jetzt nicht lernt bereuts in 1-2 jahren, soviel kann ich euch sagen.

aber: solche agents laufen in einer vps maschine, abgesichert, nicht lokal. mietserver ist ideal.
 
@Bright0001 bisher ist ein 3rd Party Tool. Kannst damit alles machen, Skripte, Logiken usw. Sogar sagt mir Claude wo ich was an welche Position platzieren muss, wenn ich etwas nachbaue aus einem anderem Game z.B. , also komplette Mapdaten.
 
  • Gefällt mir
Reaktionen: Bright0001
Alphanerd schrieb:
@ich_nicht

Die ausführliche Kritik mit glasklarer Fehleranalyse hilft @Andy und uns anderen krass weiter.

Richte deinem Bruder Dank aus.
Ich höre mir noch die 50 min sprachnachricht von meinem Bruder an. Ich berichte 😉
 
  • Gefällt mir
Reaktionen: Alphanerd
Boimler schrieb:
Man kann ja gleicher Meinung sein und trotzdem von verschiedenen Seiten her dazu kommen. Ich behaupte lediglich, dass das, was du als "Fehler" beschreibst, in der natürlichen Sprache als "Metapher" oder "Trope" gesehen wird und das Grundgerüst der Sprache ausmacht. Ein Missverständnis unter Menschen ist kein Fehler in der Sprache. Das ist übrigens auch Konsens in der Literatur- und Sprachwissenschaft, aus der ich - jedenfalls teilweise - komme.
Ich hab nichts von Fehlern gesagt.

Aber seis drum: Das Beispiel der Ambiguität des Personalpronomens ist also
  • Korrekt,
  • Eine Metapher/ein Trope,
  • Macht das Grundgerüst der Sprache aus,
  • Und auch grundsätzlich nicht falsch, obwohl es objektiv suboptimal ist und zu tatsächlichen (und vermeidbaren) Missverständnissen führt.
Steile Thesen. Aber als Mann von Fach fällt es dir sicher leicht, diese zu belegen.

Boimler schrieb:
Mathematik ist eine Strukturwissenschaft und keine Sprache.
Und formale Sprachen existieren für dich gar nicht, oder wie darf man sich das vorstellen? :lol:

Aber dann lass uns doch zuerst eine gemeinsame Basis schaffen, damit wir über die gleiche Sache reden. Ich folge bei "Sprache" der Definition des Dudens:

4. a) (historisch entstandenes und sich entwickelndes) System von Zeichen und Regeln, das einer Sprachgemeinschaft als Verständigungsmittel dient; Sprachsystem

b) System von Zeichen (das der Kommunikation o. Ä. dient)

Beispiele:
  • Programmiersprachen und andere formalisierte Sprachen
  • die Sprache der [formalen] Logik
Und jetzt du. :lol:

Boimler schrieb:
die Eindeutigkeit ist nur dadurch gegeben, dass der Empfänger (der Computer) eine mathematische Syntax benutzt, die für gleiche Eingaben gleiche Produkte erzeugt.
Boimler schrieb:
Na hoppala, widersprichst du dir da etwa? Mathe ist doch gar keine Sprache, so zumindest dein Wortlaut. :hammer_alt:

Boimler schrieb:
Code ist einfach ein Idiom der natürlichen Sprache
Nein. Wenn du so was behauptest, dann musst du auch aufzeigen, worauf die Aussage aufbaut, anstatt das wie einen Fakt hinzustellen. Man kann gut und gern behaupten, dass Code seine Wurzeln in der natürlichen Sprache hat (was erneut eine steile These wäre, schaut man sich BASIC und co an) - ändert nur nichts. Denn wenn man den Pfad geht, dann ist auch das Englische als solches nur ein Idiom der deutschen/germanischen Sprache.

... und wenn du dem zustimmst, dann sprichst du tatsächlich ein anderes Deutsch als alle anderen. :P
 
Ned Flanders schrieb:
Im Grunde ist das nicht weniger als die Demokratisierung der Softwareentwicklung. Jeder, wirklich jeder kann Programme erstellen, die helfen ihre oder seine Probleme zu lösen.
Bin da gegenteiliger Meinung. Es wird bald nur noch mit AI-Unterstützung möglich sein, sinnvoll zu coden, weil man ohne einfach nicht mehr mithalten kann. Und AI-Unterstützung kostet Geld, und das schließt arme Menschen bzw. Kinder aus strukturschwachen Familien dann einfach aus. So gerne ich es nutze und es meine eigene Produktivität in diesem Bereich verhundertfacht: Das sind keine guten Entwicklungen.
 
  • Gefällt mir
Reaktionen: sioh und butchooka
matschei schrieb:
Ich versuche das auch immer wieder, aber die KI macht bei großer Codebasis Fehler rein die ich ausbessern muss womit ich am Ende länger beschäftigt bin (ich verwende derzeit Junie (jetbrains) und Gemini.

Wie groß ist deine Codebasis in etwa?
Und wie gehst du dabei vor?

Die Frage ging zwar nicht an mich, aber die besten Methoden für zuverlässigen Output sind:
  • Workflows für KI definieren die Planung, Implementierung, Review (mit eigenen Anweisungen für Checks ob die Implementierung dem Plan und den Anforderungen entspricht, Sicherheitsprüfung, etc.) in einer Loop beinhalten.
  • Skills für unterschiedliche Aufgaben
  • Klare Vorgaben via Agents.md + Hilfsdateien wie die Codebase zu navigieren ist

Damit habe ich in den letzten Monaten ohne eine Zeile Code zu schreiben und mit nur geringer Fehlerquote ein internes Tool für unsere Firma entwickelt das inzwischen ca. 250.000 LOC hat.

Das größte Problem ist inzwischen nicht mehr, dass der Code nicht das macht was ich möchte oder Fehler hat, sondern die Frage, ob das Modell die Anforderung richtig verstanden hat. Daher fällt die Planungsphase inzwischen umfangreicher aus als zu Beginn wo die Codebase kleiner war. D.h. ich hinterfrage den Plan gezielt und die KI aktualisiert ihn auf Basis meiner Fragen und Hinweise.

Ebenfalls nützlich: Unterschiedliche Agents für unterschiedliche Aufgaben verwenden. Ich verwende Claude Opus, GPT 5.4 und GPT 5.3 Codex für unterschiedliche Aufgaben um das für mich bestmögliche Ergebnis zu erhalten. Zugriff auf verschiedene Tools via MCP Server ist ebenfalls nützlich.

War eine Lernkurve bis hier hin zu kommen, aber hat sich ausgezahlt. Mein Output hat sich bei mindestens gleichbleibender Qualität vervielfacht. Und wenn ich ganz ehrlich bin, sind nicht wenige Dinge sogar besser als wenn ich es selbst gecodet hätte - sowohl vom Code selbst als auch von den Lösungswegen.
 
  • Gefällt mir
Reaktionen: Moerf, matschei und njal
Zurück
Oben