Bericht Die Ratatouille-KI: Claude Code im Langzeittest – wo es vibed und wo es hakt

konkretor schrieb:
Ich nutze das mittlerweile um Ansible und Bash Skripte zu bauen und zu nutzen. Was ich früher Tage oder Stunden brachte bekomme ich jetzt in Minuten. Für mich ist das Arbeitserleichterung.
Testsystem für solche Dinge ist Pflicht.
Kannst du mal konkret sagen wie das Testsystem aussieht? Einfach nen Container? Welches Sprachmodell nutzt du für diese Aufgaben?
 
Vigilant schrieb:
Die eigentliche Bedeutung des Begriffes wird hier verwendet, um bspw. ausdrücken, dass KI, Ressourcen und Wissen aus den Händen weniger Experten und Großkonzerne gelöst werden (sollten), um sie einer breiten Masse zugänglich zu machen.

Tatsaechlich gehoeren die Softwareentwicklungs-LLMs wenigen Grosskonzernen, und die arbeiten alle hart daran, dass die anderen Grosskonzerne aus dem Rennen aussteigen muessen, es wird also am Ende ein dominierender Grosskonzern sein, der den Markt fuer Softwareentwicklungs-LLMs beherrscht. Und dieser Grosskonzern macht das diese Faehigkeit dann fuer viel Geld denen zugaenglich, die es sich leisten koennen. Gleichzeitig verlernen die existierenden Softwareentwickler das Handwerk oder sterben, waehrend sich der potentielle Nachwuchs angesichts der Konkurrenz durch das LLM lieber mit etwas anderem beschaeftigt. Wir sehen also eine Entwicklung, in der eine Faehigkeit, die jetzt eine betraechtliche Anzahl Menschen hat, in den "Haenden" eines Grosskonzerns konzentriert werden wird. Zumindest falls die LLMs so gut werden wie diejenigen prophezeien, die an sie glauben.
 
  • Gefällt mir
Reaktionen: Vigilant, Brrr und metoer
Was aktuell ganz passabel mit GitHub Copilot funktioniert für C# ist mit GPT 5.4 xHigh zu planen, dann mit Claude Opus 4.6 zu reviewen und vice versa, dann mit GPT zu implementieren. GPT erzeugt "moderneren" C# Code, versteht an Stellen besser was zb DI machen kann und soll, verläuft sich aber gerne in irgendwelchen inheritance Monstern mit x Schnittstellen und Typhierarchien. Ich sag mal typischer Enterprise Code. Claude ist da etwas linearer, der direkte c# ist etwas klassischer aber ohne die Unmengen an indirektion.

Ansonsten, die Visual Studio Integration kann man komplett vergessen, die ist Monate hinterher, da kann man zb immernoch nicht den Reasoning Level einstellen und Medium (Default) bei GPT 5.4 ist zu nichts zu gebrauchen was auf brauner Wiese aufsetzt.
Ich mache aktuell alles über Copilot cli, das Code Review Konzept von oben ist seit heute in Experimental gelandet aber nur für Claude aktuell, mal sehen wann das allgemein verfügbar wird.
 
Boimler schrieb:
Man muss hier aber kritisch anmerken, dass "Demokratisierung" von den Tech-Oligarchen gerne benutzt wird, um zu kaschieren, dass sie selbst keinerlei Filter, Regelungen oder Restriktionen in ihre Programme einbauen. Hier herrscht bei den Jensens, Musks und Bezos' einfach die Hybris vor sowohl Technologiestifter wie "Herrscher" sein zu können.
Keine Filter = Herrschaft der Erschaffer, okay notiert.
Boimler schrieb:
Wenn man sich Kunstschaffende anschaut oder Menschen, die in sozialen Berufen arbeiten, sieht man da wenig positiven Einfluss der KI und auch keine Demokratisierung im Sinne des Abbaus von Hierarchien.
Ähh okay.
Boimler schrieb:
Kunst verliert ihren Sinn, wenn jeder zu Hause für sich seine Fantasien mit KI erstellen kann.
Das muss man sich erstmal auf der Zunge zergehen lassen.
Boimler schrieb:
Und wenn ich mir anschaue, dass mit der Technik gerade vor allem Schlipsträger entlastet werden, frage ich mich, wer eigentlich kommerziell KI im Gesundheitsbereich voranbringen möchte, um auch der Krankenschwester, dem Pfleger oder dem geistig behinderten Menschen das tägliche Leben zu erleichtern.
Nur mal so, da es sich ja durch deinen Beitrag zieht, da die KI nicht in den von dir erwähnten Bereichen hilft, ist sie nicht was? Sinnvoll? Demokratisch?
 
Booth schrieb:
Demokratisierung bedeutet, an Macht-Prozessen in der Gesellschaft teilnehmen.
Und genau hier liegt das Problem. Die fünf großen kommerziellen Anbieter haben mit Demokratie eher wenig am Hut. Das einzige was dem entgegenwirken kann, ist die konsequente lokale Nutzung von echten Open-Weight-Modellen in so einfach zu bedienenden Umgebungen wie dem Browser.

Leider bevorzugt die Mehrheit aber mal wieder den Komfort und begibt sich in die gleichen behinderten Abhängigkeiten wie sonst auch. Und leider wird durch das umherschieben von hunderten an nicht wirklich existenten Milliarden der Markt so hart manipuliert, das die Kostenhürde für vernünftig lokal betreibbare KI für viele nicht zu bewältigen ist.

Klar gibt AnthingLLM, LM-Studio, aber die guten Modelle brauchen einfach noch zu viel Speicher. Vielleicht ändert sich mit verbesserter Quantisierung irgendwann, aber bis dahin muss man entweder für Hardware Innereien verkaufen, oder man zahlt in Raten direkt bei den Gatekeepern.
 
Boimler schrieb:
Kunst verliert ihren Sinn, wenn jeder zu Hause für sich seine Fantasien mit KI erstellen kann.
Glaub, du hast Kunst nicht verstanden. Meine ehemaligen Kunstlehrer würden bei der Aussage weinen.
 
Ich bin derzeit wieder bei klassischen Chatfenster gelandet.
Die KI-Agenten funktionieren gut bei kleinen Projekten die man früher mit Baukastensystemen umgesetzt hätte aber für eine größere Codebasis passt es bei mir nicht.

Da geht es besser im Chat einzugeben was man möchte mit entsprechenden Paste aus der Codebasis und dann die Funktion oder den Code Teil zurück zu kopieren. Am Ende muss man ja den Code sowieso im Kopf haben und wenn man das nicht macht muss ich nachlesen was gemacht wurde


Und die Agenten machen meist nicht das was ich gerne hätte.

Aber es ist hoffentlich auch nur eine Frau der Zeit bis das besser funktioniert.
 
Ich sehe mir das Schauspiel weiter aus der Ferne an. Solange Daten in die Cloud wandern, um sinnvolle Agent Funktionen zu betreiben, belasse ich es auch beim zuschauen. Ich nutzte auch KI (Ollama für mein paperless-ngx um Dokumente zu taggen usw.), da verlässt aber auch nichts mein Netz
 
Booth schrieb:
Zum Artikel:
Mal wieder viel zu unkritisch. In einem Absatz wird gar die absurde Behauptung aufgestellt, es gäbe keine "Halluzinationen", aber es gab Fehler. Jeder Fehler ist im Prinzip eine Halluzination. Gerade der Absatz mit Excel fand ich gruselig. Das besondere an ALLEN bisherigen, klassischen Apps ist: Wir alle erwarten 100% Fehlerfreiheit. Man überlege sich bei einer Liste mit 1000 Einträgen, die ich per Pivot anpasse, dass ich alle 1000 Zeilen überprüfen muss, weil vielleicht in Einzelfällen eine Mehrwertsteuer (wie im Artikel) falsch berechnet würde. Das könnte katastrophal enden.

Und DAS würde ich von einem kritischen Artikel erwarten. Nicht Vibe Coding weil es sich geil anfühlt! Sondern eine gewissenhafte Untersuchung auf Fehlerfreiheit. Offenbar ist hier kaum jemand im IT Raum bereit. Wieso? Ich habe keine Ahnung. Das wäre meine Frage an den Autor.
Bei der Excel-Tabelle mit der doppelten MwSt war das Problem, dass ich wegen Formatierung rumgehackt habe, was dann zum Fehler führte. Ist für mich jetzt keine klassische Halluzination im Sinne von: Da wurden Zahlen komplett erfunden. Sondern eher eine Art "Bedienungsfehler". Von daher habe ich versucht zu, zu differenzieren, auch wenn man KI-Fehler im Kern natürlich immer als Halluzination werten kann.

Klar ist aber, dass du einen zentralen Punkt bei der Arbeit mit den Agenten beschreibst. Und das Problem spreche ich ja auch im Artikel an. Beim Lesezeichen-Manager nenne ich ja ebenfalls Vertrauen als kritischen Punkt, später zitiere ich den Entwickler Willison mit der Aussage: Bei Software kann man prüfen, ob sie läuft. Was macht der Anwalt?

Von meinen Tests kann ich immerhin sagen, dass ich in meinem alltäglichen Excel-Betrieb (abgesehen von den zwei genannten) keine Auffälligkeiten entdeckt habe. Es lief wirklich so erstaunlich gut, dass ich den Artikel nicht wie geplant Mitte März fertiggestellt habe, sondern noch 2-3 Extrarunden gedreht habe. Sehr komplexe Analysen betreibe ich aber nicht, eher Wald-und-Wiesen-Office. Und schon da ist es wirklich erstaunlich, wie sehr die Tools einem die Arbeit erleichtern.

Knackpunkt wird meiner Ansicht künftig sein: Wer haftet für Fehler der Agenten bei komplexen Analysen? Vor allem, wenn die ab einem gewissen Punkt noch Fehler machen sollte, aber weniger als Menschen. Ich tippe auf einige Auseinandersetzungen und mein Verdacht ist, dass künftig vor allem Leute profitieren, die in ihrem jeweiligen Bereich so erfahren sind, dass sie Agenten-Ergebnisse solide bewerten können.
 
Zurück
Oben