Bericht Die Ratatouille-KI: Claude Code im Langzeittest – wo es vibed und wo es hakt

mae · 4. April 2026

Vigilant schrieb:
Die eigentliche Bedeutung des Begriffes wird hier verwendet, um bspw. ausdrücken, dass KI, Ressourcen und Wissen aus den Händen weniger Experten und Großkonzerne gelöst werden (sollten), um sie einer breiten Masse zugänglich zu machen.

Tatsaechlich gehoeren die Softwareentwicklungs-LLMs wenigen Grosskonzernen, und die arbeiten alle hart daran, dass die anderen Grosskonzerne aus dem Rennen aussteigen muessen, es wird also am Ende ein dominierender Grosskonzern sein, der den Markt fuer Softwareentwicklungs-LLMs beherrscht. Und dieser Grosskonzern macht das diese Faehigkeit dann fuer viel Geld denen zugaenglich, die es sich leisten koennen. Gleichzeitig verlernen die existierenden Softwareentwickler das Handwerk oder sterben, waehrend sich der potentielle Nachwuchs angesichts der Konkurrenz durch das LLM lieber mit etwas anderem beschaeftigt. Wir sehen also eine Entwicklung, in der eine Faehigkeit, die jetzt eine betraechtliche Anzahl Menschen hat, in den "Haenden" eines Grosskonzerns konzentriert werden wird. Zumindest falls die LLMs so gut werden wie diejenigen prophezeien, die an sie glauben.

Tornhoof · 4. April 2026

Was aktuell ganz passabel mit GitHub Copilot funktioniert für C# ist mit GPT 5.4 xHigh zu planen, dann mit Claude Opus 4.6 zu reviewen und vice versa, dann mit GPT zu implementieren. GPT erzeugt "moderneren" C# Code, versteht an Stellen besser was zb DI machen kann und soll, verläuft sich aber gerne in irgendwelchen inheritance Monstern mit x Schnittstellen und Typhierarchien. Ich sag mal typischer Enterprise Code. Claude ist da etwas linearer, der direkte c# ist etwas klassischer aber ohne die Unmengen an indirektion.

Ansonsten, die Visual Studio Integration kann man komplett vergessen, die ist Monate hinterher, da kann man zb immernoch nicht den Reasoning Level einstellen und Medium (Default) bei GPT 5.4 ist zu nichts zu gebrauchen was auf brauner Wiese aufsetzt.
Ich mache aktuell alles über Copilot cli, das Code Review Konzept von oben ist seit heute in Experimental gelandet aber nur für Claude aktuell, mal sehen wann das allgemein verfügbar wird.

Snakeeater · 4. April 2026

Boimler schrieb:
Man muss hier aber kritisch anmerken, dass "Demokratisierung" von den Tech-Oligarchen gerne benutzt wird, um zu kaschieren, dass sie selbst keinerlei Filter, Regelungen oder Restriktionen in ihre Programme einbauen. Hier herrscht bei den Jensens, Musks und Bezos' einfach die Hybris vor sowohl Technologiestifter wie "Herrscher" sein zu können.

Keine Filter = Herrschaft der Erschaffer, okay notiert.

Boimler schrieb:
Wenn man sich Kunstschaffende anschaut oder Menschen, die in sozialen Berufen arbeiten, sieht man da wenig positiven Einfluss der KI und auch keine Demokratisierung im Sinne des Abbaus von Hierarchien.

Ähh okay.

Boimler schrieb:
Kunst verliert ihren Sinn, wenn jeder zu Hause für sich seine Fantasien mit KI erstellen kann.

Das muss man sich erstmal auf der Zunge zergehen lassen.

Boimler schrieb:
Und wenn ich mir anschaue, dass mit der Technik gerade vor allem Schlipsträger entlastet werden, frage ich mich, wer eigentlich kommerziell KI im Gesundheitsbereich voranbringen möchte, um auch der Krankenschwester, dem Pfleger oder dem geistig behinderten Menschen das tägliche Leben zu erleichtern.

Nur mal so, da es sich ja durch deinen Beitrag zieht, da die KI nicht in den von dir erwähnten Bereichen hilft, ist sie nicht was? Sinnvoll? Demokratisch?

Quantität · 4. April 2026

Booth schrieb:
Demokratisierung bedeutet, an Macht-Prozessen in der Gesellschaft teilnehmen.

Und genau hier liegt das Problem. Die fünf großen kommerziellen Anbieter haben mit Demokratie eher wenig am Hut. Das einzige was dem entgegenwirken kann, ist die konsequente lokale Nutzung von echten Open-Weight-Modellen in so einfach zu bedienenden Umgebungen wie dem Browser.

Leider bevorzugt die Mehrheit aber mal wieder den Komfort und begibt sich in die gleichen behinderten Abhängigkeiten wie sonst auch. Und leider wird durch das umherschieben von hunderten an nicht wirklich existenten Milliarden der Markt so hart manipuliert, das die Kostenhürde für vernünftig lokal betreibbare KI für viele nicht zu bewältigen ist.

Klar gibt AnthingLLM, LM-Studio, aber die guten Modelle brauchen einfach noch zu viel Speicher. Vielleicht ändert sich mit verbesserter Quantisierung irgendwann, aber bis dahin muss man entweder für Hardware Innereien verkaufen, oder man zahlt in Raten direkt bei den Gatekeepern.

ShiftC · 4. April 2026

Snakeeater schrieb:
Die Krux bei dem Argument, du glaubst das jeder Programmierer guten sauberen Code produziert.

Da hast du falsch geschlussfolgert.

pseudopseudonym · 4. April 2026

Boimler schrieb:
Kunst verliert ihren Sinn, wenn jeder zu Hause für sich seine Fantasien mit KI erstellen kann.

Glaub, du hast Kunst nicht verstanden. Meine ehemaligen Kunstlehrer würden bei der Aussage weinen.

matschei · 4. April 2026

Ich bin derzeit wieder bei klassischen Chatfenster gelandet.
Die KI-Agenten funktionieren gut bei kleinen Projekten die man früher mit Baukastensystemen umgesetzt hätte aber für eine größere Codebasis passt es bei mir nicht.

Da geht es besser im Chat einzugeben was man möchte mit entsprechenden Paste aus der Codebasis und dann die Funktion oder den Code Teil zurück zu kopieren. Am Ende muss man ja den Code sowieso im Kopf haben und wenn man das nicht macht muss ich nachlesen was gemacht wurde

Und die Agenten machen meist nicht das was ich gerne hätte.

Aber es ist hoffentlich auch nur eine Frau der Zeit bis das besser funktioniert.

Salamimander · 4. April 2026

Ich sehe mir das Schauspiel weiter aus der Ferne an. Solange Daten in die Cloud wandern, um sinnvolle Agent Funktionen zu betreiben, belasse ich es auch beim zuschauen. Ich nutzte auch KI (Ollama für mein paperless-ngx um Dokumente zu taggen usw.), da verlässt aber auch nichts mein Netz

Andy · 4. April 2026

Booth schrieb:
Zum Artikel:
Mal wieder viel zu unkritisch. In einem Absatz wird gar die absurde Behauptung aufgestellt, es gäbe keine "Halluzinationen", aber es gab Fehler. Jeder Fehler ist im Prinzip eine Halluzination. Gerade der Absatz mit Excel fand ich gruselig. Das besondere an ALLEN bisherigen, klassischen Apps ist: Wir alle erwarten 100% Fehlerfreiheit. Man überlege sich bei einer Liste mit 1000 Einträgen, die ich per Pivot anpasse, dass ich alle 1000 Zeilen überprüfen muss, weil vielleicht in Einzelfällen eine Mehrwertsteuer (wie im Artikel) falsch berechnet würde. Das könnte katastrophal enden.

Und DAS würde ich von einem kritischen Artikel erwarten. Nicht Vibe Coding weil es sich geil anfühlt! Sondern eine gewissenhafte Untersuchung auf Fehlerfreiheit. Offenbar ist hier kaum jemand im IT Raum bereit. Wieso? Ich habe keine Ahnung. Das wäre meine Frage an den Autor.

Bei der Excel-Tabelle mit der doppelten MwSt war das Problem, dass ich wegen Formatierung rumgehackt habe, was dann zum Fehler führte. Ist für mich jetzt keine klassische Halluzination im Sinne von: Da wurden Zahlen komplett erfunden. Sondern eher eine Art "Bedienungsfehler". Von daher habe ich versucht zu, zu differenzieren, auch wenn man KI-Fehler im Kern natürlich immer als Halluzination werten kann.

Klar ist aber, dass du einen zentralen Punkt bei der Arbeit mit den Agenten beschreibst. Und das Problem spreche ich ja auch im Artikel an. Beim Lesezeichen-Manager nenne ich ja ebenfalls Vertrauen als kritischen Punkt, später zitiere ich den Entwickler Willison mit der Aussage: Bei Software kann man prüfen, ob sie läuft. Was macht der Anwalt?

Von meinen Tests kann ich immerhin sagen, dass ich in meinem alltäglichen Excel-Betrieb (abgesehen von den zwei genannten) keine Auffälligkeiten entdeckt habe. Es lief wirklich so erstaunlich gut, dass ich den Artikel nicht wie geplant Mitte März fertiggestellt habe, sondern noch 2-3 Extrarunden gedreht habe. Sehr komplexe Analysen betreibe ich aber nicht, eher Wald-und-Wiesen-Office. Und schon da ist es wirklich erstaunlich, wie sehr die Tools einem die Arbeit erleichtern.

Knackpunkt wird meiner Ansicht künftig sein: Wer haftet für Fehler der Agenten bei komplexen Analysen? Vor allem, wenn die ab einem gewissen Punkt noch Fehler machen sollte, aber weniger als Menschen. Ich tippe auf einige Auseinandersetzungen und mein Verdacht ist, dass künftig vor allem Leute profitieren, die in ihrem jeweiligen Bereich so erfahren sind, dass sie Agenten-Ergebnisse solide bewerten können.

TeeKayEV · 4. April 2026

calluna schrieb:
Wenn alle mehr Zeit zum Reisen haben, aber jeder schöne Ort zu einer bestimmten Zeit nur eine bestimmte Menge an Menschen verkraften kann … dann werden die Reiseziele für die „Normalen“ ausgelost.

Nein, dann steigt in der Marktwirtschaft der Preis. Genauso wie der Preis der ganzen KI Agenten massiv steigen wird, sobald nicht mehr Venture Capital dutzende Milliarden pro Monat als „Anfangsinvestition“ zubuttert.

eastcoast_pete · 4. April 2026

Wie hält es Anthropic (oder die anderen KI Anbieter) denn mit Datenschutz und Vertraulichkeit wenn man Claude im Abo nutzt?

Auch deshalb würde es mich sehr interessieren, wie man eine kleinere Distill (welche?) fürs "vibe coding" und dann Testen einigermaßen sicher lokal laufen lassen kann, inklusive Empfehlungen für Hardware in verschiedenen Preisklassen. Zum Beispiel habe Ich (leider) keine Threadripper Workstation mit einer (oder mehreren) RTX 6000 oder eine NGX Spark, um das mal selbst ausprobieren zu können. Was ist denn so die minimale Einsteiger Konfiguration? Oder sollte man das mit "zu Hause selber machen" für vibe coding erst einmal vergessen, weil es nicht geht oder ewig dauern würde?

Ergänzung (4. April 2026)

Andy schrieb:
Bei der Excel-Tabelle mit der doppelten MwSt war das Problem, dass ich wegen Formatierung rumgehackt habe, was dann zum Fehler führte. Ist für mich jetzt keine klassische Halluzination im Sinne von: Da wurden Zahlen komplett erfunden. Sondern eher eine Art "Bedienungsfehler". Von daher habe ich versucht zu, zu differenzieren, auch wenn man KI-Fehler im Kern natürlich immer als Halluzination werten kann.

Klar ist aber, dass du einen zentralen Punkt bei der Arbeit mit den Agenten beschreibst. Und das Problem spreche ich ja auch im Artikel an. Beim Lesezeichen-Manager nenne ich ja ebenfalls Vertrauen als kritischen Punkt, später zitiere ich den Entwickler Willison mit der Aussage: Bei Software kann man prüfen, ob sie läuft. Was macht der Anwalt?

Von meinen Tests kann ich immerhin sagen, dass ich in meinem alltäglichen Excel-Betrieb (abgesehen von den zwei genannten) keine Auffälligkeiten entdeckt habe. Es lief wirklich so erstaunlich gut, dass ich den Artikel nicht wie geplant Mitte März fertiggestellt habe, sondern noch 2-3 Extrarunden gedreht habe. Sehr komplexe Analysen betreibe ich aber nicht, eher Wald-und-Wiesen-Office. Und schon da ist es wirklich erstaunlich, wie sehr die Tools einem die Arbeit erleichtern.

Knackpunkt wird meiner Ansicht künftig sein: Wer haftet für Fehler der Agenten bei komplexen Analysen? Vor allem, wenn die ab einem gewissen Punkt noch Fehler machen sollte, aber weniger als Menschen. Ich tippe auf einige Auseinandersetzungen und mein Verdacht ist, dass künftig vor allem Leute profitieren, die in ihrem jeweiligen Bereich so erfahren sind, dass sie Agenten-Ergebnisse solide bewerten können.

Einen Tip den ich für OpenClaw bereits mehrfach gehört habe ist, die Agentische KI und Anwendung nur in einer "Gummizelle" laufen zu lassen, v.a. ohne Zugriff auf Dinge die Geld kosten oder kosten können. Das war inklusive dem Rat, daß man zB OpenClaw nicht beliebig Tokens kaufen lässt, da es das sonst enthusiastisch tut und richtig viel Geld ausgibt.

Zur Haftung bei agentischer Software ist meine Annahme, daß man als "Schöpfer" und Rechtsperson hier die Verantwortung trägt. Ähnlich wie bei der Hundehaltung; wenn man den Rottweiler von der Leine lässt und der dann jemanden beißt, ist man als Halter dafür verantwortlich. Wobei es bei Software (egal wie die programmiert wurde) ja auch so ist, daß ein Anwender immer eine gewisse Sorgfaltspflicht hat.

Piktogramm · 5. April 2026

Andy schrieb:
Wer haftet für Fehler der Agenten bei komplexen Analysen? Vor allem, wenn die ab einem gewissen Punkt noch Fehler machen sollte, aber weniger als Menschen. Ich tippe auf einige Auseinandersetzungen und mein Verdacht ist, dass künftig vor allem Leute profitieren, die in ihrem jeweiligen Bereich so erfahren sind, dass sie Agenten-Ergebnisse solide bewerten können.

Die Anbieter für die Systeme werden da erschöpfende Haftungsausschlüsse schreiben, wie es bei aktuellen Softwareprodukten auch schon der Fall ist.

"Solide Bewerten" sehe ich nicht. Um mit dem Output von LLMS mitzuhalten ist ein "Code Sniff"[1] bzw. flotten Überfliegen bereits langsamer als das automatisierte Erstellen des Codes. Alles was an Codereviews tiefer geht ist um Faktoren bis Größenordnungen langsamer. Wirklich solide bewerten, ob Code Definitionslücken hat, Fehler nicht erschöpfend abfängt, Defaults passend gewählt sind, APIs sinnvoll definiert und die Struktur Code/Projekt passt ist mit dem Durchsatz von LLMs nicht drin. Weder von der Zeit, noch aus wirtschaftlichen Aspekten heraus.

[1]https://en.wikipedia.org/wiki/Code_smell

Ergänzung (5. April 2026)

Andy schrieb:
Natürlich könne man 5.000 Linien Code auf einmal generieren, so Naik

"lines" wäre an der Stelle mit "Zeilen" zu übersetzen.

Bright0001 · 5. April 2026

Andy schrieb:
If it passes its tests and works, it’s worth as much as what humans get paid $200,000 or more a year to compose.

New York Times: Coding without Coder

Puh, also solche Aussagen sind gemeingefährlich, zumal die Tests in den meisten Fällen ja auch generiert sind - außer es gibt wirklich solch vorbildliche Entwickler, die die KI im TDD-Stil prompten und die Tests selber schreiben.

Etwas neues auf grüner Wiese zu entwickeln ist der Optimalfall, der eigentliche Mammutanteil an Entwicklungsaufwand fällt in der Wartung an - heißt selbst wenn das Ergebnis tatsächlich wie gewünscht funktioniert, kann man sich damit trotzdem eine Menge technischer Schulden einhandeln, die den eigentlichen Implementierungsaufwand übersteigen.

testwurst200 schrieb:
"dEiN pRoMpT IsT nIcHt RiChTiG"

Wie soll das prompt denn aussehen? Muss da noch eine Drohung rein falls es meine Anweisungen missachtet?

Ohne zu wissen, wie deine Prompts aussehen, kann man schwer sagen, ob man jene verbessern könnte. Grundsätzlich ists aber immer gut, das LLM immer alle Annahmen prüfen zu lassen, für Tatsachenbehauptungen Belege zu fordern, und iterativ zu arbeiten, also eben kein "Schreib mir Facebook in grün" als Anweisung.

Brrr schrieb:
Meine These warum es bei Softwareentwicklung so gut funktioniert: Wir implementieren halt of ähnliche Dinge die es meist irgendwo schon in leicht anderer Form gibt. Und bei Dingen die ähnlich sind performt die KI ganz gut. In desto kleinere Teile man das Problem herunterbricht desto besser performt Claude.

Ich glaub die Wahrheit ist simpler: Syntax. Programmiersprachen sind deutlich unkomplizierter als natürliche Sprachen, es gibt keine Trillion Spezialfälle, Ausnahmen, und Ausnahmen der Ausnahmen, weil die Regeln halt wirklich strikt, und bei typisierten Sprachen alle Objekte auch sehr explizit sind. Und jetzt, wo die Teile ihren Code selbst testen/compilen können, fliegen Fehler auch sofort auf, was bei normaler Sprache nicht ganz so einfach ist.

Brrr schrieb:
Was ich auch feststelle, ich schreibe viel häufiger kleine Tools. Dinge die ich früher manuell gemacht hätte, weil das automatisieren zu viel Aufwand gewesen wäre, lasse ich Claude Code rasch ein Skript schreiben. Das funktioniert sehr häufig sehr gut.

Was ich auch feststelle, Skill Atrophy. Meine Fähigkeiten werden schlechter, wenn ich zu viel mache. Ich habe mir deshalb angewöhnt, manche Coding Sessions ganz klassisch zu machen. Dokumentation lesen und selber implementieren.

Unterschreib ich völlig - aber das, was ich auf der einen Seite verliere, bekomm ich gefühlt in anderen Themenbereichen zurück, für die ich ohne KI nicht die Muße gehabt hätte. Browser-Add-Ons sind jetzt mein Ding, und auch zunehmend UIs, für die ich früher viel zu faul gewesen wäre, sprich "CLI reicht doch völlig".

chr1zZo schrieb:
sowie Roblox Maps mit Monetarisierung.

Oha, der kam unerwartet. Darf man fragen wie da die Pipeline aussieht? Also hat Roblox eine GUI die von der KI genutzt wird, oder wie kann man sich das vorstellen?

KitKat::new() schrieb:
Konnte man auch vorher schon - alles was man zum Programmieren brauchte war etwas Zeit, den billigsen Computer und Internet, sonst nichts.

Gibt doch sicher auch IDEs fürs Smartphone und Tablet, ich glaub die Zeiten ohne Zugang zu einer Entwicklungsumgebung sind endgültig vorbei. Und selbst wenn, Codepen und Konsorten gibts ja auch zuhauf, man hat also wirklich keine Ausrede mehr.

Boimler · 5. April 2026

Bright0001 schrieb:
Ich glaub die Wahrheit ist simpler: Syntax. Programmiersprachen sind deutlich unkomplizierter als natürliche Sprachen, es gibt keine Trillion Spezialfälle, Ausnahmen, und Ausnahmen der Ausnahmen, weil die Regeln halt wirklich strikt, und bei typisierten Sprachen alle Objekte auch sehr explizit sind. Und jetzt, wo die Teile ihren Code selbst testen/compilen können, fliegen Fehler auch sofort auf, was bei normaler Sprache nicht ganz so einfach ist.

Die Gleichsetzung von natürlicher und Code-Sprache ist schon falsch. Code-Sprache beinhaltet ja schon die natürliche Sprache, weil der Programmierer verstehen muss, was er da schreibt. Der Unterschied ist mM viel einfacher: Es fehlt jegliche Meta-Ebene in der Kommunikation, weil der Entwickler von vornherein Eindeutigkeit in der Bedeutung der Wörter hergestellt hat. Er hat also das entfernt, was unsere natürliche Sprache ausmacht: Mehrdeutigkeit, Metaphern, Ironie. So ziemlich jeder Witz über Programmiersprachen basiert darauf, dass der Text für einen Menschen mehrdeutig und für den Computer eindeutig ist! Es gibt bei Code also wesentlich weniger statistisch falsche Antworten, womit die KI eine viel höhere Trefferquote hat.

Ciero · 5. April 2026

@Andy Danke, dass die LLM direkt Anwendungsbezogen unter die Lupe genommen wurde, um den Nutzen zu untersuchen. Schade, dass nicht noch andere Anwendungsfälle untersucht oder Kommentare von anderen eingebettet wurden auf welche Weise sie die KI Anwenden, um aufzuzeigen wie KI ihre relevanten Workflows verändert hat.
Auch passend wäre eine Übersicht an Skills die Claude bedienen kann, welche Nischenbereiche damit abgedeckt werden und Risiken durch missbräuchliche Anwendung entstehen können.

Wie ist es im Team von CB, wie wird dort KI eingesetzt und wie sind die Erfahrungen für eure spezifischen Tätigkeiten bzw. wie haben sie sich mit der Zeit entwickelt? Ich hatte bereits an mehreren Stellen das Gefühl, dass diese eingesetzt wurde.

Amüsant ist, was Karpathy selbst mit seinem neuen Autoresearch feature losgetreten hat und Entwickler das zweckentfremden und es bspw. bei Softwarelösungen als einen Verbesserungs-loop etablieren. Auf die Weise werden auch Fehler minimiert, weil die KI eigenständig Tests schreibt, die Funktionsweise sicherstellt und in einem Loop weiter verbessert. Aber auch in anderen Bereichen ist das Tool anwendbar.

Wie Leute heute immer noch behaupten, das KI keinen Nutzen hat und man diese nicht braucht bleibt mir Rätselhaft.

Ciero

Snakeeater · 5. April 2026

Brrr schrieb:
Theoretisch ja in der Praxis verhält es sich aber sehr oft nicht so. Das Problem ist halt auch, dass LLMs nicht wirklich intelligent sind sondern probalistisch. Das heisst es wird dir eher eine Lösung bieten die am häufigsten angewendet wurde, als die Beste.

Wieviele Programmierer zaubern dir die beste Lösung hin?

Bright0001 · 5. April 2026

@Boimler Ein merkwürdiger Beitrag. Du behauptest ich läge falsch, nur um dann in anderen Worten fast das gleiche zu sagen.

Boimler schrieb:
Die Gleichsetzung von natürlicher und Code-Sprache ist schon falsch. Code-Sprache beinhaltet ja schon die natürliche Sprache, weil der Programmierer verstehen muss, was er da schreibt.

Nö. Mathematiker schreiben auch Formeln die verstanden werden wollen, damit ist Mathe aber kein Superset der natürlichen Sprache.

Boimler schrieb:
Es fehlt jegliche Meta-Ebene in der Kommunikation, weil der Entwickler von vornherein Eindeutigkeit in der Bedeutung der Wörter hergestellt hat.

Nein, es braucht keinerlei Meta-Ebene um Probleme in natürlicher Sprache zu finden;
"Susi und Sandra sind überrascht, dass Peter größer als sie ist."
Kann man interpretieren als:
"Susi und Sandra sind überrascht, dass Peter größer als Susi ist."
"Susi und Sandra sind überrascht, dass Peter größer als Sandra ist."
"Susi und Sandra sind überrascht, dass Peter größer als die beiden ist."

Und wenn es dazu noch Kontext gibt, dann können alle Varianten komplett falsch sein: "Peter hat sich neben die dicke Berta gesetzt. Susi und Sandra sind überrascht, dass Peter größer als sie ist."
Da ist das "sie" plötzlich die Berta, und "größer" vergleicht Körpergewicht statt Größe.

All das bekommst du in einer Programmiersprache syntaktisch nicht äquivalent abgebildet, was auch der These widerspricht, dass die natürliche Sprache Teilmenge der Programmiersprachen ist. Gleichzeitig sucht sich der Entwickler die Eindeutigkeit nicht aus, sie ist eingebaut, und man muss schon hart schludern um mit Code ähnlich zu verwirren.

Syntax gilt im übrigen nicht nur für Sätze und Texte, sondern auch für einzelne Wörter, insb. in Sprachen wie der deutschen: Ein Kaltgerätesteckeradapter ist nicht das gleiche wie ein Kaltgeräteadapterstecker - auch da ist man als Entwickler gezwungen explizit anzugeben, was was ist, und woraus es besteht.

testwurst200 · 5. April 2026

Bright0001 schrieb:
Ohne zu wissen, wie deine Prompts aussehen, kann man schwer sagen, ob man jene verbessern könnte. Grundsätzlich ists aber immer gut, das LLM immer alle Annahmen prüfen zu lassen, für Tatsachenbehauptungen Belege zu fordern, und iterativ zu arbeiten, also eben kein "Schreib mir Facebook in grün" als Anweisung.

Ganz konkret wollte ich etwas im Bereich der Politik wissen. Dort kann sich ja schnell alles ändern und deshalb habe ich die Forderung gestellt die Websuche zu benutzen.
Das Ergebnis
"Die cdu ist stand 2026 nicht Teil der Bundesregierung"

Bitte was?!

Es wurde nicht nur die Websuche ignoriert sondern auch alte Daten als aktuell verkauft.

Micha- · 5. April 2026

matschei schrieb:
Da geht es besser im Chat einzugeben was man möchte mit entsprechenden Paste aus der Codebasis und dann die Funktion oder den Code Teil zurück zu kopieren. Am Ende muss man ja den Code sowieso im Kopf haben und wenn man das nicht macht muss ich nachlesen was gemacht wurde

So habe ich vor ein paar Monaten noch gearbeitet, auch weil ich das Gefühl hatte ich muss den Code 100% verstehen.

Inzwischen arbeite ich an einem Programm für meine Abteilung, das nur noch von der KI gecodet wird. Kein Copy & Paste mehr. Das wäre viel zu zeitraubend und fehleranfällig. Ich nutze die Zeit lieber für intensive Tests und Überlegungen zur Verbesserung.
Ich habe in einem Monat für 21€ ein Tool erhalten, für das ich sonst bestimmt 10.000€ bezahlen muss und erst nach 6 Monaten die erste Version geliefert wird

BAR86 · 5. April 2026

Ned Flanders schrieb:
Für mich eine der großen Revolutionen der Computergeschichte.

Im Grunde ist das nicht weniger als die Demokratisierung der Softwareentwicklung. Jeder, wirklich jeder kann Programme erstellen, die helfen ihre oder seine Probleme zu lösen.

Tatsächlich ist das gerade etwas in das ich mehr und mehr eintauche: in meiner Arbeit geht es viel um Forschung und die Ergebnisse beschreiben: da hilft Gemini und GPT enorm die Prozesse zu verkürzen.

Gestern dachte ich mir ich würde gerne ein Lernspiel für meine Kinder entwickeln: sie schauen gerade alle unterschiedliche Serien auf Deutsch, ich möchte, dass die Englisch schauen. Das ist aber mühsam, wenn man kein Englisch kann. Da gerade Serien immer wieder die gleichen Vokabeln verwenden wollte ich mit ihnen einen Basiswerts halt spielerisch erarbeiten.
Ich hab mich am Abend hingesetzt und in der Früh war das erste Spiel fast fertig. ich sag dem Spiel welche Serie ich schauen möchte und es sucht mir die 50/100/150/200... wichtigsten Vokabeln raus, macht verschiedene Quizze draus (Level 1 ein Memory Spiel, 2 ein reiner Vokabeltrainer..., Level 10 man muss mit dem Spiel in ganzen Sätzen reden)

Nur: ich hab zuletzt 2006 programmiert und eigentlich bin ich kompletter Anfänger.
Als nächstes können wir unsere eigenen Spiele entwickeln... Etwa wenn mir etwas im bestehenden Spiel (Stalker 2 wenn der Source Code erscheinen würde) noch fehlt es ergänzen... Eine neue Geschichte in eine bestehende Welt einbauen...Ganz ohne Programmierkenntnisse. Wahnsinn... In beiderlei Hinsicht.

Bericht Die Ratatouille-KI: Claude Code im Langzeittest – wo es vibed und wo es hakt

Commander

Commander

Captain

Lt. Commander

Lt. Commander

Fleet Admiral

Ensign

Rear Admiral

Tagträumer

TeeKayEV

Gast

Commander

Fleet Admiral

Captain

Captain Pro

Cadet 4th Year

Captain

Captain

Commander

Captain

Commodore