ich hab schon codex (plus abo, gpt-5-codex high), kurz mal claude console (müsste opus 4.5 gewesen sein, so schnell wie das aufgeladene geld weg war), cline mit qwen3-coder-plus (kostenlos) und jetzt mit z.ai glm-4.7 (erstmal lite zum testen) hier seit einigen monaten ausgiebig getestet. alles in vscode aufm mac, wir benutzen kein xcode. copilot bisher noch nicht getestet, aber sollte ja gpt-5 entsprechen.
insgesamt produziere ich jetzt mehr code, dafür aber schlechteren. ständig gibt es missverständnisse (die natürlich auch an mir liegen), ständig werden regeln gebrochen ("entschuldigung, ich habe schon wieder ungetesteten code auf github gepusht"), ständig wird gelogen ("alle tests erfolgreich" nachdem man die fehlermeldungen nach /dev/null umleitet), ständig werden anforderungen vergessen, oft das jammern, dass die aufgabe ja so komplex ist und viel zeit benötigt... und dann diese nervigen entschuldigungen, wenn man sie auf fehler hinweist.
echt schlimm ist "context poisoning": eine falsche annahme/entscheidung zerstört die ganze session und man muss bei 0 anfangen.
oder 10 jahre alte antworten auf stackoverflow, die auch heute noch die lösung sind, werden in den trainingsdaten wohl als veraltet betrachtet und deshalb ignoriert. also genau die antworten, die als erstes suchergebnis kommen, wenn man den fehler bei einer beliebigen suchmaschine eingibt.
ein passendes video dazu, wie gut diese "phd level" agenten sind, wenn sie mal echte erstsemesteraufgaben kriegen: