Booth schrieb:
Zum Artikel:
Mal wieder viel zu unkritisch. In einem Absatz wird gar die absurde Behauptung aufgestellt, es gäbe keine "Halluzinationen", aber es gab Fehler. Jeder Fehler ist im Prinzip eine Halluzination. Gerade der Absatz mit Excel fand ich gruselig. Das besondere an ALLEN bisherigen, klassischen Apps ist: Wir alle erwarten 100% Fehlerfreiheit. Man überlege sich bei einer Liste mit 1000 Einträgen, die ich per Pivot anpasse, dass ich alle 1000 Zeilen überprüfen muss, weil vielleicht in Einzelfällen eine Mehrwertsteuer (wie im Artikel) falsch berechnet würde. Das könnte katastrophal enden.
Und DAS würde ich von einem kritischen Artikel erwarten. Nicht Vibe Coding weil es sich geil anfühlt! Sondern eine gewissenhafte Untersuchung auf Fehlerfreiheit. Offenbar ist hier kaum jemand im IT Raum bereit. Wieso? Ich habe keine Ahnung. Das wäre meine Frage an den Autor.
Bei der Excel-Tabelle mit der doppelten MwSt war das Problem, dass ich wegen Formatierung rumgehackt habe, was dann zum Fehler führte. Ist für mich jetzt keine klassische Halluzination im Sinne von: Da wurden Zahlen komplett erfunden. Sondern eher eine Art "Bedienungsfehler". Von daher habe ich versucht zu, zu differenzieren, auch wenn man KI-Fehler im Kern natürlich immer als Halluzination werten kann.
Klar ist aber, dass du einen zentralen Punkt bei der Arbeit mit den Agenten beschreibst. Und das Problem spreche ich ja auch im Artikel an. Beim Lesezeichen-Manager nenne ich ja ebenfalls Vertrauen als kritischen Punkt, später zitiere ich den Entwickler Willison mit der Aussage: Bei Software kann man prüfen, ob sie läuft. Was macht der Anwalt?
Von meinen Tests kann ich immerhin sagen, dass ich in meinem alltäglichen Excel-Betrieb (abgesehen von den zwei genannten) keine Auffälligkeiten entdeckt habe. Es lief wirklich so erstaunlich gut, dass ich den Artikel nicht wie geplant Mitte März fertiggestellt habe, sondern noch 2-3 Extrarunden gedreht habe. Sehr komplexe Analysen betreibe ich aber nicht, eher Wald-und-Wiesen-Office. Und schon da ist es wirklich erstaunlich, wie sehr die Tools einem die Arbeit erleichtern.
Knackpunkt wird meiner Ansicht künftig sein: Wer haftet für Fehler der Agenten bei komplexen Analysen? Vor allem, wenn die ab einem gewissen Punkt noch Fehler machen sollte, aber weniger als Menschen. Ich tippe auf einige Auseinandersetzungen und mein Verdacht ist, dass künftig vor allem Leute profitieren, die in ihrem jeweiligen Bereich so erfahren sind, dass sie Agenten-Ergebnisse solide bewerten können.