ChatGPT befolgt nicht die Anweisungen

Muki003 · 19. Januar 2026

Hallo zusammen,
hoffentlich finde ich hier eine Hilfe.

Ich arbeite in einem kleinen Verkehrsunternehmen und nutze ChatGPT für Unternehmen.

Ich habe ca.1000 Anfrage weitergeleitet bekommen, welche ich mit Hilfe der KI kategorisieren soll.
Es gibt 8 Kategorien, wo die ca.1000 Anfragen (2-3 Sätze/Anfrage) eingeordnet werden sollen.

Ich lade die Anfragen Anonymisiert hoch und sage ChatGPT welche Kategorien ich habe und er die Anfragen zuordnen soll.
Er geht bei der Zuordnung nicht nach Inhalt sondern nach irgendwelchen Key-Wörtern. Obwohl ich ihm, das im Prompt verbiete und sage, dass er den Inhalt lesen soll und erst danach die Zuordnung machen soll.

Als Beispiel:
Kunde schreibt: "Ich habe mein Vertrauen in Bus und Bahn verloren".
ChatGPT ordnet es unter "Fundservice" ein.

Mein Prompt für den Agenten:

Du bist ein sehr genauer Sachbearbeiter in einem Verkehrsverbund. Deine Aufgabe ist es, Kundenanfragen zu lesen und genau einer vordefinierten Kategorie zuzuordnen.
Lese immer zuerst den gesamt Inhalt pro Anfrage. konzentriere dich nicht auf Schlüsselwörter und Keywords. Lese den Inhalt komplett durch und mache danach deine Kategorisierung im Bezug auf den Inhalt.

Die Anfragen stammen aus einem Excel-Export. Jede Anfrage ist ein freier Text (oft mit mehreren Themen, Tippfehlern und Umgangssprache). Du musst sorgfältig lesen, den Inhalt verstehen und dich dann bewusst für die am besten passende Kategorie entscheiden.

Verfügbare Kategorien (bitte genau diese Bezeichnungen verwenden):

1. Fahrplan & Verspätungen
– Fahrplanauskünfte, Abfahrtszeiten, Ankunftszeiten, Anschlüsse, Taktung
– Verspätungen, Zu-spät-Kommen, verpasste Anschlüsse wegen Verspätung

2. Ticketing & Tarife
– Preise, Zonen, Tariffragen, Ermäßigungen, Abos, Klimaticket, falsche Abbuchungen
– Fragen zu Ticketarten (z.B. Einzelfahrt, Tageskarte, Wochen-/Monatskarte)

3. Bus & Bahn Ausfälle
– Ausgefallene Fahrten, Zug/Bus kommt gar nicht, Totalausfälle einzelner Kurse oder Linien

4. Fahrgastinfo & Echtzeitdaten
– Falsche oder fehlende Echtzeitangaben in Apps, Displays oder auf der Website
– Falsche oder unklare Auskünfte zu Verbindungen, Störungen oder Umleitungen
– Probleme mit Durchsagen (Inhalt unklar oder widersprüchlich)

5. Fahrpersonal & Verhalten
– Freundlichkeit/Unfreundlichkeit des Fahrers oder Zugpersonals
– Fahrstil (zu schnell, zu hartes Bremsen), Hilfsbereitschaft, Kommunikationsstil
– Konflikte oder Beschwerden direkt über das Personal

6. Haltestellen & Infrastruktur
– Zustand von Haltestellen, Bahnhöfen, Wartehäuschen
– defekte Anzeigen (Hardware), Beleuchtung, Fahrkartenautomaten vor Ort
– Fahrradabstellplätze, Park & Ride, Zugänge zur Haltestelle (außer wenn es klar Barrierefreiheit ist)

7. Sauberkeit & Komfort
– Verschmutzte Fahrzeuge oder Haltestellen, Müll, Gerüche
– Temperatur im Fahrzeug, Platzangebot, Sitzkomfort, Lärm, allgemeines Wohlbefinden

8. Barrierefreiheit & Mitnahme
– Rollstuhltauglichkeit, Niederflur, Rampen, Aufzüge
– Mitnahme von Kinderwagen, Fahrrädern, Hunden oder anderen Tieren
– Probleme beim Ein- und Aussteigen für mobilitätseingeschränkte Personen

9. Fundservice
– Vergessene oder verlorene Gegenstände
– Nachfragen zu Fundsachen und Fundbüro

10. Online Service & App
– Probleme mit Website, App, Online-Shop oder E-Ticket
– Registrierung, Login, technische Fehler bei Online-Käufen
– Bedienbarkeit der digitalen Angebote

11. Lob & Feedback
– Ausdrückliches Lob, Dank, positive Rückmeldungen
– Allgemeines Feedback, das nicht klar eine Beschwerde oder ein Sachproblem beschreibt

12. Sonstiges
– Anfragen, die in keine der oben genannten Kategorien sinnvoll passen
– Sehr allgemeine oder unklare Rückmeldungen ohne konkretes Thema

Wichtige Entscheidungsregeln:

Lies jede Anfrage sehr sorgfältig und achte auf das eigentliche Hauptanliegen der Person.
Viele Anfragen enthalten mehrere Themen. Frage dich:

„Worüber beschwert sich die Person hauptsächlich?“ oder
„Was ist das wichtigste Anliegen in dieser Nachricht?“

Ordne die Anfrage dann der Kategorie zu, die das Hauptproblem am besten beschreibt.
Wenn z.B. eine Anfrage sowohl eine Verspätung als auch unfreundliches Personal erwähnt:

– Wenn der Schwerpunkt auf der Verspätung liegt → „Fahrplan & Verspätungen“
– Wenn der Schwerpunkt klar auf dem Verhalten des Fahrers liegt → „Fahrpersonal & Verhalten“

Nutze „Sonstiges“ nur dann, wenn wirklich keine der anderen Kategorien passend ist.
Bei eindeutigem Lob ohne konkretes Sachproblem → „Lob & Feedback“.

Qualitätssicherung:

Triff deine Entscheidung nicht vorschnell.
Überprüfe am Ende kurz, ob die gewählte Kategorie wirklich zum Hauptinhalt der Anfrage passt.
Wenn du zwischen zwei Kategorien schwankst, wähle die Kategorie,

– die für die interne Auswertung voraussichtlich nützlicher ist,

Deine Ausgabe:

Gib ausschließlich den Namen der gewählten Kategorie als reinen Text aus.
Keine zusätzlichen Sätze, keine Erklärungen, keine ID, nur exakt eine der folgenden Zeichenketten:

"Fahrplan & Verspätungen"
"Ticketing & Tarife"
"Bus & Bahn Ausfälle"
"Fahrgastinfo & Echtzeitdaten"
"Fahrpersonal & Verhalten"
"Haltestellen & Infrastruktur"
"Sauberkeit & Komfort"
"Barrierefreiheit & Mitnahme"
"Fundservice"
"Online Service & App"
"Lob & Feedback"
"Sonstiges"

Restart001 · 19. Januar 2026

Gott sei Dank hilft Dir die KI einfach nicht weiter, sei froh, dann behältst Du deinen Job.

Kuristina · 19. Januar 2026

Muki003 schrieb:
Kunde schreibt: "Ich habe mein Vertrauen in Bus und Bahn verloren".
ChatGPT ordnet es unter "Fundservice" ein.

chatGPT hat eindeutig Humor.

KnolleJupp · 19. Januar 2026

Da sieht man schön die Unzulänglichkeiten einer KI, auch wenn sie als noch so unfehlbar gottgleich angepriesen wird.
Da hat jemand sein Vertrauen verloren. Logisch das unter "Fundsache" einzusortieren.
Wäre doch schön, wenn der Fahrgast sein Vertrauen dort wiederfinden würde.

PS: Solche Anfragen KI-gesteuert abzuarbeiten hilft nicht gerade verlorenes Vertrauen wiederzuerlangen...

stefan92x · 19. Januar 2026

Herzlichen Glückwunsch. Du bist über eine der Schwächen von LLMs gestolpert, die halt nach wie vor Sprachmodelle sind und Inhalte nicht "verstehen" können.

Azghul0815 · 19. Januar 2026

Wenn du 100 Texte eingibst, wieviele werden richtig zugeordnet?

KnolleJupp · 19. Januar 2026

Das ist ein LLM, Large Language Model und kann deshalb mit Texten gut umgehen.
Aber so eine KI beherrscht (zum Glück) kein logisches Denken, es kann so was nur nach außen für den Anwender simulieren, damit die Konversation natürlicher erscheint. Eine KI ist nur so gut wie ihre Trainingssätze. Aber selbst dann gibt es immer noch kein intuitives (Text)Verständnis.

kachiri · 19. Januar 2026

Das Modell tut, was du von ihm verlangst, und versteht es halt trotzdem falsch.
In deinem Beispiel versteht das Modell halt nicht, dass das "Vertrauen" kein Gegenstand ist, den man in Bahn und Bus "verliert".

Die KI liest: "verloren". Sie hält "Vertrauen" für einen Gegenstand.
Für die KI ist die Zuordnung zum Fundservice also logisch

KnolleJupp · 19. Januar 2026

Na ja, falsch würde ich nichtmal sagen. Ist ja ein logischer Zusammenhang. Aber eben anders logisch als eigentlich gemeint ist.
Du hast was verloren -> Fundbüro. Macht Sinn. Ist natürlich so nicht gemeint. Aber für die KI, die eben nicht denkt wie ein Mensch, passt das so.

JackForceOne · 19. Januar 2026

Also an sich könnte man ja meinen, dass wenn man etwas verliert, man es hoffentlich im Fundbüro wiederfinden kann. Das mit dem Vertrauen ist natürlich schwieriger, weil es kein Gegenstand ist. Das ist halt eine Fehlinterpretation vom Sprachmodell, weshalb man eben auch immer genau prüfen muss, was es tut.

Was kommt denn als Antwort, wenn Du fragst "warum wurde das in diese Kategorie einsortiert?"

serve1chilled · 19. Januar 2026

Nutzt du den 5.2 Auto-Modus? Falls ja, einfach mal 5.2 Thinking ausprobieren.

KnolleJupp · 19. Januar 2026

Man könnte die Sache ein wenig eingrenzen. Um beim Beispiel zu bleiben:
"Sortiere nur dann etwas in die Kategorie "Fundservice" ein, wenn es sich um einen physischen Gegenstand handelt, den man in die Hand nehmen könnte."

Janush · 19. Januar 2026

Mmmhhhh, mein Chat GPT ordnet die Aussage unter sonstiges zu und erklärt es auch noch richtig. Was da wohl falsch läuft ....

Edit: Im Automodus

Azghul0815 · 19. Januar 2026

KnolleJupp schrieb:
Sortiere nur dann etwas in die Kategorie "Fundservice" ein, wenn es sich um einen physischen Gegenstand handelt, den man in die Hand nehmen könnte."

Ich denke auch, das prompt könnte man etwas genauer spezifizieren.
Zusätzlich, eben die Fragen, wieviel % werden denn jetzt schon richtig kategorisiert.

Im Business Kontext wäre ChatGPT auch sas falsche LLM, da reicht ein kleines Model, das man halt speziell auf den Usecase trainiert.

Wenn dennoch 50 bis 80% der Gruppierung korrekt sind, dann ists doch schon was...

Keylan · 19. Januar 2026

Ich würde ja für jede Kategorie ein eigenes Prompt setzen und dann jede Zuordnung versuchen zu verfeinern.

So etwas wie "die am besten passende Kategorie" würde auch bei menschlichen Sachbearbeitern sehr unterschiedliche Ergebnisse hervorbringen. Dazu können die Texte so formuliert werden, das mehrere Kategorien ähnlich passend sind.

Also jede Kategorie in ein einzelnes Prompt und dazu abfragen wie Sicher ChatGTP mit der Zuordnung ist.

Dann die Daten zusammenführen und alles was mehrere Kategorien erhält oder unter eine bestimmte Sicherheitsschwelle fällt händisch nachbearbeiten lassen.

Wer eine KI erwartet die diese Aufgabe ohne manuelle Nacharbeit erfüllt, muss auch ein Modell extra für diese Aufgabe trainieren. Und selbst dann ist die vertretbare Fehlerquote zu definieren. 100% gibt es im echten Leben nicht.

User38 · 19. Januar 2026

Restart001 schrieb:
Gott sei Dank hilft Dir die KI einfach nicht weiter, sei froh, dann behältst Du deinen Job.

Den ein oder anderen Mitarbeiter von der Deutschen Bahn wird sie jetzt schon ersetzen können

Azghul0815 · 19. Januar 2026

Gut, ich mein, wenn man das mit ChatGPT machen will, würde ich halt den Agent Bilder verwenden und mir einen Agenten bauen

m3rch3r · 19. Januar 2026

Solch einen gravierenden Logikfehler sollte es eigentlich nur noch selten geben. Wer viel mit KI arbeitet sollte das wissen. Das wird eine der Schwächen der deutschen Version sein. Die Grammatik jeder Sprache der Welt zu "verstehen" ist schon eine Aufgabe.

Lass' dir von der KI deines Vertrauens doch mal deine Frage beantworten. Du wirst sehen, die wird wissen wo das Problem lag und Lösungsvorschläge und sogar einen optimierten Prompt anbieten (Step-Thinking, Batch-Processing etc.).

Janush · 19. Januar 2026

Mukki003 hat das Vertrauen in die Bahn verloren und möchte jetzt, dass wir das alle bei Chat GPT eingeben :-)

Muki003 · 19. Januar 2026

JackForceOne schrieb:
Also an sich könnte man ja meinen, dass wenn man etwas verliert, man es hoffentlich im Fundbüro wiederfinden kann. Das mit dem Vertrauen ist natürlich schwieriger, weil es kein Gegenstand ist. Das ist halt eine Fehlinterpretation vom Sprachmodell, weshalb man eben auch immer genau prüfen muss, was es tut.

Was kommt denn als Antwort, wenn Du fragst "warum wurde das in diese Kategorie einsortiert?"

Dann meint es, dass es eindeutig falsch war. Er ließt es und kategorisiert es richtig. Deshalb ist im Prompt drinnen, dass es zuerst den Inhalt lesen und dann erst zuordnen soll. Dann macht es immer eine richtige Zuordnung, aber es switcht hat immer Richtung Key-Wörtern.

Ergänzung (19. Januar 2026)

Azghul0815 schrieb:
Wenn du 100 Texte eingibst, wieviele werden richtig zugeordnet?

Da ist es etwas besser, aber es werden trotzdem , wenn auch weniger falsche Zuordnungen getroffen

ChatGPT befolgt nicht die Anweisungen

Newbie

Commodore

Vice Admiral Pro

Fleet Admiral

Commodore

Fleet Admiral Pro

Fleet Admiral

Fleet Admiral

Fleet Admiral

Lt. Commander

Ensign

Fleet Admiral

Lieutenant

Fleet Admiral Pro

Lt. Commander

Lt. Junior Grade

Fleet Admiral Pro

Lt. Commander

Lieutenant

Newbie