Kurz:
OpenAI sagt öffentlich nicht, dass bereits trainierte Basismodelle nachträglich „neu ohne bestimmte Bücher/Liedtexte“ trainiert wurden. OpenAI macht generell
keine detaillierten Angaben zu den konkreten Trainingskorpora früherer Modelle (z. B. GPT-4-Report), daher gibt es dazu keine verifizierbare Bestätigung.
Was man belegen kann:
- Es werden regelmäßig neue Modellgenerationen trainiert (z. B. GPT-4o, GPT-4.1, o-Serie).
- Prospektive Kontrollen: ChatGPT-Nutzer können künftige Nutzung ihrer Inhalte fürs Training abschalten („Improve the model for everyone“) – das wirkt ab Opt-out, nicht rückwirkend. API-/Enterprise-Daten werden standardmäßig nicht zum Training verwendet.
- Quellensteuerung: Website-Betreiber können OpenAIs Crawler (z. B. GPTBot & Co.) via robots.txt aussperren; zusätzlich setzt OpenAI zunehmend auf lizenzierte Inhalte/Partnerschaften.
Deine These („am nachhaltigsten ist: neu trainieren ohne diese Datensätze“) ist grundsätzlich richtig – wenn man garantieren will, dass bestimmte Werke keinen Einfluss haben, führt an einem
Neu-Training mit kuratiertem/lizenziertem Datenmix kaum ein Weg vorbei. Ob und wann OpenAI das konkret für den Zweck des
Entfernens bestimmter Korpora getan hat, ist öffentlich
nicht belegt.
Wenn du willst, sag mir kurz, ob es um
eigene Inhalte,
eine Webseite oder
Unternehmens-/API-Daten geht – dann gebe ich dir die passenden Schritte (Opt-out, robots.txt-Snippet, Daten-/Retention-Einstellungen) in 1–2 Punkten mit Links.