OpenAI: Entwicklung von ChatGPT ohne Copyright-Material unmöglich

9.1.2024 17:15 Uhr

OpenAI wehrt sich gegen die Vorwürfe, das Urheberrecht beim Training der AI-Modelle verletzt zu haben. Das massenhafte Sammeln und Training mit im Internet zugänglichen Daten werde durch die Fair-Use-Regeln gedeckt. Allerdings räumt man ein, dass sich zeitgemäße AI-Modelle nicht ohne Copyright-Inhalte entwickeln lassen.

Ausschlaggebend für die aktuelle Entwicklung ist die Klage der New York Times, die OpenAI – und Microsoft als Partner – vorwirft, geschützte Inhalte ohne Erlaubnis verwendet zu haben. In einem Blog-Beitrag reagiert OpenAI nun. Dort erklärt man zunächst, wie bedeutsam die Zusammenarbeit mit Nachrichtenorganisationen und Verlagen sei, man wolle journalistische Angebote unterstützen. Das erfolge durch das Bereitstellen von Tools sowie die Abkommen mit Verlagen und Medienbetrieben wie Axel Springer, durch die News-Inhalte künftig direkt in ChatGPT ausgespielt werden.

OpenAI hätte lieber mit New York Times kooperiert

Die Vorwürfe aus der Klage bestreitet OpenAI, das Training mit geschützten Daten wäre durch die „Fair-Use“-Klauseln gedeckt. Zudem hätten Web-Angebote mittlerweile die Möglichkeit, OpenAIs Web-Crawler über einen Robots.txt-Eintrag auszuschließen.

Dass ChatGPT bisweilen Original-Artikel direkt ausgibt, beschreibt man als Fehler, der selten auftritt – es handele sich um das sogenannte „Regurgitation“. OpenAI arbeite intensiv daran, es zu beseitigen. Dass New-York-Times-Artikel entsprechend in ChatGPT ausgegeben worden sind, sei daher bedauerlich. Allerdings wirft man der Zeitung auch vor, entsprechende Vorfälle mit gezielten Prompt-Eingaben bewusst provoziert zu haben.

Wie schon in den ersten Stellungnahmen bedauert OpenAI, dass es kein Abkommen mit der New York Times gibt. Wie beim Axel-Springer-Deal strebe man eine Premium-Partnerschaft an, durch die Inhalte der Zeitung direkt in ChatGPT abrufbar sein sollen. Von der Klage wurde man überrascht.

Ohne Copyright-Material kein ChatGPT

Für mehr Aufmerksamkeit als der Blog-Beitrag sorgt derweil ein Schreiben an das britische House of Lords (PDF), von dem der Guardian berichtet. Denn in diesem erklärt OpenAI, dass die Entwicklung zeitgemäßer AI-Modelle ohne urheberrechtlich geschütztes Material unmöglich sei.

Because copyright today covers virtually every sort of human expression – including blog posts, photographs, forum posts, scraps of software code, and government documents – it would be impossible to train today’s leading AI models without using copyrighted materials. Limiting training data to public domain books and drawings created more than a century ago might yield an interesting experiment, but would not provide AI systems that meet the needs of today’s citizens.
OpenAI

Nichtsdestotrotz halte man sich beim Training der Modelle an sämtliche Gesetze, also auch das Urheberrecht – hier gilt erneut der Verweis auf die Fair-Use-Regeln. In den sozialen Medien macht trotzdem Kritik die Runde.

Ob man vor Gericht damit durchkommt, bleibt abzuwarten. Dass ein Urteil entscheidet, ist aber absehbar. Neben der New York Times klagen noch weitere Autoren, Schauspieler und Kreative, weil ihre Werke ohne Erlaubnis verwendet worden sind.

Um solche Streitigkeiten beizulegen, versucht OpenAI, Abkommen mit Presseverlagen auszuhandeln, um Nachrichtenarchive als Trainingsmaterial verwenden zu können. Am weitreichendsten ist bislang der Deal mit Axel Springer, durch den OpenAI nicht nur Trainingsdaten erhält, sondern Inhalte aus den Verlagsangeboten auch in ChatGPT ausspielen kann. Ein weiteres Abkommen mit Datenzugriff besteht bereits mit der Nachrichtenagentur Associated Press, Verhandlungen mit weiteren Medienbetrieben laufen derzeit.