News Erfolge für Anthropic und Meta: Millionen Bücher für KI-Training zu verwenden, kann legal sein

poi · 26. Juni 2025

@Goldilox netter Versuch, ich habe keinen AdBlock aber erstmal ad hominem argumentieren. Sehr angenehm :-)

LadyAlice · 26. Juni 2025

Nadja... schrieb:
Wenn ich eine KI dafür nutze, funktioniert es aber nicht

Ich denke du missverstehst mich da gerade. Ich rede nicht von den Endnutzer*innen, sondern von den Unternehmen, welche gewerbsmäßig raukopiert haben.
wenn du Millionen Bücher illegal runterlädst als Unternehmen, dann ist das weiterhin illegal.

ascer · 26. Juni 2025

iSight2TheBlind schrieb:
Das Training von AI ist einfach grundsätzlich eine beschissene Situation.

poi schrieb:
AI ist stehlender Müll.

LadyAlice schrieb:
Vor allem sollten ALLE Autor*innen entschädigt werden dafür.

Glücklicherweise seid ihr mit derartigen Ansichten in der Minderheit und - wie die bisherige Situation und auch dieses Urteil zeigt - ist die rechtliche Argumentation nicht haltbar.

Unabhängig davon macht so etwas Gewaltiges wie der Fortschritt nicht vor ideologischen Unkenrufen halt - egal wie laut das Individuum dabei wird.

Nadja... schrieb:
Gutes Urteil!
Man sieht, wie eine neue Branche mit wachsender Lobby gegen die eingesessene Oldschool Lobby kämpft.
Es sollte letztlich darum gehen, was für die Allgemeinheit und nicht Unternehmen besser ist!

This.

Wie gesagt, ein wegweisendes Urteil für den Fortschritt und insbesondere die Begründung stichhaltig:

Im Fall der LLMs nutzt Alsup nun den Vergleich mit dem, was Autoren ohnehin machen. Sie lesen Texte und verwenden diese Inhalte dann in irgendeiner Form. „Sie müssen vielleicht dafür bezahlen, den Text erst einmal in den Händen zu halten. Aber es wäre undenkbar, jemanden für die Nutzung eines Buchs zahlen zu lassen; jedes Mal, wenn sie es aus dem Gedächtnis abrufen, jedes Mal, wenn sie darauf zurückgreifen, um neue Dinge in einer neuen Weise zu schreiben“, so Alsup.

Mimir schrieb:
Wenn ich ein Buch lese und daraus lerne, daraus zitiere oder die Information in irgend einer weise nutze, werde ich dafür als Person ja auch nicht belangt.

Exakt.

Nadja... schrieb:
Wenn du falsch zitierst, wird du auch als Privatperson dafür belangt! 😉
Deshalb ist dies auch Bestandteil in Schulen für Projekte, Bachelorthesis, Dissertationen, etc. und können auch noch viele Jahre später zum realen Problem mit rechtlichen Konsequenzen werden.

Und auch das deckt sich ja absolut mit der verlinkten Begründung. Entscheidend ist nicht das Training (oder wie in den anderen Beispielen etwa, was ich für Bilder mit Photoshop anfertige), sondern ob das Endergebnis ein Plagiat ist oder nicht und vor allem, ob ich es veröffentliche, ob ich damit anstrebe Gewinn, ob ich plane damit Straftaten zu begehen usw. usf.

Die Verwendung und der Inhalt eines Werkes waren schon immer der rechtliche Maßstab - so sollte es auch bei KI sein.

Sehr passend dazu auch:

Nadja... schrieb:
Die KI ist nur ein Werkzeug, wie Messer, Waffen, Autos, etc. für die ebenfalls nicht die Hersteller verantwortlich gemacht werden sollten, sondern die Menschen, welche diese schädlich einsetzen.

iSight2TheBlind schrieb:
Im Prinzip dürfte diese Entwicklung nicht durch kommerzielle Firmen stattfinden um dann anschließend für Geld zur Verfügung gestellt zu werden, sondern müsste - ihren potenziellen Einfluss auf die Gesellschaft berücksichtigend - staatlich oder verstaatlicht stattfinden und der Allgemeinheit zur Verfügung stehen, siehe auch das Thema Robotersteuer.

Klar - weil staatliche Projekte ja immer so gut funktionieren...

LadyAlice · 26. Juni 2025

ascer schrieb:
Glücklicherweise seid ihr mit derartigen Ansichten in der Minderheit und - wie die bisherige Situation und auch dieses Urteil zeigt

Ich denke du hast das Urteil nicht richtig gelesen.
Zitat von Richter Alsup: „We will have a trial on the pirated copies used to create Anthropic’s central library and the resulting damages, actual or statutory (including for willfulness). That Anthropic later bought a copy of a book it earlier stole off the internet will not absolve it of liability for the theft but it may affect the extent of statutory damages.“

Legal = Bücher gebraucht kaufen, zerschneiden, Einscannen und zum Training nutzen.
Illegal = Bücher illegal herunterladen und damit das Modell trainieren, selbst wenn die Bücher nachträglich gekauft werden. Straftat wurde schon begangen.

Komm schon so schwer ist das doch nicht.

7hyrael · 26. Juni 2025

iSight2TheBlind schrieb:
nicht durch kommerzielle Firmen stattfinden um dann anschließend für Geld zur Verfügung gestellt zu werden, sondern müsste - ihren potenziellen Einfluss auf die Gesellschaft berücksichtigend - staatlich oder verstaatlicht stattfinden

wenn du kein interesse hast dass es je fertig wird und dafür irgendwann in einem desaströsen, unfertigen zustand einfach hingeklatscht wird.... klar machen wir das staatlich.

Ich behaupte du findest nicht mal jemanden der sich als Profi im Bereich AI/ML etc. betiteln darf und freiwillig für die Almosen einer Staatlichen Einrichtung bereit wäre zu arbeiten.

Mimir · 26. Juni 2025

LadyAlice schrieb:
denn bei letzterem kannst du die entsprechenden Dinge durchaus entfernen.

Nein, meines wissens ist das unmöglich, ohne das LLM vollständig zu löschen und zu verwerfen.

Denn schließlich trägt das Wissen aus dem Buch dazu bei, wie weitere Inhalte verarbeitet und gewichtet werden. Aber gut, ich bin kein KI experte, würde aber jede Wette eingehen, dass das technisch nicht möglich ist.

ascer · 26. Juni 2025

LadyAlice schrieb:
Legal = Bücher gebraucht kaufen, zerschneiden, Einscannen und zum Training nutzen.
Illegal = Bücher illegal herunterladen und damit das Modell trainieren, selbst wenn die Bücher nachträglich gekauft werden. Straftat wurde schon begangen.

Ich habe noch nie etwas anderes behauptet. Im Gegenteil, wenn du meine Posts hier und auch in anderen Threads liest, dann habe ich schon immer gesagt, dass (1) illegal beschaffte Werke sowie (2) Plagiate natürlich urheberrechtlich relevant und die Taten dementsprechend zu ahnden sind.

Meine Argumentationslinie und auch der gesamte Post hier betraf exakt:

Im Fall der LLMs nutzt Alsup nun den Vergleich mit dem, was Autoren ohnehin machen. Sie lesen Texte und verwenden diese Inhalte dann in irgendeiner Form. „Sie müssen vielleicht dafür bezahlen, den Text erst einmal in den Händen zu halten. Aber es wäre undenkbar, jemanden für die Nutzung eines Buchs zahlen zu lassen; jedes Mal, wenn sie es aus dem Gedächtnis abrufen, jedes Mal, wenn sie darauf zurückgreifen, um neue Dinge in einer neuen Weise zu schreiben“, so Alsup.

Du hingegen hast durchaus behauptet, dass die reine Verwendung von Daten ohne Einverständnis der Kunstschaffenden bereits geistiger Diebstahl wäre - was hier ganz klar als "Fair Use" ausgelegt wurde.

Alle Unternehmen haben im großen Stil Bücher gekauft, digital oder auch Printmedien und diese dann digitalisiert. Oder veröffentlichtes Material aus dem Internet benutzt. Diese Praxis hast du und auch andere hier so schon abwertend dargestellt.

Dass darüber hinaus teilweise auch in der Tat Texte illegal beschafft wurden, die nicht aus frei zugänglich oder gekauftem Material entstammtem, schmälert die Entscheidung in keinster Weise - und wird ja auch (zurecht) rechtlich weiter verfolgt werden.

iron_monkey · 26. Juni 2025

Deren ganzes Geschäftsmodell ist nicht rentabel, wenn sie die Daten kaufen müssten und nicht einfach klauen... niemand hindert sie daran alles zu kaufen und mit den gekauften Daten die KIs zu trainieren.

LadyAlice · 26. Juni 2025

ascer schrieb:
Alle Unternehmen haben im großen Stil Bücher gekauft, digital oder auch Printmedien und diese dann digitalisiert. Oder veröffentlichtes Material aus dem Internet benutzt. Diese Praxis hast du und auch andere hier so schon abwertend dargestellt

Das habe ich getan, weil OpenAi, Anthropic und Co. Z.b auch im großen Stil von Seiten wie AO3 schon Daten abgegriffen haben, obwohl das Z.b bei AO3 t3ch ische Methoden implementiert worden sind die dies verhindern sollen und da Z.b auch laut Terms of Service nicht erlaubt ist.
Sowas ist der Grund warum ich so sauer bin, ich hoffe damit ist das etwas klarer. Ich hoffe du siehst es ähnlich wenn Unternehmen AGBs aktiv verletzen um Daten zu sammeln, dass das ebenfalls nicht okay ist

chillipepper · 26. Juni 2025

stevefrogs schrieb:
Wenn auch nur eine gute Sache aus dem KI-Boom übrig bleibt, dann hoffentlich, dass das überkommene Urheberrecht beerdigt wird.

Solche Statements kommen meist von Menschen, die noch nie erlebt haben, wie es ist, wenn die eigene Arbeit einfach geklaut und verwertet wird.

Ergänzung (26. Juni 2025)

OrtusMalum schrieb:
Aber bei den KI-Modellen sieht man halt auch die Doppelmoral derer die sie Erstellen. Für die Nutzung der KI horrende Monatsabos verlangen, aber sich am Content anderer Kostenlos bedienen wollen. Dann sollen ses wie bei der GEMA machen und jedes mal wenn der Content eines Urhebers genutzt wird, soll der Urheber ein paar Groschen bekommen. Gepaart mit eine Sinvollen Urheberschutz-Frist haben am Ende alle was davon.

Ja, fair ist das nicht.

Ähnlich geht es doch auch in anderen Bereichen ab .. z.B. streamen von Musik. Da kommen dann die kritischen Kommentare (also "pro streaming") von denjenigen, die selbst auch noch nie von Kunst leben mussten.

poi · 26. Juni 2025

Wenn für das geklaute Material gezahlt wird ist das immerhin etwas. Dann kann man sich ja schön dran verdienen. Kleines Buch schreiben, teuer verkaufen, wird gerippt, dann kommt die Klage und das Geld. Finde ich fair.
Edit: Am besten noch von AI schreiben lassen :-)

LadyAlice · 26. Juni 2025

Der Witz ist ja, bei US Recht kostet das raubkopieren eines Werkes schon bei einem einzelnen Mindestens 200 USD, bei Vorsatz werden es schnell 150.000 USD pro Werk. Kein Witz btw.

Und ich sehe da durchaus Vorsatz wenn Anthropic her geht und Millionenfach Werke illegal herunterlädt.

ascer · 26. Juni 2025

iron_monkey schrieb:
Deren ganzes Geschäftsmodell ist nicht rentabel, wenn sie die Daten kaufen müssten und nicht einfach klauen... niemand hindert sie daran alles zu kaufen und mit den gekauften Daten die KIs zu trainieren.

Das ist eben inkorrekt. Alle Unternehmen, die LLMs trainieren, haben im großen Stil Texte gekauft. Ebenso viele frei verfügbare Texte verwendet oder Ausschnitte, die online publiziert wurden. Und dann unter "Fair Use" für das Training verwendet wurden.

Natürlich gibt es auch Fälle von Werken, die illegal beschafft worden - da gibt es ja aber auch, wie ebenfalls hier im Artikel beschrieben - rechtliche Konsequenzen.

LadyAlice schrieb:
Das habe ich getan, weil OpenAi, Anthropic und Co. Z.b auch im großen Stil von Seiten wie AO3 schon Daten abgegriffen haben, obwohl das Z.b bei AO3 t3ch ische Methoden implementiert worden sind die dies verhindern sollen und da Z.b auch laut Terms of Service nicht erlaubt ist.

Zum einen hättest du ja durchaus spezifisch auf derartige Fälle eingehen können. Du hast aber, wie gesagt, in unzähligen Posts pauschal gegen AI Training gewettert. Du hast auch ganz allgemein "Fair Use" abgestritten. Sogar polemisch hast du dich über "Fair Use" und die beteiligten Unternehmen geäußert:

LadyAlice schrieb:
Ohne ihre LLMs wüssten Anthropic, Meta h d co doch nicht einmal wie Fair Use buchstabiert wird. Unmoralische Branche.

Zum anderen ist der Fall von "Archive of Our Own" durchaus mindestens strittig. In ihren eigenen Nutzungsbedingungen wird z.B. nur Folgendes ausgeschlossen:

[scraping] (...) to conduct any commercial activity, whether for direct or indirect commercial advantage, including (without limitation) making available any advertising, spam, or other solicitation, or scraping Content in order to commercialize it;

Darunter fällt AI Training nicht. Man veröffentlicht das Material weder noch plant man das Material selbst kommerziell zu nutzen. Man lässt die AI eben nur davon lernen.

Bei diesem Fall ist es im Übrigen auch nur deshalb zu einem DCMA takedown gekommen, weil es sich hierbei eben nicht um ein Unternehmen handelte, sondern eine Einzelperson, die daraus einen Datensatz angefertigt und besagten Datensatz auf HuggingFace veröffentlicht hat. Das ist ein gewaltiger Unterschied zu einer reinen, internen Verwendung der Daten zwecks AI Training.

Übrigens meckerst du auch hier gegen die Falschen, denn Archive of Our Own erlaubt Scraping. Von AO3 selbst:

Sie haben auch mehrfach klargemacht, dass das reine Sammeln von Texten eben nicht gegen ihre Richtlinien verstößt. Nur das unerlaubte Veröffentlichen oder der Versuch der Verkauf der Daten verstößt gegen die Richtlinien.

Das war eben bei dem von AO3 erwähnten Fall genau der springende Punkt: der fragliche User hat die Daten veröffentlicht. Ohne Genehmigung. Und auf Reddit wurde ebenfalls kommuniziert, dass die Daten wohl in aufbereiteter Form verkauft werden sollten.

Bl4cke4gle · 26. Juni 2025

Ich liebe dieses Forum...

"Große Firmen sind doof [und ich selbst so arm dran]"
"Urheberrecht ist doof"
"KI ist doof"

Und das alles unter einer News, die ÜBERHAUPT NICHTS damit zu tun hat, sondern nur, was für KI-Training verwendet werden darf und was nicht. Ja, Training. Nein, nicht Veröffentlichung von Texten, die mit KI erstellt wurden. Ja genau, NUR Training.

An dieser Stelle einfach mal ein Danke an die paar jenigen hier, die tatsächlich was Erhellendes zum eigentlichen Thema beigetragen haben.

iron_monkey · 26. Juni 2025

chillipepper schrieb:
Solche Statements kommen meist von Menschen, die noch nie erlebt haben, wie es ist, wenn die eigene Arbeit einfach geklaut und verwertet wird.

Doch er erlebt es auch und heult wie alle anderen auch rum... nennt sich in dem Fall nur Steuer und hat im Gegensatz zur Bereicherung einer winzigen Gruppe von Raubmordkopierern (in diesem Fall), tatsächlich Vorteile für alle.

-Tris- · 26. Juni 2025

Liebe Ki, schreibe mir in "deinen" Worten den Inhalt des Buches xy .... ich bin mir nicht sicher, aber ich habe das Gefühl der Richter hat sich das zu einfach gemacht, vor allem umso besser Sprachmodelle werden ist das ein echt dünnes Eis

LuxSkywalker · 26. Juni 2025

Bl4cke4gle schrieb:
...
Und das alles unter einer News, die ÜBERHAUPT NICHTS damit zu tun hat, sondern nur, was für KI-Training verwendet werden darf und was nicht. Ja, Training. Nein, nicht Veröffentlichung von Texten, die mit KI erstellt wurden. Ja genau, NUR Training.
...

NUR Training - nur das genau dieses Training später benutzt wird um damit Geld zu verdienen ^^ auf kosten anderer. Ohne die ganzen Trainingsdaten gäbe es nämlich nix womit deren AI trainiert hätte werden können.

Gleiches Recht für alle. Was diese ganzen AI Schmarotzer aktuell abziehen ist asozial.

Aber anscheinend haben die ausreichend Geld um sich damit schadlos zu halten

Andrej.S. · 26. Juni 2025

Ein Hoch auf die US Bro-ciety. Mit Geld lassen sich auch Gesetze interpretieren.

Bl4cke4gle · 26. Juni 2025

LuxSkywalker schrieb:
NUR Training - nur das genau dieses Training später benutzt wird um damit Geld zu verdienen ^^

Oh nein, ich habe in Schule und Studium ebenfalls Bücher gelesen und nutze dieses Wissen nun in meinem Beruf um Geld zu verdienen. 😱

Ich sehe ja ein, dass hier ein offener Rechtsraum entsteht. Grundsätzlich steht es erstmal jedem zu, sich zu bilden und auch dieses Wissen zu nutzen. Und das, was durch die LLMs aktuell passiert, ist im Kleinen zuvor halt ständig passiert. Leute werden Experten in bestimmten Themen und schreiben Bücher darüber. Ihr eigenes Wissen kommt ebenfalls wiederum aus Büchern. Jetzt mit den LLMs nimmt das nur ganz neue Dimensionen an. Wobei ja noch nicht mal sicher gesagt ist, dass auch tatsächlich jeder in Zukunft sich über LLMs informiert und nicht doch noch Bücher kauft.
Es muss halt geklärt werden und wird es ja wohl auch gerade.

Ich wollte mit meinem Post ja auch nicht sagen, dass das alles ok ist, ich wollte nur sagen, wie erstaunlich schnell es mal wieder vom eigentlich Inhalt der News hin zu allgemeinem Gebashe gewechselt ist.

Und da habe ich mich einfach an den Posts erfreut, die tatsächlich beim eigentlichen Thema geblieben sind.

chillipepper · 26. Juni 2025

iron_monkey schrieb:
Doch er erlebt es auch und heult wie alle anderen auch rum... nennt sich in dem Fall nur Steuer und hat im Gegensatz zur Bereicherung einer winzigen Gruppe von Raubmordkopierern (in diesem Fall), tatsächlich Vorteile für alle.

Das schrieb er aber nicht, er hat sich nur uneingeschränkt gegen das Urheberrecht ausgesprochen.

News Erfolge für Anthropic und Meta: Millionen Bücher für KI-Training zu verwenden, kann legal sein

Lt. Junior Grade

Lt. Junior Grade

Captain

Lt. Junior Grade

Rear Admiral

Commodore

Captain

Vice Admiral

Lt. Junior Grade

Lieutenant

Lt. Junior Grade

Lt. Junior Grade

Captain

Rear Admiral Pro

Vice Admiral

Cadet 4th Year

Lieutenant

Cadet 4th Year

Rear Admiral Pro

Lieutenant

Ähnliche Themen