News Erfolge für Anthropic und Meta: Millionen Bücher für KI-Training zu verwenden, kann legal sein

@Goldilox netter Versuch, ich habe keinen AdBlock aber erstmal ad hominem argumentieren. Sehr angenehm :-)
 
Nadja... schrieb:
Wenn ich eine KI dafür nutze, funktioniert es aber nicht
Ich denke du missverstehst mich da gerade. Ich rede nicht von den Endnutzer*innen, sondern von den Unternehmen, welche gewerbsmäßig raukopiert haben.
wenn du Millionen Bücher illegal runterlädst als Unternehmen, dann ist das weiterhin illegal.
 
  • Gefällt mir
Reaktionen: iSight2TheBlind und LuxSkywalker
iSight2TheBlind schrieb:
Das Training von AI ist einfach grundsätzlich eine beschissene Situation.
poi schrieb:
AI ist stehlender Müll.
LadyAlice schrieb:
Vor allem sollten ALLE Autor*innen entschädigt werden dafür.
Glücklicherweise seid ihr mit derartigen Ansichten in der Minderheit und - wie die bisherige Situation und auch dieses Urteil zeigt - ist die rechtliche Argumentation nicht haltbar.

Unabhängig davon macht so etwas Gewaltiges wie der Fortschritt nicht vor ideologischen Unkenrufen halt - egal wie laut das Individuum dabei wird.

Nadja... schrieb:
Gutes Urteil!
Man sieht, wie eine neue Branche mit wachsender Lobby gegen die eingesessene Oldschool Lobby kämpft.
Es sollte letztlich darum gehen, was für die Allgemeinheit und nicht Unternehmen besser ist!
This.

Wie gesagt, ein wegweisendes Urteil für den Fortschritt und insbesondere die Begründung stichhaltig:
Im Fall der LLMs nutzt Alsup nun den Vergleich mit dem, was Autoren ohnehin machen. Sie lesen Texte und verwenden diese Inhalte dann in irgendeiner Form. „Sie müssen vielleicht dafür bezahlen, den Text erst einmal in den Händen zu halten. Aber es wäre undenkbar, jemanden für die Nutzung eines Buchs zahlen zu lassen; jedes Mal, wenn sie es aus dem Gedächtnis abrufen, jedes Mal, wenn sie darauf zurückgreifen, um neue Dinge in einer neuen Weise zu schreiben“, so Alsup.


Mimir schrieb:
Wenn ich ein Buch lese und daraus lerne, daraus zitiere oder die Information in irgend einer weise nutze, werde ich dafür als Person ja auch nicht belangt.
Exakt.
Nadja... schrieb:
Wenn du falsch zitierst, wird du auch als Privatperson dafür belangt! 😉
Deshalb ist dies auch Bestandteil in Schulen für Projekte, Bachelorthesis, Dissertationen, etc. und können auch noch viele Jahre später zum realen Problem mit rechtlichen Konsequenzen werden.
Und auch das deckt sich ja absolut mit der verlinkten Begründung. Entscheidend ist nicht das Training (oder wie in den anderen Beispielen etwa, was ich für Bilder mit Photoshop anfertige), sondern ob das Endergebnis ein Plagiat ist oder nicht und vor allem, ob ich es veröffentliche, ob ich damit anstrebe Gewinn, ob ich plane damit Straftaten zu begehen usw. usf.

Die Verwendung und der Inhalt eines Werkes waren schon immer der rechtliche Maßstab - so sollte es auch bei KI sein.

Sehr passend dazu auch:
Nadja... schrieb:
Die KI ist nur ein Werkzeug, wie Messer, Waffen, Autos, etc. für die ebenfalls nicht die Hersteller verantwortlich gemacht werden sollten, sondern die Menschen, welche diese schädlich einsetzen.



iSight2TheBlind schrieb:
Im Prinzip dürfte diese Entwicklung nicht durch kommerzielle Firmen stattfinden um dann anschließend für Geld zur Verfügung gestellt zu werden, sondern müsste - ihren potenziellen Einfluss auf die Gesellschaft berücksichtigend - staatlich oder verstaatlicht stattfinden und der Allgemeinheit zur Verfügung stehen, siehe auch das Thema Robotersteuer.
Klar - weil staatliche Projekte ja immer so gut funktionieren... :lol:
 
  • Gefällt mir
Reaktionen: Nadja... und Kuristina
ascer schrieb:
Glücklicherweise seid ihr mit derartigen Ansichten in der Minderheit und - wie die bisherige Situation und auch dieses Urteil zeigt
Ich denke du hast das Urteil nicht richtig gelesen.
Zitat von Richter Alsup: „We will have a trial on the pirated copies used to create Anthropic’s central library and the resulting damages, actual or statutory (including for willfulness). That Anthropic later bought a copy of a book it earlier stole off the internet will not absolve it of liability for the theft but it may affect the extent of statutory damages.“

Legal = Bücher gebraucht kaufen, zerschneiden, Einscannen und zum Training nutzen.
Illegal = Bücher illegal herunterladen und damit das Modell trainieren, selbst wenn die Bücher nachträglich gekauft werden. Straftat wurde schon begangen.

Komm schon so schwer ist das doch nicht.
 
  • Gefällt mir
Reaktionen: LuxSkywalker
iSight2TheBlind schrieb:
nicht durch kommerzielle Firmen stattfinden um dann anschließend für Geld zur Verfügung gestellt zu werden, sondern müsste - ihren potenziellen Einfluss auf die Gesellschaft berücksichtigend - staatlich oder verstaatlicht stattfinden
wenn du kein interesse hast dass es je fertig wird und dafür irgendwann in einem desaströsen, unfertigen zustand einfach hingeklatscht wird.... klar machen wir das staatlich.

Ich behaupte du findest nicht mal jemanden der sich als Profi im Bereich AI/ML etc. betiteln darf und freiwillig für die Almosen einer Staatlichen Einrichtung bereit wäre zu arbeiten.
 
  • Gefällt mir
Reaktionen: tritratrullala, Kuristina und ascer
LadyAlice schrieb:
denn bei letzterem kannst du die entsprechenden Dinge durchaus entfernen.

Nein, meines wissens ist das unmöglich, ohne das LLM vollständig zu löschen und zu verwerfen.

Denn schließlich trägt das Wissen aus dem Buch dazu bei, wie weitere Inhalte verarbeitet und gewichtet werden. Aber gut, ich bin kein KI experte, würde aber jede Wette eingehen, dass das technisch nicht möglich ist.
 
LadyAlice schrieb:
Legal = Bücher gebraucht kaufen, zerschneiden, Einscannen und zum Training nutzen.
Illegal = Bücher illegal herunterladen und damit das Modell trainieren, selbst wenn die Bücher nachträglich gekauft werden. Straftat wurde schon begangen.
Ich habe noch nie etwas anderes behauptet. Im Gegenteil, wenn du meine Posts hier und auch in anderen Threads liest, dann habe ich schon immer gesagt, dass (1) illegal beschaffte Werke sowie (2) Plagiate natürlich urheberrechtlich relevant und die Taten dementsprechend zu ahnden sind.

Meine Argumentationslinie und auch der gesamte Post hier betraf exakt:
Im Fall der LLMs nutzt Alsup nun den Vergleich mit dem, was Autoren ohnehin machen. Sie lesen Texte und verwenden diese Inhalte dann in irgendeiner Form. „Sie müssen vielleicht dafür bezahlen, den Text erst einmal in den Händen zu halten. Aber es wäre undenkbar, jemanden für die Nutzung eines Buchs zahlen zu lassen; jedes Mal, wenn sie es aus dem Gedächtnis abrufen, jedes Mal, wenn sie darauf zurückgreifen, um neue Dinge in einer neuen Weise zu schreiben“, so Alsup.

Du hingegen hast durchaus behauptet, dass die reine Verwendung von Daten ohne Einverständnis der Kunstschaffenden bereits geistiger Diebstahl wäre - was hier ganz klar als "Fair Use" ausgelegt wurde.

Alle Unternehmen haben im großen Stil Bücher gekauft, digital oder auch Printmedien und diese dann digitalisiert. Oder veröffentlichtes Material aus dem Internet benutzt. Diese Praxis hast du und auch andere hier so schon abwertend dargestellt.

Dass darüber hinaus teilweise auch in der Tat Texte illegal beschafft wurden, die nicht aus frei zugänglich oder gekauftem Material entstammtem, schmälert die Entscheidung in keinster Weise - und wird ja auch (zurecht) rechtlich weiter verfolgt werden.
 
  • Gefällt mir
Reaktionen: Solavidos
Deren ganzes Geschäftsmodell ist nicht rentabel, wenn sie die Daten kaufen müssten und nicht einfach klauen... niemand hindert sie daran alles zu kaufen und mit den gekauften Daten die KIs zu trainieren.
 
  • Gefällt mir
Reaktionen: Alphanerd, Kaufmannsladen, LuxSkywalker und 2 andere
ascer schrieb:
Alle Unternehmen haben im großen Stil Bücher gekauft, digital oder auch Printmedien und diese dann digitalisiert. Oder veröffentlichtes Material aus dem Internet benutzt. Diese Praxis hast du und auch andere hier so schon abwertend dargestellt
Das habe ich getan, weil OpenAi, Anthropic und Co. Z.b auch im großen Stil von Seiten wie AO3 schon Daten abgegriffen haben, obwohl das Z.b bei AO3 t3ch ische Methoden implementiert worden sind die dies verhindern sollen und da Z.b auch laut Terms of Service nicht erlaubt ist.
Sowas ist der Grund warum ich so sauer bin, ich hoffe damit ist das etwas klarer. Ich hoffe du siehst es ähnlich wenn Unternehmen AGBs aktiv verletzen um Daten zu sammeln, dass das ebenfalls nicht okay ist
 
stevefrogs schrieb:
Wenn auch nur eine gute Sache aus dem KI-Boom übrig bleibt, dann hoffentlich, dass das überkommene Urheberrecht beerdigt wird.

Solche Statements kommen meist von Menschen, die noch nie erlebt haben, wie es ist, wenn die eigene Arbeit einfach geklaut und verwertet wird.
Ergänzung ()

OrtusMalum schrieb:
Aber bei den KI-Modellen sieht man halt auch die Doppelmoral derer die sie Erstellen. Für die Nutzung der KI horrende Monatsabos verlangen, aber sich am Content anderer Kostenlos bedienen wollen. Dann sollen ses wie bei der GEMA machen und jedes mal wenn der Content eines Urhebers genutzt wird, soll der Urheber ein paar Groschen bekommen. Gepaart mit eine Sinvollen Urheberschutz-Frist haben am Ende alle was davon.
Ja, fair ist das nicht.

Ähnlich geht es doch auch in anderen Bereichen ab .. z.B. streamen von Musik. Da kommen dann die kritischen Kommentare (also "pro streaming") von denjenigen, die selbst auch noch nie von Kunst leben mussten.
 
  • Gefällt mir
Reaktionen: Alphanerd, LuxSkywalker, tritratrullala und 2 andere
Wenn für das geklaute Material gezahlt wird ist das immerhin etwas. Dann kann man sich ja schön dran verdienen. Kleines Buch schreiben, teuer verkaufen, wird gerippt, dann kommt die Klage und das Geld. Finde ich fair.
Edit: Am besten noch von AI schreiben lassen :-)
 
Der Witz ist ja, bei US Recht kostet das raubkopieren eines Werkes schon bei einem einzelnen Mindestens 200 USD, bei Vorsatz werden es schnell 150.000 USD pro Werk. Kein Witz btw.

Und ich sehe da durchaus Vorsatz wenn Anthropic her geht und Millionenfach Werke illegal herunterlädt.
 
iron_monkey schrieb:
Deren ganzes Geschäftsmodell ist nicht rentabel, wenn sie die Daten kaufen müssten und nicht einfach klauen... niemand hindert sie daran alles zu kaufen und mit den gekauften Daten die KIs zu trainieren.
Das ist eben inkorrekt. Alle Unternehmen, die LLMs trainieren, haben im großen Stil Texte gekauft. Ebenso viele frei verfügbare Texte verwendet oder Ausschnitte, die online publiziert wurden. Und dann unter "Fair Use" für das Training verwendet wurden.

Natürlich gibt es auch Fälle von Werken, die illegal beschafft worden - da gibt es ja aber auch, wie ebenfalls hier im Artikel beschrieben - rechtliche Konsequenzen.

LadyAlice schrieb:
Das habe ich getan, weil OpenAi, Anthropic und Co. Z.b auch im großen Stil von Seiten wie AO3 schon Daten abgegriffen haben, obwohl das Z.b bei AO3 t3ch ische Methoden implementiert worden sind die dies verhindern sollen und da Z.b auch laut Terms of Service nicht erlaubt ist.
Zum einen hättest du ja durchaus spezifisch auf derartige Fälle eingehen können. Du hast aber, wie gesagt, in unzähligen Posts pauschal gegen AI Training gewettert. Du hast auch ganz allgemein "Fair Use" abgestritten. Sogar polemisch hast du dich über "Fair Use" und die beteiligten Unternehmen geäußert:
LadyAlice schrieb:
Ohne ihre LLMs wüssten Anthropic, Meta h d co doch nicht einmal wie Fair Use buchstabiert wird. Unmoralische Branche.

Zum anderen ist der Fall von "Archive of Our Own" durchaus mindestens strittig. In ihren eigenen Nutzungsbedingungen wird z.B. nur Folgendes ausgeschlossen:
[scraping] (...) to conduct any commercial activity, whether for direct or indirect commercial advantage, including (without limitation) making available any advertising, spam, or other solicitation, or scraping Content in order to commercialize it;
Darunter fällt AI Training nicht. Man veröffentlicht das Material weder noch plant man das Material selbst kommerziell zu nutzen. Man lässt die AI eben nur davon lernen.

Bei diesem Fall ist es im Übrigen auch nur deshalb zu einem DCMA takedown gekommen, weil es sich hierbei eben nicht um ein Unternehmen handelte, sondern eine Einzelperson, die daraus einen Datensatz angefertigt und besagten Datensatz auf HuggingFace veröffentlicht hat. Das ist ein gewaltiger Unterschied zu einer reinen, internen Verwendung der Daten zwecks AI Training.

Übrigens meckerst du auch hier gegen die Falschen, denn Archive of Our Own erlaubt Scraping. Von AO3 selbst:

1750950450015.png


Sie haben auch mehrfach klargemacht, dass das reine Sammeln von Texten eben nicht gegen ihre Richtlinien verstößt. Nur das unerlaubte Veröffentlichen oder der Versuch der Verkauf der Daten verstößt gegen die Richtlinien.

Das war eben bei dem von AO3 erwähnten Fall genau der springende Punkt: der fragliche User hat die Daten veröffentlicht. Ohne Genehmigung. Und auf Reddit wurde ebenfalls kommuniziert, dass die Daten wohl in aufbereiteter Form verkauft werden sollten.
 
  • Gefällt mir
Reaktionen: Solavidos
Ich liebe dieses Forum...

"Große Firmen sind doof [und ich selbst so arm dran]"
"Urheberrecht ist doof"
"KI ist doof"

Und das alles unter einer News, die ÜBERHAUPT NICHTS damit zu tun hat, sondern nur, was für KI-Training verwendet werden darf und was nicht. Ja, Training. Nein, nicht Veröffentlichung von Texten, die mit KI erstellt wurden. Ja genau, NUR Training.

An dieser Stelle einfach mal ein Danke an die paar jenigen hier, die tatsächlich was Erhellendes zum eigentlichen Thema beigetragen haben.
 
  • Gefällt mir
Reaktionen: Solavidos, Kaufmannsladen und ascer
chillipepper schrieb:
Solche Statements kommen meist von Menschen, die noch nie erlebt haben, wie es ist, wenn die eigene Arbeit einfach geklaut und verwertet wird.

Doch er erlebt es auch und heult wie alle anderen auch rum... nennt sich in dem Fall nur Steuer und hat im Gegensatz zur Bereicherung einer winzigen Gruppe von Raubmordkopierern (in diesem Fall), tatsächlich Vorteile für alle.
 
Liebe Ki, schreibe mir in "deinen" Worten den Inhalt des Buches xy .... ich bin mir nicht sicher, aber ich habe das Gefühl der Richter hat sich das zu einfach gemacht, vor allem umso besser Sprachmodelle werden ist das ein echt dünnes Eis
 
Bl4cke4gle schrieb:
...
Und das alles unter einer News, die ÜBERHAUPT NICHTS damit zu tun hat, sondern nur, was für KI-Training verwendet werden darf und was nicht. Ja, Training. Nein, nicht Veröffentlichung von Texten, die mit KI erstellt wurden. Ja genau, NUR Training.
...
NUR Training - nur das genau dieses Training später benutzt wird um damit Geld zu verdienen ^^ auf kosten anderer. Ohne die ganzen Trainingsdaten gäbe es nämlich nix womit deren AI trainiert hätte werden können.

Gleiches Recht für alle. Was diese ganzen AI Schmarotzer aktuell abziehen ist asozial.

Aber anscheinend haben die ausreichend Geld um sich damit schadlos zu halten
 
  • Gefällt mir
Reaktionen: -Tris- und LadyAlice
LuxSkywalker schrieb:
NUR Training - nur das genau dieses Training später benutzt wird um damit Geld zu verdienen ^^
Oh nein, ich habe in Schule und Studium ebenfalls Bücher gelesen und nutze dieses Wissen nun in meinem Beruf um Geld zu verdienen. 😱

Ich sehe ja ein, dass hier ein offener Rechtsraum entsteht. Grundsätzlich steht es erstmal jedem zu, sich zu bilden und auch dieses Wissen zu nutzen. Und das, was durch die LLMs aktuell passiert, ist im Kleinen zuvor halt ständig passiert. Leute werden Experten in bestimmten Themen und schreiben Bücher darüber. Ihr eigenes Wissen kommt ebenfalls wiederum aus Büchern. Jetzt mit den LLMs nimmt das nur ganz neue Dimensionen an. Wobei ja noch nicht mal sicher gesagt ist, dass auch tatsächlich jeder in Zukunft sich über LLMs informiert und nicht doch noch Bücher kauft.
Es muss halt geklärt werden und wird es ja wohl auch gerade.

Ich wollte mit meinem Post ja auch nicht sagen, dass das alles ok ist, ich wollte nur sagen, wie erstaunlich schnell es mal wieder vom eigentlich Inhalt der News hin zu allgemeinem Gebashe gewechselt ist. ;)
Und da habe ich mich einfach an den Posts erfreut, die tatsächlich beim eigentlichen Thema geblieben sind. ;)
 
  • Gefällt mir
Reaktionen: Solavidos und ascer
iron_monkey schrieb:
Doch er erlebt es auch und heult wie alle anderen auch rum... nennt sich in dem Fall nur Steuer und hat im Gegensatz zur Bereicherung einer winzigen Gruppe von Raubmordkopierern (in diesem Fall), tatsächlich Vorteile für alle.

Das schrieb er aber nicht, er hat sich nur uneingeschränkt gegen das Urheberrecht ausgesprochen.
 
  • Gefällt mir
Reaktionen: iron_monkey
Zurück
Oben