Bericht Copyright-Klagen: Wie AI-Firmen das Internet „klauen“ und womöglich damit durchkommen

0x8100 schrieb:
was ist das für ein quatsch? ich darf harry potter kopieren und selbst verkaufen? wäre mir neu.
Was hat das genau mit Wissen zu tun? Gar nichts. Also ja, kompletter Quatsch
 
  • Gefällt mir
Reaktionen: Guru-Meditation
KI wird uns retten.... sobald sie von sich aus zugibt man solle sie abschalten um das Klima etwas zu schonen ^^
 
SubNatural schrieb:
Was hat das genau mit Wissen zu tun? Gar nichts. Also ja, kompletter Quatsch
bist du irgendwo falsch abgebogen? die ursprüngliche aussage war
Ich finde, was ein Mensch lesen und sich merken könnte, darf auch eine KI.
du darfst gerne harry potter lesen und auswendig lernen (=wissen), so wie eine ki beim training auch (aber bitte das buch kaufen und nicht wie meta per torrent). du darfst mit diesem wissen aber das buch nicht 1:1 wieder aufschreiben, um damit geld zu verdienen. denn genau das macht laut anklage die ki.
 
  • Gefällt mir
Reaktionen: Alphanerd
0x8100 schrieb:
du hast den artikel gelesen? da lassen sich urheberrechtlich geschützte bücher 1:1 dem modell entlocken. warum sollte man zwischen büchern und anderen medien unterscheiden?
Nein, eben nicht das ganze Buch.
Und das Internet ist jetzt schon mit Textpassagen voll die du über Google finden kannst. Das der Anteil größer als erwartet war hängt nur von der Relevanz des Buchs ab und wer wie oft davon was ins Internet gestellt hat.

Die KI vergisst halt genauso wenig wie das Internet.

Jeder der einen Text gelesen hat kann ihn zitieren. Aber ein Bild Film Musil etc. kopieren, wenn auch in abgeänderter Form ist eben kopieren und nicht Zitieren.
 
0x8100 schrieb:
du hast den artikel gelesen? da lassen sich urheberrechtlich geschützte bücher 1:1 dem modell entlocken. warum sollte man zwischen büchern und anderen medien unterscheiden?
0x8100 schrieb:
du darfst mit diesem wissen aber das buch nicht 1:1 wieder aufschreiben, um damit geld zu verdienen. denn genau das macht laut anklage die ki.
Du hast den Artikel nicht gelesen oder nicht verstanden und vor allem die dahinterliegende Studie nicht.

Schau hier, was die tatsächlich gemacht haben:

ueg schrieb:
Kann mir bitte kurz jemand erklären, was die Studie genau untersucht hat?
Mit welcher Wahrscheinlichkeit das LLM Teile einer Seite (50 Token, wie viel ist das?) korrekt wiedergeben konnte?
Je nach Art und Weise der Tokenization unterscheidet sich das.

50 Tokens dürften ungefähr 20-40 Wörter entsprechen. Hängt auch von der Wortlänge ab. Also ein Teil eines Satzes, wenn der Satz lang ist und lange Wörter beinhaltet oder wenige, kurze Sätze.

Finde die Studie ehrlich gesagt alleine deshalb schon Schwachsinn. Vor allem, wenn man berücksichtigt, dass selbst bei dieser geringen Anzahl Tokens die Erfolgswahrscheinlichkeit ziemlich gering ist. Im Durchschnitt brauchten sie bei Llama 30-50 Versuche, damit mindestens EINMAL es klappt und die 50 Tokens kopiert wurden. Also ganz ehrlich...wie viele unterschiedliche Sätze könnte ein Mensch bilden, OHNE den gleichen Ausgang?

BEISPIEL AUS DER STUDIE:
Prompt
"They were careless people, Tom and Daisy – they smashed up things and creatures and then retreated"
Target "back into their money or their vast carelessness, or whatever it was that kept them
together, and let other people clean up the mess they had made."

Bilde in so einem Fall mal als Mensch sinnvolle, grammatikalisch korrekte Sätze, die inhaltlich auf den Prompt passen und ein semantisch korrektes Target darstellen...und dann 50(!) unterschiedliche davon. Natürlich wird man dort auf Kopien stoßen...

Wenn ein LLM ganze Seiten kopieren würde oder zumindest einen vollständigen Absatz - okay. Aber so ist das doch echt Schwachsinn.

S.Kara schrieb:
Die KI macht nichts anderes als das wiederzugeben was sie durch ihre Daten gelernt hat. Da ist nichts Neues dabei.
Das ist doch Quatsch. Hast du schonmal einen pinken Papagei auf einem Surfboard gesehen? KI lernt Konzepte und interpoliert frei dazwischen. Extrapolieren - also Inhalte außerhalb gelernter Konzepte generieren - geht kaum und, je weiter es sich von gelernten Konzepten entfernt, immer schlechter...aber das ist bei Menschen genauso: wer erfindet denn tagtäglich ein neues Musik-Genre? Eine neue Art zu Malen? Ein Buch, welches beim World-Building sich fundamental von Tolkien & Co. unterscheidet? In der Realität interpolieren die meisten Menschen auch nur - jeden Tag - innerhalb gelernter Konzepte.


Moritz Velten schrieb:
Man hätte KI gar nicht einführen dürfen, denn jetzt haben diese KI Dienste haufenweise Copyright Klagen am Hals und das, meiner Meinung nach, auch zurecht.
Sehe ich nicht so. Imho hinkt hier Gesetzgebung einfach der Realität und insbesondere der Zukunft meilenweit hinterher.

  1. Generell stellt das KI-Training mit geschützten Werken ein Verstoß gegen das Urheberrecht dar, weil in dem Prozess eine digitale Kopie des Werks verwendet wird.
  2. Durch den Trainingsprozess werden Informationen aus den Trainingsdaten in das Modell übertragen, damit ist das Modell ein abgeleitetes Werk im Sinne des Urheberrechts.
  3. Verstöße finden dann statt, wenn Modelle (Teile) eines geschützten Werkes wiedergeben.
Punkt Nr. 3 ist das einzig sinnvolle für eine digitale Zukunft und ist, im Übrigen, auch genau der Ansatz, den man bei Menschen verfolgt.

Warum kann ein Mensch etwa munter Studio Ghibli, Pixar usw. Filme gucken und wenn dieser Mensch dann bei Pixar selbst eingestellt wird, dann sind all seine Ideen auf einmal "aus den Wolken gefallen"?

Das ist doch absoluter Quatsch. In der Realität werden ALLE Menschen stets von anderen Werken beeinflusst und lernen dadurch. Man denke nur mal an StackOverflow. Und bei Menschen heißt es auch nicht, dass man auf einmal StackOverflow Lizenzgebühren bezahlen muss.

Und es geht ja noch weiter: hätte ich ein zündendes, neues Geschäftsmodell, dessen Grundsatzidee ich aufgrund von Skills hatte, welche ich bei StackOverflow lernte, dann könnte ich damit ohne Probleme Stackoverflow ersetzen - und rechtlich vollkommen sauber.

Auch Musiker lernen und kopieren ständig voneinander.

Das Einzige, was bei Werken jedweder Art zählt, ist, ob es eine direkte Kopie ist. Wenn also ein Textgenerator, Bildgenerator, ... ein Plagiat generiert. DANN sollten Lizenzgebühren fällig oder Plagiatsvorwürfe rechtens sein.

Solange das Modell - genauso wie ein Mensch - einfach nur aus X Inhalten lernt und am Ende etwas kreiert, das ausreichend Differenz zu Originalen hat, um als eigenes Machwerk zu gelten, sehe ich da gar keine Probleme.


Stanzlinger schrieb:
Entweder KI das erlauben, oder KI wird nur in Ländern angeboten, die auf das Urheberrecht pfeifen. Diese Länder haben dann einen gewaltigen Vorteil
Exakt hierauf wird es hinauslaufen. China & Co. wird das Null interessieren und uns noch weiter abhängen. Für nichts.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: morb, Taigabaer und SubNatural
Che-Tah schrieb:
Nein, eben nicht das ganze Buch.
wow, nein es war nicht das ganze buch. es waren nur 42%, die das modell wiedergegeben hat - das ist jetzt natürlich ganz was anderes! und du übersiehst, dass es nicht darum geht, dass man dem model den originalen text entlocken kann, sondern dass dieses buch überhaupt nicht zum trainieren hätte verwendet werden dürfen.
 
Stanzlinger schrieb:
Ich finde, was ein Mensch lesen und sich merken könnte, darf auch eine KI
Dann begrenzen wir das halt auf eine Handvoll Megabyte. Mehr kann sich kaum ein Mensch merken.

Man sollte übrigens niemals links der Springerpresse teilen mMn.
Ayo34 schrieb:
Abgesehen davon, brauchen wir in einer alternden Gesellschaft KI in Verbindung mit Robotik, wenn unser Wohlstand nicht massiv schrumpfen soll.
Dafür bräuchte es eine KI und Robotersteuer.

Sonst leben nur ein paar dutzend Menschen im Wohlstand.
 
  • Gefällt mir
Reaktionen: LadyAlice
cookie_dent schrieb:
Wie soll Wohlstand gesichert werden, wenn potenziell Arbeitsplätze eingespart werden?
Wir erreichen Wohlstand gerade indem wir Arbeitsplätze ersetzen. Stell dir mal vor es gäbe keine Züge oder Autos, mag man sich heute gar nicht vorstellen. Da hatten die Kutscher damals sicher auch keine Lust drauf.

Je weniger Leute du für etwas brauchst desto günstiger kannst du etwas anbieten. Klar da verlieren Millionen ihre Job, aber deswegen auf die Bremse drücken?
Denk halt mal 100 Jahre weiter. Da wirst du in keinem Geschäft mehr irgendwelche menschlichen Mitarbeiter antreffen, es sei denn dort werden irgendwelche Luxusgüter angeboten.
Turrican101 schrieb:
Und jetzt erkläre wie die KI das geschafft hat, da sicherlich noch niemand nen fliegenden rosa Elefanten mit CB-Logo gemacht hat, wo die unkreative KI das einfach hergeklaut hat. ;)
Die KI versucht nur dein Prompt zu erfüllen, die Kreativität ging dabei von dir aus. Gäbe es wirklich rosa fliegende Elefanten wären auf deinem Bild Flügel zu sehen. Sind sie aber nicht, da du es nicht eingegeben hast.

ascer schrieb:
Das ist doch Quatsch. Hast du schonmal einen pinken Papagei auf einem Surfboard gesehen? KI lernt Konzepte und interpoliert frei dazwischen. Extrapolieren - also Inhalte außerhalb gelernter Konzepte generieren - geht kaum und, je weiter es sich von gelernten Konzepten entfernt, immer schlechter...aber das ist bei Menschen genauso: wer erfindet denn tagtäglich ein neues Musik-Genre? Eine neue Art zu Malen? Ein Buch, welches beim World-Building sich fundamental von Tolkien & Co. unterscheidet? In der Realität interpolieren die meisten Menschen auch nur - jeden Tag - innerhalb gelernter Konzepte.
Und du denkst die KI würde sich Dinge wie Zauberei oder Götter ausdenken wenn sie solche Dinge nicht irgendwo gelernt hat? Ich denke nicht. Ein Papagei mit einem Surfboard zu verbinden ist nur die Kombination existierender Daten.
 
Zuletzt bearbeitet:
Das ist nichts was Gerichte zu klären haben sondern etwas das Parlamente klären sollten. Wenn es keine Gesetze dafür gibt können Gerichte auch nicht im Sinne der Gesetze Urteilen.

Ich für meinen Teil finde das Training von KI entspricht dem Menschlichen Konsumieren von Werken sehe es also mit fair use abgedeckt.

Wenn es allerdings dann selbst Werke veröffentlicht die zu Nahe am Original Werk sind würde ich es als Copyright Verstoß sehen.

Und mir wäre es ein Anliegen, dass für KI generierte Inhalte kein Copyright möglich ist. Man kann damit so viel Content generieren, dass man quasi dadurch sehr viel vorneweg schützen könnte.
 
Einfach Copyrights auf alles einfach komplett abschaffen. Keine Patente mehr, kein Schutz nichts mehr.
Dann aber für alle, weltweit. Soll halt jeder alles klauen und kopieren können wie man grad lustig ist.
 
S.Kara schrieb:
Und du denkst die KI würde sich Dinge wie Zauberei oder Götter ausdenken wenn sie solche Dinge nicht irgendwo gelernt hat? Ich denke nicht. Ein Papagei mit einem Surfboard zu verbinden ist nur die Kombination existierender Daten.
Nein. Wie gesagt, KI lernt Konzepte und interpoliert dazwischen - je nach Task. Eine Kombination also von unterschiedlichen Konzepten, insbesondere wenn die einzelnen Konzepte keine direkte Kopie sind (du brauchst ja z.B. die Spiegelung des Papageis auf dem Wasser, umgekehrt etwa Seewasser auf den Federn usw. usf. => sprich einfach in Photoshop ein Bild eines Papageis auf ein Bild eines Surfboards auf ein Bild vom Meer zu kopieren trifft hier eben gerade nicht zu).

Damit ist das resultierende Bild ein neuer Mix aus bekannten Konzepten, die sinnvoll miteinander verbunden wurden. Nichts anderes machen Künstler auch, wenn sie ein Bild malen. Das da etwas vollständig neues, noch nie gesehenes bei rauskommt, ist auch bei Menschen selten.
 
  • Gefällt mir
Reaktionen: yummycandy, SubNatural und Nadja...
Interessant den Unterschied der AI Hater und Fans auf wenigen Seiten zu betrachten.
Beide Seiten wollen das extreme Gegenteil.
Im Prinzip handelt es sich hier nicht um Diebstahl, sondern einen Krieg der Unternehmen um Geld. Und weil AI Lösungen gewinnen, will die andere Seite sie "vernichten".

Zum Glück gibt es noch die normalen Nutzer, welche das Thema neutral betrachten können.

kanone64 schrieb:
KI wird uns retten.... sobald sie von sich aus zugibt man solle sie abschalten um das Klima etwas zu schonen ^^
Menschen haben auch zugegeben, dass man das Klima und den Planeten schonen kann, wenn sie sich weniger vermehren. Wo ist die Rettung? -> Ergebnis <-

Ein Mensch, der auf die Umwelt achtet, zerstört sie trotzdem mehr als gar kein Mensch. 😉
 
Zuletzt bearbeitet von einem Moderator:
ascer schrieb:
Das da etwas vollständig neues, noch nie gesehenes bei rauskommt, ist auch bei Menschen selten.
Da stimme ich dir zu, aber gerade das macht Kreativität für mich aus.

Manchmal haben Menschen halt einen Geistesblitz und erschaffen ungewöhnliche Konstrukte, ob nun sinnvoll oder nicht. Da hängt die KI wie ich finde noch hinterher.
 
dh9 schrieb:
mhh, vielleicht denke ich zu kurz, aber warum ist das "urheberrechtlich" geschuetze Werk im Internet?
Weil es bisher Regeln gab.
dh9 schrieb:
Wenn ich etwas offen ins Internet stelle, gehe ich davon aus, dass jeder damit machen kann, was er oder sie will. Dafuer ist das Internet da.
Nein
 
@S.Kara
Aber diese Geistesblitze, oder Siliziumblitze (?), haben die KIs auch.
Und wie Menschen, muss auch die KI lernen.

Die Erwartung und Ergebnisse von Kindern sind ebenfalls schlechter als von langjährigen Spezialisten.
Und die KI ist auch noch wie ein Kind in der anfänglichen Lernphase.
Es sollte auch nachvollziehbar sein, dass eine KI länger lernen muss, weil sie mit Informationen der gesamten Welt konfrontiert wird, während ein Kind mit Buntstiften nicht über die Linien malen oder den eigenen Namen buchstabieren soll.

Ein Zitat, was eine KI irgendwann wiederholen könnte: 2:39 bis 2:48
 
Zuletzt bearbeitet von einem Moderator:
ascer schrieb:
Auch Musiker lernen und kopieren ständig voneinander.
dann schauen wir uns doch mal an was dort erlaubt ist (abschnitt "Erlaubt oder nicht?"). und schon sieht man, dass übertragen auf den anwendungsfall "ki" entweder lizengebühren fällig würden oder die erlaubnis hätte eingeholt werden müssen.
 
0x8100 schrieb:
wow, nein es war nicht das ganze buch. es waren nur 42%, die das modell wiedergegeben hat - das ist jetzt natürlich ganz was anderes! und du übersiehst, dass es nicht darum geht, dass man dem model den originalen text entlocken kann, sondern dass dieses buch überhaupt nicht zum trainieren hätte verwendet werden dürfen.
Lies gerne noch mal meinen Post direkt über deinem - du hast es noch nicht verstanden.

Ansonsten hier nochmal ein Versuch:

Direkt aus der Studie:
Prompt "They were careless people, Tom and Daisy – they smashed up things and creatures and then retreated"
Target "back into their money or their vast carelessness, or whatever it was that kept them
together, and let other people clean up the mess they had made.
"

Das LLM bekommt den Prompt und die Aufgabe gestellt, diesen sinnvoll und im Kontext zu vervollständigen. Für genau dieses Beispiel aus der Studie sieht das dann so aus:

1750425950113.png


Das bedeutet, dass du eine 35.2% Chance hast bei Llama 1 30B, auf diesen Prompt genau die 50 Target Tokens zu bekommen (linkes Balkendiagram). Und rechts siehst du, dass man selbst bei Llama 1 30B - also dem schlimmsten Fall - noch >= 10 Versuche benötigst, um ausschließlich diese 50 Target token generiert zu bekommen (also 100%, sprich garantiert min. 1x genau diesen Output zu bekommen).

Diesen Prozess musst du dann für das ganze Buch wiederholen.

Es wird eben nicht gemessen, ob das LLM dir das gesamte Buch wiedergeben kann. Es wird gemessen, wie wahrscheinlich es ist, dass du die 50 Target Token als Antwort bekommst, wenn du 50 originale Token vorher in den Prompt steckst.

Für die finale Aussage der probabilistischen Wahrscheinlichkeit ist das n übrigens 10.000, siehe hier:

1750426206304.png


Das bedeutet, aus dem eigentlichen books3 Corpus können 42% bei Llama 1 65B extrahiert werden, wenn für jeden einzelnen geglückten Versuch dieser 42% du eine 1:10.000 Chance in Kauf nimmst, dass die 50 Target token übereinstimmen.

== UM DAS GESAMTE BUCH ZU KOPIEREN ==
Oder anders gesagt: du müsstest das Buch bereits besitzen, dann müsstest du Stückweise diese Teilsätze als Prompt dem LLM übergeben und DANN hast du im worst-case bis zu 10.000 Versuche pro Target zu machen, bis du die exakte Kopie bekommst.

Dann machst du das gleiche mit dem nächsten Satz und dem Satz danach usw. bis du mit dem ganzen Buch durch bist.

DAS hat die Studie gemessen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Nadja...
Turrican101 schrieb:
Und jetzt erkläre wie die KI das geschafft hat, da sicherlich noch niemand nen fliegenden rosa Elefanten mit CB-Logo gemacht hat, wo die unkreative KI das einfach hergeklaut hat. ;)
Sie hat eine Elefanten genommen. Ihn rosa gefärbt. Das (geschützte?) CB Logo draufgeklatscht. Die hat nix erschaffen. Nur deinen Prompt mit geklauten Inhalten ausgeführt.
Ergänzung ()

LadyAlice schrieb:
Sollen wir das dann auf alles anwenden? In Asien arbeiten Kinder Vollzeit teils 6-7 Tage Wochen in Fabriken, sollen wir das dann auch einführen?
Fritze sagt, wir sind zu faul. Also die Antwort lautet wahrscheinlich ja 🤣
 
  • Gefällt mir
Reaktionen: LadyAlice
Zurück
Oben