News Erfolge für Anthropic und Meta: Millionen Bücher für KI-Training zu verwenden, kann legal sein

Karl S. schrieb:
Du solltest dir ganz schnell diese arrogante Faktenfinder-Attitude ala "Falsch." abgewöhnen. Es gibt genug Fälle bei denen nichts zurückgenommen wurde. Das sind keine Einzelfälle.
"In den meisten Fällen" verstehst du wohl nicht. Deine Aussage ist dahingehend schlicht und ergreifend falsch.
 
Ich finde das generell fragwürdig, (Fach-) Bücher, die der Allgemeinheit dienen sollen, zu kommerzialisieren. Der der studiert hat hatte mindestens einen Prof der so ne Scheisse abgezogen hat und quasi das (gute bis sehr gute) bestehen der Klausur am Kauf des Buches gekoppelt hat. Daher kann ich allen ans Herz legen: libgen.is. Da finde ich überwiegt das gesellschaftliche Interesse dem Pseudo Urheberrecht.

Wenn ein Professor staatliche Gelder, studentische Hilfe und ggf. noch die Infrastruktur nutzt, wie kann man dann noch so dreist sein, genau diese Arbeit zu kommerzialisieren?
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: LuxSkywalker
xerex.exe schrieb:
"In den meisten Fällen" verstehst du wohl nicht. Deine Aussage ist dahingehend schlicht und ergreifend falsch.
Weißt du, manchmal spricht man in generalisierter Art und Weise um den Kern eines Umstandes zu thematisieren. Es gibt immer die Ausnahme der Ausnahme der Ausnahme. Kindern sagt man der Himmel ist blau, obwohl das nicht immer der Fall ist. Elefanten sind groß, obwohl es auch Zwergelefanten gibt. Nach deiner Interpretation ist das natürlich auch alles falsch. Wenn man generalisierten Aussagen immer mit einem "Falsch" oder "Aber" begegnet, dann muss man aufpassen, nicht als unsympathischer Besserwisser rüber zukommen.
 
Ranayna schrieb:
Der Umkehrschluss ist dann aber auch, das ich als Endnutzer, der einfach nur ein Buch lesen, oder einen Film anschauen will, das einfach laden koennen muesste und nicht bezahlen muss.
Das reine Herunterladen war eine ganze Weile eine Grauzone, vor ein paar Jahren wurde aber definiert, dass ein Herunterladen aus einer illegalen Quelle auch nicht erlaubt ist, auch wenn man nicht weiterverteilt.
Stimmt. Das betrifft die Beschaffung des Materials. Mir ging es um die Differenzierung dieser Vorgänge: Beschaffung, Training und anschliessende Verwendung der trainierten KI.

Nach meinem Rechtsempfinden sollte gelten: War die Beschaffung legal, dann ist auch ein Training damit legal. Bei einer Kommerzialisierung siehts natürlich anders aus.
 
Nadja... schrieb:
@Cabranium
Nicht die KI oder Anbieter der KI sollten für Fakes verantwortlich sein, sondern die Menschen, welche diese verbreiten!
Die KI ist nur ein Werkzeug, wie Messer, Waffen, Autos, etc. für die ebenfalls nicht die Hersteller verantwortlich gemacht werden sollten, sondern die Menschen, welche diese schädlich einsetzen.

Wenn man mit Photoshop dich bei einer Straftat darstellt, ist ja auch nicht Adobe, vielleicht nicht mal der Creator, sondern derjenige schuld, der dies veröffentlicht und dich damit schädigen möchte.
Du hast natürlich recht, aber wir wissen auch, dass wir dazu Menschen im internet eindeutig identifizieren müssten. Ich hätte kein Problem mit einer hinterlegten Sozialsversicherungs id pflicht oder hinterlegten Personalausweis bestätigung, so dass bei sollchen Fällen den behörden sofort der Name der person bekannt wäre. Vorne rum würden normal User trotzdem nur den nick sehen. Und das natürlich Weltweit.
Allerdings will auf der anderen Seite keiner eine totale Überwachung und daher schreien sie natürlich genau dagegen. Das Problem, genau deswegen werden Täter mehr als opfer geschützt. Man kann natürlich jetzt auch sagen, dass es alle vor einer Staatlichen willkür schützt. Auch das kann richtig sein.


Wir wissen aber das ist alles unrealistisch.
Also bleibt nur noch die Firmen dazu zu zwingen diese Werkzeuge so zu designen, dass eben kein scheiss damit gemacht werden kann. Wenn wir gar nichts machen, dann gewinnen eigentlich nur die Täter und die Firmen die fett abgakassieren.
 
Bl4cke4gle schrieb:
Oh nein, ich habe in Schule und Studium ebenfalls Bücher gelesen und nutze dieses Wissen nun in meinem Beruf um Geld zu verdienen
Die hast du aber gekauft oder von jmd geliehen, der sie gekauft hat. Vlt sogar aus der Bibliothek, die noch höhere Preise bezahlen, und die Bücher verleihen zu dürfen.
 
  • Gefällt mir
Reaktionen: LuxSkywalker
Bl4cke4gle schrieb:
Oh nein, ich habe in Schule und Studium ebenfalls Bücher gelesen und nutze dieses Wissen nun in meinem Beruf um Geld zu verdienen. 😱
Alphanerd schrieb:
Die hast du aber gekauft oder von jmd geliehen, der sie gekauft hat.
Auch hier nochmal @Alphanerd
ascer schrieb:
Alle Unternehmen haben im großen Stil Bücher gekauft, digital oder auch Printmedien und diese dann digitalisiert. Oder veröffentlichtes Material aus dem Internet benutzt.
Es ist schlichtweg inkorrekt, dass alle Daten oder überhaupt die Mehrheit der Daten oder auch nur die Mehrheit der LLMs mit illegalen Daten trainiert sind. Die meisten Daten sind frei verfügbar gefolgt von Millionen von Büchern, die käuflich erworben wurden. Die illegalen Quellen, etwa bei Anthropic, waren einfach online beschaffbare Daten, welche auf anderen wegen schwerer beschaffbar waren. Ist natürlich keine Ausrede und dafür werden sie ja auch gerade rechtlich verfolgt.

Nichtsdestoweniger tun viele bei dem Thema immer so, dich eingeschlossen, dass die Mehrheit der Daten oder die Mehrheit der LLMs mit illegalen Daten trainiert sind und das entbehrt schlichtweg jedweder Faktenlage.

Wurde auch schon zur Genüge von diversen Personen erklärt.
 
  • Gefällt mir
Reaktionen: Solavidos
ascer schrieb:
Es ist schlichtweg inkorrekt, dass alle Daten oder überhaupt die Mehrheit der Daten oder auch nur die Mehrheit der LLMs mit illegalen Daten trainiert sind
Wo habe ich das geschrieben oder behauptet.

Aber um mal die News zu zitieren:

Anthropic nutzte für das KI-Training unter anderem den Books3- und einen LibGen-Datensatz, beide enthalten Millionen von Büchern, viele davon illegal.

Du behauptest nicht wirklich, dass es da draußen auch nur eine KI gibt, die alles genutzte Trainingsmaterial gekauft oder im Falle von Bildern lizenziert hat?
 
  • Gefällt mir
Reaktionen: LuxSkywalker und LadyAlice
Alphanerd schrieb:
Wo habe ich das geschrieben oder behauptet
Zum Einen zeigt sich das recht klar schlichtweg schon daran, wie du antwortest. Zum Anderen, wenn du z.B. schreibst Nutzer würden Bücher aber kaufen und würden dafür bezahlen, implizierst du damit natürlich, dass die LLM Ersteller dies nicht tun.

Alphanerd schrieb:
Du behauptest nicht wirklich, dass es da draußen auch nur eine KI gibt, die alles genutzte Trainingsmaterial gekauft oder im Falle von Bildern lizenziert hat?
Natürlich gibt es das. Von 100% legalen Inhalten wie Starcoder bis hin zu zumindest ernsthaften Anstrengungen wie bei Gemini, die zumindest bisher für entsprechende Zertifizierungen in der EU ausgereicht haben. Findet man auch schnell heraus, wenn man sich fernab vom Stammtisch mit der Materie auseinandersetzt:
  • Starcoder z.B. bezieht seine Trainingsdaten ausschließlich aus öffentlich Repos mit OpenSource Lizenzen, die die Nutzung erlauben.
  • Mistral nutzt nur "OpenWeb" data sowie gekaufte Werke. Natürlich schließt Mistral nicht aus, dass eventuell auch "copyrighted books" im Datensatz enthalten sind - aber bei Mistral dann unabsichtlich, etwa wenn Texte öffentlich verfügbar waren und weder ausreichende disclaimer noch eine robots.txt noch irgendeinen scraping-Schutz haben (und ganz ehrlich, dann ist das auch das Problem des Text-Anbieters; wenn ich mein Auto mit offener Fahrertür und Schlüsseln auf dem Sitz irgendwo abstelle, wird das ja auch anders bewertet, als wenn jemand mit Gewalt in mein Auto einbricht und es kurzschließt)
  • Falcon geht sogar noch einen Schritt weiter und nutzt "RefinedWeb", das ist ein gefilterter Datensatz bestehend aus common crawl, also ausschließlich öffentlich verfügbaren Werken und diese dann nochmal gefiltert, um möglichst alle copyright Werke zu entfernen.
  • In den neuen Gemini Modellen hat Google ebenfalls, um diese auch in der EU für diverse Nutzungsmöglichkeiten zuzulassen, bestätigt hauptsächlich frei verfügbare und gekaufte Werke verwendet zu haben. Darüberhinaus haben sie Maßnahmen ergriffen, unabsichtlich gescraptes copyright Material zu entfernen.
  • Und dann eine ganze Reihe speziellerer Modelle. Kleine foundation models wie das neue, das auf Basis von common corpus gebaut wird, KL3M oder auch speziellere Modelle wie etwa reine Embedding Modelle, die z.B. auch gerade für den deutschen Markt entstehen und 100% auf legalen Quellen aufbauen.
Grundsätzlich wird diese Entwicklung jetzt auch definitiv jedes LLM durchlaufen, denn keines kann sich langfristig und vor allem nicht immer wieder negative Publicity sowie andauernde Rechtsverfahren leisten.

Das insbesondere die Pioniere wie OpenAI und Anthropic so gestartet sind, liegt schlichtweg an der "Goldrausch-Stimmung" bei den ersten LLMs und dem Drang, unbedingt erster zu sein. Das legt sich gerade Monat für Monat und Stück für Stück wird produktiver Nutzen, Rechtssicherheit, ... wichtiger.

Autos hatten zu Beginn auch keinen TÜV, keine unzähligen Sicherheitsstandards, nicht mal Basis-Sicherungen wie Airbags oder Sicherheitsgurte.

Mit der breitflächigen Anwendung überall kommen auch all diese Standards jetzt.
 
  • Gefällt mir
Reaktionen: Bl4cke4gle
Alphanerd schrieb:
Die hast du aber gekauft oder von jmd geliehen, der sie gekauft hat. Vlt sogar aus der Bibliothek, die noch höhere Preise bezahlen, und die Bücher verleihen zu dürfen.
Ja, sicher... Und was hat das jetzt mit dem Thema zu tun?
 
xerex.exe schrieb:
Falsch.

Die werden automatisiert gestriked, in den meisten Fällen aver nach Widerspruch anstandslos wiederhergestellt
In der Praxis führt solche Unsicherheit (meisten Fälle) und der Extraaufwand natürlich trotzdem zum selben Effekt: Die Leute nutzen das Material lieber nicht.
Ergänzung ()

ascer schrieb:
Zum Einen zeigt sich das recht klar schlichtweg schon daran, wie du antwortest. Zum Anderen, wenn du z.B. schreibst Nutzer würden Bücher aber kaufen und würden dafür bezahlen, implizierst du damit natürlich, dass die LLM Ersteller dies nicht tun.


Natürlich gibt es das. Von 100% legalen Inhalten wie Starcoder bis hin zu zumindest ernsthaften Anstrengungen wie bei Gemini, die zumindest bisher für entsprechende Zertifizierungen in der EU ausgereicht haben. Findet man auch schnell heraus, wenn man sich fernab vom Stammtisch mit der Materie auseinandersetzt:
  • Starcoder z.B. bezieht seine Trainingsdaten ausschließlich aus öffentlich Repos mit OpenSource Lizenzen, die die Nutzung erlauben.
  • Mistral nutzt nur "OpenWeb" data sowie gekaufte Werke. Natürlich schließt Mistral nicht aus, dass eventuell auch "copyrighted books" im Datensatz enthalten sind - aber bei Mistral dann unabsichtlich, etwa wenn Texte öffentlich verfügbar waren und weder ausreichende disclaimer noch eine robots.txt noch irgendeinen scraping-Schutz haben (und ganz ehrlich, dann ist das auch das Problem des Text-Anbieters; wenn ich mein Auto mit offener Fahrertür und Schlüsseln auf dem Sitz irgendwo abstelle, wird das ja auch anders bewertet, als wenn jemand mit Gewalt in mein Auto einbricht und es kurzschließt)
  • Falcon geht sogar noch einen Schritt weiter und nutzt "RefinedWeb", das ist ein gefilterter Datensatz bestehend aus common crawl, also ausschließlich öffentlich verfügbaren Werken und diese dann nochmal gefiltert, um möglichst alle copyright Werke zu entfernen.
  • In den neuen Gemini Modellen hat Google ebenfalls, um diese auch in der EU für diverse Nutzungsmöglichkeiten zuzulassen, bestätigt hauptsächlich frei verfügbare und gekaufte Werke verwendet zu haben. Darüberhinaus haben sie Maßnahmen ergriffen, unabsichtlich gescraptes copyright Material zu entfernen.
  • Und dann eine ganze Reihe speziellerer Modelle. Kleine foundation models wie das neue, das auf Basis von common corpus gebaut wird, KL3M oder auch speziellere Modelle wie etwa reine Embedding Modelle, die z.B. auch gerade für den deutschen Markt entstehen und 100% auf legalen Quellen aufbauen.
Alles 100% legale Quellen. Dass juristisch gar nicht geklärt ist, was legale Quellen sind und die KI Konzerne dabei eine völlig andere Perspektive vertreten als viele der legalen Quellen lassen wir außen vor?
Naja, Google hats ja bestätigt. Fall abgeschlossen.


Edit: Ich will natürlich nicht ausschließen, dass es Projekte gibt die sich tatsächlich bemühen möglichst nur absolut unbedenkliche Quellen zu nutzen.
Deshalb existiert das prinzipielle Problem aber trotzdem.
 
Zuletzt bearbeitet:
Schinken42 schrieb:
Alles 100% legale Quellen. Dass juristisch gar nicht geklärt ist, was legale Quellen sind und die KI Konzerne dabei eine völlig andere Perspektive vertreten als viele der legalen Quellen lassen wir außen vor?
Naja, Google hats ja bestätigt. Fall abgeschlossen.
Lies doch einfach den ganzen Text, bevor man aufgrund von Ausschnitten Widersprüche schreibt, die gar keine sind: ich schrieb, dass es sehr wohl LLMs mit 100% legalen Quellen gibt, etwa StarCoder. Und ja, einfach mit der Materie beschäftigen: StarCoder verwendet ausschließlich Git Repos von GitHub, GitLab, ... die nicht nur öffentlich sind, sondern explizit eine Lizenz verwenden, die jedweden Nutzen zulässt - beispielsweise MIT-Lizenzen, die jedwede kommerzielle Nutzung gestatten. Und StarCoder legt da explizit wert drauf, nur solche freien Quellen zu verwenden.

Der Rest des Textes bezog sich darauf, dass es auch weitere LLMs mit Abstufungen in der "Unbedenklichkeit" gibt, die aber durchaus erhebliche Anstrenungen auf sich nehmen, um sah wie möglich an die 100% zu kommen. Insbesondere Mistral und Falcon. Zuletzt aber auch Google mit Gemini, um in der EU entsprechend zu landen. Gerade Gemini ist definitiv von den 100% noch entfernt und ja bei den Datensätzen dieser Unternehmen gibt es auch noch Textteile, wo die Nutzung rechtlich geklärt werden muss - wird sie jetzt ja aber auch, wie in dem hier im Artikel zitierten "Fair Use"-Urteil.

Unabhängig davon schreibst du es ja auch schon selbst:
Schinken42 schrieb:
Edit: Ich will natürlich nicht ausschließen, dass es Projekte gibt die sich tatsächlich bemühen möglichst nur absolut unbedenkliche Quellen zu nutzen.
Deshalb existiert das prinzipielle Problem aber trotzdem.
Es gibt eben "100%"-Modelle mit Starcoder, es gibt Mistral, Falcon und weitere, die versuchen so nah wie möglich dahin zu kommen. Das wurde von @Alphanerd und auch von anderen zuvor abgestritten, aber es gibt diese LLMs eben bereits.

Das wichtigste aber ist sowieso dieser Absatz...
ascer schrieb:
Grundsätzlich wird diese Entwicklung jetzt auch definitiv jedes LLM durchlaufen, denn keines kann sich langfristig und vor allem nicht immer wieder negative Publicity sowie andauernde Rechtsverfahren leisten.

Das insbesondere die Pioniere wie OpenAI und Anthropic so gestartet sind, liegt schlichtweg an der "Goldrausch-Stimmung" bei den ersten LLMs und dem Drang, unbedingt erster zu sein. Das legt sich gerade Monat für Monat und Stück für Stück wird produktiver Nutzen, Rechtssicherheit, ... wichtiger.

Autos hatten zu Beginn auch keinen TÜV, keine unzähligen Sicherheitsstandards, nicht mal Basis-Sicherungen wie Airbags oder Sicherheitsgurte.

Mit der breitflächigen Anwendung überall kommen auch all diese Standards jetzt.
...vor allem der letzte Satz: all diese Standards - auch rechtlich - sind sehr stark im kommen und da die Technologie überall von "Prototyp" mittlerweile in die Produktion wandert, wird das jetzt auch sehr fix gehen, dass überall die Standards, Zertifizierungen, saubere Arbeitsweisen usw. Einzug halten.

Neue Technologie war noch nie von Tag 1 an sicher oder zertifiziert oder rechtlich sauber geklärt.
 
  • Gefällt mir
Reaktionen: Solavidos
Geld und Macht suchen sich eben ihren Weg. Klar kollabiert bei den heutigen Milliardenbeträgen irgendwann das Rechtssystem dahinter.

Meta kann einfach so die Segel setzen und ab gehts. Soetwas juristisch zu legitimieren wird natürlich generell Konsequenzen haben.

Die Leute werden es nachahmen und ebenfalls zuschlagen. Warum sollte man jetzt noch für irgendwas rein Digitales im Netz zahlen? Der Milliardärsclub aus dem Silicon Valley darf doch schliesslich auch legal Pirat spielen.

Das ändert grundlegend das Rechtsverständnis. Auch für mich. Ich werde dann demnächst auch "fair use" betreiben und keinerlei Rücksicht auf Autoren und Künstler nehmen. Eigentlich können die auch gleich komplett durch die KI ersetzt werden. Dann gibts wenigstens keinen nervigen, bürokratischen Widerspruch mehr.
 
Zuletzt bearbeitet von einem Moderator:
  • Gefällt mir
Reaktionen: LuxSkywalker
Ringträger schrieb:
darf doch schliesslich auch legal Pirat spielen.

Das ändert grundlegend das Rechtsverständnis. Auch für mich. Ich werde dann demnächst auch "fair use" betreiben und keinerlei Rücksicht auf Autoren und Künstler nehmen.
Stammtisch #73: einmal extra Portion Grütze!
 
  • Gefällt mir
Reaktionen: Solavidos
Bl4cke4gle schrieb:
Ja, sicher... Und was hat das jetzt mit dem Thema zu tun?
Genauso viel oder auch wenig, wie diese Aussage hier
Ergänzung ()

Bl4cke4gle schrieb:
Oh nein, ich habe in Schule und Studium ebenfalls Bücher gelesen und nutze dieses Wissen nun in meinem Beruf um Geld zu verdienen. 😱
Ergänzung ()

ascer schrieb:
Natürlich gibt es das. Von 100% legalen Inhalten wie Starcoder bis hin zu zumindest ernsthaften Anstrengungen wie bei Gemini, die zumindest bisher für entsprechende Zertifizierungen in der EU ausgereicht haben. Findet man auch schnell heraus, wenn man sich fernab vom Stammtisch mit der Materie auseinandersetzt
Da Trainingsdaten soweit ich weiß nie öffentlich sind müsste man halt die Aussagen der Firmen glauben.
 
  • Gefällt mir
Reaktionen: LadyAlice
ascer schrieb:
Das wurde von @Alphanerd und auch von anderen zuvor abgestritten, aber es gibt diese LLMs eben bereits.
Das ist natürlich grobe Unwahrheit.

Ich hatte lediglich geschrieben
Alphanerd schrieb:
Die hast du aber gekauft oder von jmd geliehen, der sie gekauft hat. Vlt sogar aus der Bibliothek, die noch höhere Preise bezahlen, und die Bücher verleihen zu dürfen.
 
Alphanerd schrieb:
Genauso viel oder auch wenig, wie diese Aussage hier
Du verstehst es tatsächlich nicht, oder? :)

In dem Urteil geht es nur darum, in wie fern urheberrechtsgeschützte Werke für Training genutzt werden dürfen und NICHT, wie im weiteren mit diesen Trainingsdaten umgegangen wird oder ob die Werke auch tatsächlich legal eingekauft wurden. Das wird auch explizit so gesagt, dass das eine andere Frage ist.

Training aus legal beschafften geschützten Werken wurde für OK befunden. Die Beschaffung und die Verbreitung danach wurde vom selben Richter schon für potentiell illegal befunden, genau das hat er aber eben nicht beurteilt.

In sofern ist das Training erstmal nichts anderes als wenn Leute sich Werke legal beschaffen um aus diesen zu lernen. Es ist eben egal, ob das ein einfacher Mensch im Kleinen tut oder ein Milliardenunternehmen im richtig großen Stil.
Um nichts anderes ging es hier.
 
  • Gefällt mir
Reaktionen: Solavidos
ascer schrieb:
Stammtisch #73: einmal extra Portion Grütze!
Hast Du auch irgendetwas zum Thema beizutragen oder nur dumme Sprüche übrig? Finde eher deinen Kommentar unterstes Stammtischniveau und sogar löschwürdig, da Du null zum Thema beiträgst und einfach nur unpassende Meinungen / Standpunkte für dein Weltbild mit dämlichen Aussagen niedermachen willst.
 
Zuletzt bearbeitet von einem Moderator:
  • Gefällt mir
Reaktionen: LuxSkywalker
Bl4cke4gle schrieb:
Training aus legal beschafften geschützten Werken wurde für OK befunden.

Bl4cke4gle schrieb:
In sofern ist das Training erstmal nichts anderes als wenn Leute sich Werke legal beschaffen um aus diesen zu lernen
Sag mal, habe ich irgendwo etwas anderes geschrieben?
Ergänzung ()

Alphanerd schrieb:
Die hast du aber gekauft oder von jmd geliehen, der sie gekauft hat. Vlt sogar aus der Bibliothek, die noch höhere Preise bezahlen, und die Bücher verleihen zu dürfen.

Es wurden allerdings nur 2 Mio Bücher legal beschafft.
 
  • Gefällt mir
Reaktionen: LadyAlice
@Alphanerd ok, dann habe ich dich wohl falsch verstanden. Deine Aussage, dass ich die Bücher legal beschafft hätte, impliziert halt, das dies bei den LLMs nicht gemacht wurde. Was ja auch stimmt. Mein sarkastisches Beispiel mit dem Studium und dem Beruf und dem Geldverdienen, war auch nur eine Antwort auf den Einwand meines zweiten Posts, der halt WIEDER direkt am Thema vorbeiging.

Ich bin hier ja auch nur in die Diskussion eingestiegen, weil so viele im thread direkt mit dem Geweine anfingen von wegen große Unternehmen dürften das Urheberrecht aushebeln und der kleine Mann nicht, was das Urteil aber explizit nicht aussagt.
 
  • Gefällt mir
Reaktionen: Solavidos und Alphanerd
Zurück
Oben