News Datenschutz­bedingungen: Google nutzt sämtliche verfügbaren Informationen für KI-Training

Was um alles in der Welt haben denn alle gedacht?!

Erst habt ihr Google nicht beachtet und Google so groß und einflussreich werden lassen, das sich heute keiner mehr rantraut.
Die akzeptieren auch jede Strafe, weil die Milliarden aus der Portokasse bezahlt werden. Die nehmen lieber eine Strafe in Kauf als auf die Daten zu verzichten.

Lebt mit Google, denn ausnahmslos alle habe es zu dem gemacht was es heute ist und tut oder besitzt den Arsch in der Hose dieses Unternehmen zu zerschlagen aber um alles in der Welt - hört auf zu jammern und winseln.
 
  • Gefällt mir
Reaktionen: DieRenteEnte
"Öffentlich zugänglich" bedeutet eigentlich sofort Klage und Ausschluss aus Europa für sämtliche "KI"-basierte Software.
Schließlich benötigen die eine Zustimmung jeder Person, dessen Informationen sie verwenden.
Ich darf offiziell keine Daten von anderen Webseiten auf meiner Seite nutzen und veröffentlichen, aber Google will das Internet komplett leersaugen und für sich beanspruchen? So wie Zuckerzwerg? Wenn das keine komplette Sperre und Verbot ist, was denn dann? Dann darf und mache ich auch alles, wie es mir beliebt, dann hat die DSGVO und alles andere hier und jetzt keinen Bestand mehr.
Dann nehme ich komplette Beiträge von Computerbase und hinterlege ein Wasserzeichen mit "KI-basiert erstellt". Fertig ist das rechtsfreie Internet.
 
  • Gefällt mir
Reaktionen: denglisch und CharlieBarlie
Also was soll eine KI sonst machen um zu lernen?
Natürlich muss man noch weitere Möglichkeiten beachten und das ganze überwachen damit die KI keinen Mist aus dem öffentlichen netz lernt.

Es ist ein unterschied ob man selbst etwas liest, oder eine KI/Crawler alles automatisch liest und für Produktzwecke / Gewinn verarbeitet. Das selbe gilt im wesentlichen auch für Photos. Ein Photo von einem Haus/Landstrich/Straße ist ok. Sobald eine Autoflotte das systematisch im ganzen Land macht wird es knifflig.

In dem Zuge kann ich verstehen das diverse Seiten wie Reddit nicht einfach kostenfrei alle Daten abgeben wollen. Ob der Weg oder das Vorgehen/Härte dann aber so richtig ist steht noch mal auf einem anderen Blatt.

BxBender schrieb:
Schließlich benötigen die eine Zustimmung jeder Person, dessen Informationen sie verwenden.
Ich darf offiziell keine Daten von anderen Webseiten auf meiner Seite nutzen und veröffentlichen, aber Google will das Internet komplett leersaugen und für sich beanspruchen?
Relativ simpel, jeder Webseitenanbieter der Google ads nutzt wird gezwungen die AGBs zu akzeptieren.
Und schon ist das durch. Benutzer der Webseite müssen nicht gefragt werden. Das darf mal schön wie bisher auch der Webseitenbetreiber machen.
Das Google auch Webseiten durchcrawlt die keine Google Ads haben ist normal. Der macht das selbe wie Menschen auch. Da müsste man nur mal bewerten wie systematisch vgl. Einzelaufruf zu bewerten ist. Aber im wesentlichen sind Webseiten ja dazu da aufgerufen zu werden. Das dürfen Gerichte klären.
 
Zuletzt bearbeitet:
Wenn ich Dinge öffentlich ins Web stell, dann... werden die wohl auch gelesen werden? Und selbst wenns nur eine Maschine ist~

Sollen sich halt entsprechende Webseiten aus den google Ergebnissen entfernen lassen und in der Belanglosigkeit verschwinden.
 
Dann geht halt nicht ins Internet oder hinterlasst da keine privaten Daten.

geht zu einem kostenpflichtigen Mail-Anbieter und nutzt Google Accounts mit falscher Identität. Schaltet das GPS am Handy aus. Eigentlich reicht auch eins ohne GPS.

Aber neeeee. Die meisten wollen hier nicht mal Werbung sehen und auch kein bares Geld zahlen aber Hauptsache alle Vorteile genießen.
 
BxBender schrieb:
So wie Zuckerzwerg?

Kleiner Tipp am Rande:

Wenn man es meint nötig zu haben, sich über andere Personen oder Firmen (Winzigweich, ...) moralisch zu "erheben", indem man deren Namen verhohnepipelt, dann sagt das mehr über einen selber aus, als man denkt. :rolleyes:

BxBender schrieb:
Dann nehme ich komplette Beiträge von Computerbase und hinterlege ein Wasserzeichen mit "KI-basiert erstellt". Fertig ist das rechtsfreie Internet.

Das ist ein Äpfel und Birnen Vergleich - Du hättest auch Autos nehmen können. :p

Die KI nimmt ja keine Beiträge/Artikel von hier und stellt sie unter eigenem Namen oder ohne Quellenangabe ins Netz wie von Dir behauptet. Sie liest, "lernt" und zieht ihre eigenen Schlüsse (soweit man das sagen kann). Das ist eher, als wenn Du hier oder auf Wikipedia Artikel liest, dazulernst und dieses Wissen später einsetzt oder mit anderen, bestehenden Informationen verknüpfst. Wenn Du bei einem Problem um Rat gefragt wirst und kannst Dich erinnern diese Lösung oder Information hier auf CB gelesen zu haben, gibst Du diese Info dann einfach so weiter und verkaufst das als eigenes Wissen oder rezitierst Du auch die passende Quellenangaben dazu? ;)

Der Google Crawler ist doch bisher auch schon über alle Webseiten drübergerumpelt und hat die Inhalte indiziert. Wie sonst soll die Google Suche funktionieren? Da hat es bisher aber niemanden gestört?!

Wie sonst willst Du einem Lebewesen/Automatismus/KI Wissen beibringen? Du musst es mit bestehendem Wissen "füttern". Meine Befürchtung ist nur, dass Google es nicht bei frei zugänglichen Information belassen wird bzw. diese Definition sehr lax auslegen wird. Sie haben zBsp. soooo viele Infos über Ihre gläsernen User, auf die werden sie sicher nicht verzichten.
 
  • Gefällt mir
Reaktionen: pseudopseudonym
Unsere Datenschutzbestimmungen sind seit langem transparent in der Hinsicht, dass Google öffentlich zugängliche Informationen aus dem offenen Web verwendet, um Sprachmodelle für Dienste wie Google Translate zu trainieren [Google]
An Arroganz kaum zu überbieten. Nur weil sie groß sind, müssen sich andere doch nicht bei ihnen informieren, was sie mit Daten machen die nicht bei ihnen gehostet werden.

Üblicherweise gelten die Nutzungbedingungen der Informationsanbieter, die dann der Nutzer (hier Google), zu beachten hat. Offen im Web verfügbar heißt nicht, dass man damit machen kann was man will und dass es keine Nutzungseinschränkungen gibt.

Und eine Suchmaschine die Schnippsel zeigt um dann auf die Seite weiterzuleiten ist etwas völlig anderes, als das Verwenden von Informationen um die Quelle zu ersetzen (was ChatGPT und ähnliche Systeme tun).

Automatische Scraper können dies per robot.txt nicht unterscheiden. Das macht diese technische Unzulänglichkeit aber nicht zum Freibrief diesen offensichtlichen Unterschied nach Gutsherrenart auszulegen wie es ihnen gefällt, und Lizenzrechte zu ignorieren.
 
  • Gefällt mir
Reaktionen: CountSero
Roze schrieb:
Ich habe Bedenken, dass Unternehmen wie unter anderem Twitter und Reddit tatsächlich unter der Last von Webcrawlern leiden, wahrscheinlicher ist für mich die Suche nach neuen Einnahmequellen der Grund für die Schnittstellen-Limitierungen/Paywalls.
Hier werden auch gerne Individuen oder Selbstständige vergessen die Informationen gratis anbieten, zum Zweck der Kundenbindung, eben weil sie dadurch zeigen was sie leisten können oder für fortgeschrittene Kurse/Leistungen Aufträge bekommen.

Die werden dadurch natürlich absolut ausgenutzt und ausgebootet, da nun andere Nutznießer dieses guten Willens werden, und sie finanziell nichts mehr abbekommen. Lebensunterhalt stark gefährdet. Nicht jeder Anbieter im Netz ist ein großer oder auch nur kleines Unternehmen, und diese werden besonders darunter leiden. Denn hier ist Anbieter/Webseitenbetreiber und Inhalteersteller die gleiche Person.

Reddit, Twitter und Co sind reiche Leute, die sollten nicht das Zentrum der Diskussion sein.

Internet war immer ein Geben und Nehmen. Hier wird krass die Arbeit anderer ausgenutzt. Und das gerade durch Firmen die selbst sowas nie zulassen würden (siehe Patente und Copyright...).
Ergänzung ()

DieRenteEnte schrieb:
Eine KI kann es genauso wie der Mensch.

Woher weißt du, dass die Erde rund ist?
Eine KI könnte es. Praktisch ist dem nicht so. ChatGPT, LLMs und Co sind nicht fähig logische Schlüsse zu ziehen. Das sieht man schön daran dass es sich gerne mal innerhalb einer Erklärung selbst widerspricht.

Logisches Schließen auf großen Datenmengen (nein selbst kleineren Datenmenge) ist bisher ein ungelöstes Problem.
Ergänzung ()

DieRenteEnte schrieb:
In der Realität basiert die Antwort von Mensch und KI nur auf einem Bruchteil der Fakten und daher wird so heiß darüber diskutiert... jeder kennt einen anderen Bruchteil. Einige kennen die Wahrheit, andere wollen die Wahrheit nicht akzeptieren und wieder andere zensieren die Wahrheit.
Du hast natürlich völlig Recht was das Bild mit dem 6/9 Beispiel angeht und der perspektivischen gleichzeitig gültigen Wahrheit. Und hier tendieren viele dazu andere Perspektiven zu ignorieren und gerade von "andere wollen die Wahrheit nicht akzeptieren" zu sprechen und ironischerweise Dummheit anzunehmen, wenn das Gegenteil der Fall ist (die andere Person kann sich die Perspektive in der es wahr ist nicht vorstellen und lehnt die Wahrheit ab, dass absolute Wahrheit eher selten existiert).

Abgesehen davon, gibt es aber Kontexte wo sich Leute weitgehend einig über die Prämissen sind. Basierend auf denen kann man logisch schließen und Widersprüche aufdecken, bzw. Konsistenz herstellen. Und das können KIs heute nicht, Menschen aber schon (wenn das Problem nicht zu komplex wird).

Es geht also nicht nur um tendenzielle Wahrnehmung/Informationsfilterung die man nur reduzieren, aber nicht ausschließen kann. Hier geht es um den Mangel an innerer Konsistenz, die durchaus zu einem hohen Grad erreicht werden kann. KIs sind dazu aber aktuell nicht in der Lage, und das wird sich mit aktuellen Ansätzen auch so schnell nicht ändern.
 
Zuletzt bearbeitet:
Floxxwhite schrieb:
Schaltet das GPS am Handy aus.
Ähm. GPS ist passiv. Die GPS-Satelliten schicken ein Signal raus und der GPS-Empfänger berechnet aus den Signallaufzeiten seine Position. Kein Internet nötig.

Floxxwhite schrieb:
Die meisten wollen hier nicht mal Werbung sehen und auch kein bares Geld zahlen aber Hauptsache alle Vorteile genießen.
Naja. Von Werbung die ein Nutzer nicht anklickt und die er sogar als nervig empfindet, hat niemand was. Am wenigsten der Werbetreibende.
 
Miguel14.05 schrieb:
Jeder Programmierer bedient sich Code von GitHub und/oder StackOverflow und viele speisen davon sogar was in Produktionssysteme, welche ebenfalls Geld erwirtschaften. Wo ist nun das Problem, wenn eine KI das macht?
Dir ist schon klar dass nicht jeder Code auf GitHub einfach mal in andere Software integriert werden kann? Die Lizenz muss beachtet werden, sonst kann Schadensersatz und Unterlassung eingeklagt werden. GPL ist hier ein gutes Beispiel.

Genauso verhält es sich mit anderen öffentlich zugänglichen Daten. Die Lizenz ist zu beachten. Das ist auch keine Trivialität, denn Informationen werden geteilt, und das durchaus von Selbstständigen, unter dieser Annahme des Rechts. Wie das läuft wenn sich große Unternehmen einseitig bedienen, haben schon viele Softwareentwickler mitbekommen, die ausgenutzt wurden, mit falschen Versprechungen. Dann kommt plötzlich ein Konkurrenzprodukt raus.

Gegen große Firmen zu klagen ist aufwendig und teuer, und dieses Machtungleichgewicht wird missbraucht.

Wenn nur noch alle alles komplett hinter eine Paywall stellen, funktioniert das Internet nicht mehr. Das wäre aber die Konsequenz bei solchen KIs, die ihre Informationsquellen (die mit viel Aufwand erstellt wurden) komplett ersetzt.
Ergänzung ()

Miguel14.05 schrieb:
Extrem viele und viele fügen auch keine Verweise aufs Original ein. Redundante Informationen existieren massig.
Das ist eben nicht in Ordnung, und wird daher auch in wissenschaftlichen Arbeiten als Plagiat bezeichnet, und führt dazu dass man seinen Abschluss verliert.

Natürlich geht es hier nicht um allgemein anerkanntes Wissen. Aber baut man eine Arbeit auf anderer auf die man recherchiert hat, dann sollte man auch auf das Original verweisen. Ist eine Frage des Respekts. Außerdem hilft es dem Leser ein vollständigeres Bild zu bekommen.
Ergänzung ()

Miguel14.05 schrieb:
Wenn ich den ganzen Code 1:1 übernehme dann ja. Wenn ich ihn mir durchlese, neue Informationen extrahiere und mein Wissen/Skillset dadurch erweiter und dieses im Produktionssystem einbringe ist es kein Problem. Sonst dürfte es nicht öffentlich einsehbar sein.
So einfach ist das nicht. Clean-Room-Implementations sind nicht ohne Grund ein Ding. Hier wird häufig verlangt dass derjenige der den Code gelesen hat nicht der ist der ihn reimplementiert. Es läuft also darauf hinaus dass man eine grobe und abstrakte Wiedergabe der Prinzipien hat und es dann nochmals implementiert.
 
Zuletzt bearbeitet:
Floxxwhite schrieb:
geht zu einem kostenpflichtigen Mail-Anbieter und nutzt Google Accounts mit falscher Identität.
Wieso denn?
ProtonMail ist immer noch Gratis.

Und wer zum Teufel nutzt denn bitte seinen Google Account mit echtem Namen und am besten noch Kreditkarte hinterlegt?
Das ist ja grob fahrlässig.
 
Chris007 schrieb:
Wenn ich im Studium etwas lerne, haben dann die Professoren ein Copyright auf mein Wissen und bekommen dann einen Anteil von meinem Lohn?
Es ist Teil ihres Lehrauftrags und sie werden dafür bezahlt, hier ist die Vereinbarung klar. Entwickelst du allerdings etwas für deinen Professor, und er stellt dir dazu Software zur Verfügung, darfst du die trotzdem nicht mitnehmen.

Chris007 schrieb:
Wenn ich etwas im Internet lese und dieses Wissen dann im Beruf anwende, sollte dann der Urheber einen Teil von meinem Gehalt bekommen?
Wenn du OpenSource-Software oder Freeware verwendest die nicht frei für gewerbliche Zwecke ist, dann JA.
 
Zuletzt bearbeitet:
denglisch schrieb:
Wenn du OpenSource-Software oder Freeware verwendest die nicht frei für gewerbliche Zwecke ist, dann JA.
Open-Source-Lizenzen unterscheiden üblicherweise nicht zwischen gewerblich und nicht-gewerblich. Abgesehen davon war nicht von Software u.ä. die Rede, sondern von Wissen.
 
Zuletzt bearbeitet:
Haldi schrieb:
Wieso denn?
ProtonMail ist immer noch Gratis.

Und wer zum Teufel nutzt denn bitte seinen Google Account mit echtem Namen und am besten noch Kreditkarte hinterlegt?
Das ist ja grob fahrlässig.
Also einer Schweizer Firma traue ich so wenig wie Google. Warum sollte ich denen mehr vertrauen schenken. Mit der Annahme das selbst Google angeblich immer gegen seine policies Verstöße, darf man hier nichts anderes annehmen
Ergänzung ()

andy_m4 schrieb:
Naja. Von Werbung die ein Nutzer nicht anklickt und die er sogar als nervig empfindet, hat niemand was. Am wenigsten der Werbetreibende.
Naja dann würde YouTube nicht so viel Werbung schalten. Scheint ja zu gehen
 
cookie_dent schrieb:
Eben, und genau die "liest" die KI aus und bewertet diese als alleinige Wahrheit.
Nennt sich dann "Mehrheitsmeinung" und da es sich ja um die Mehrheit handelt, ist das dann natürlich auch ganz demokratisch, so wie jetzt eben auch schon... Man macht eine Umfrage unter z.B. Impfbefürwortern und "oh Wunder" von denen ist die Mehrheit dafür... Das haut man dann wirklich allen per ÖR 24/7/365 um die Ohren bis es auch der allerletzte für wahr hält. Funktioniert schon seit Jahrhunderten so. Frauen mit roten Haaren sind vom Teufel besessen und gehören verbrannt. Die Erde ist eine Scheibe. Der Ami ist gut, der Russe schlecht, der Ukrainer war niemals wirklich korrupt. Der Klimawandel hat nichts mit der Überbevölkerung zu tun usw. usw. Wenn wir nur genug Windmühlen bauen, werden bald alle 10 Milliarden Menschen im Wohlstand baden...
 
Floxxwhite schrieb:
Naja dann würde YouTube nicht so viel Werbung schalten. Scheint ja zu gehen
Ich weiß nicht, mit wem Du Dich so abgibst. Aber ich kenne niemanden der Werbung auf Youtube und Co toll findet.
 
denglisch schrieb:
Dir ist schon klar dass nicht jeder Code auf GitHub einfach mal in andere Software integriert werden kann? Die Lizenz muss beachtet werden, sonst kann Schadensersatz und Unterlassung eingeklagt werden. GPL ist hier ein gutes Beispiel.
Genauso wenig habe ich geschrieben, dass Entwickler die sich daran bedienen, dass Projekt 1:1 übernehmen, sondern gemeint war hauptsächlich die Information.
Und neuronale Netze speichern den Code erst recht nicht ab, da es wie gesagt, ein neuronales Netz ist und keine Datenbank von CodeSnippets oder ähnlichem.

denglisch schrieb:
Das ist eben nicht in Ordnung, und wird daher auch in wissenschaftlichen Arbeiten als Plagiat bezeichnet, und führt dazu dass man seinen Abschluss verliert.
Ja und da eine KI Zugriff auf das Internet hat kann diese auch auf die originalen Quellen verweisen. Das macht Bing bereits und hat ChatGPT bis zum abschalten des Browser PlugIns auch. Dementsprechend arbeitet Bing/ChatGPT bereits wissenschaftlich korrekter als die 0815 Blogs, die gar keine Verweise liefern.

denglisch schrieb:
So einfach ist das nicht. Clean-Room-Implementations sind nicht ohne Grund ein Ding. Hier wird häufig verlangt dass derjenige der den Code gelesen hat nicht der ist der ihn reimplementiert. Es läuft also darauf hinaus dass man eine grobe und abstrakte Wiedergabe der Prinzipien hat und es dann nochmals implementiert.
Jup und das ist auch absoluter Quatsch und einfach nur Fortschrittsbehinderung, wenn ich die Informationen vorher öffentlich ins Internet stelle.
Wenn ich Informationen öffentlich ins Internet stelle, dann muss ich damit rechnen, dass Menschen diese Informationen extrahieren und daraus lernen und nicht noch eine weitere Person als Proxy dazwischen klemmen damit auch bloß nichts so implementiert wird, wie man es aus der Quelle an Wissen extrahiert hat.
Wenn es mir so wichtig ist, dass keiner was davon hat oder nur ein gewählter Personenkreis, bspw. bei Firmeninternen Angelegenheiten dann lädt man solche Informationen nicht frei ins Internet.

Und diese Argumentation lässt sich analog für neuronale Netze führen. Es werden Informationen eingespeißt aber es werden keine Texte im neuronalen Netz gespeichert. Es werden lediglich Verbindungen mit anderen Nodes manipuliert. Nichts anderes (vereinfacht) passiert in unserem Gehirn.


Entweder ich stelle Wissen öffentlich ins Internet und finde mich damit ab, dass Menschen daraus lernen, Informationen ableiten, ihr Skillset erweitern/verbessern und dies nutzen, oder ich stelle es nicht ins Internet ganz einfach.

Was hier wieder für eine Hexenjagd für frei verfügbare Informationen angestellt wird, ist mal wieder ein Paradebeispiel wieso Deutschland bei der Digitalisierung genau da steht wo es steht.
 
Miguel14.05 schrieb:
Was hier wieder für eine Hexenjagd für frei verfügbare Informationen angestellt wird, ist mal wieder ein Paradebeispiel wieso Deutschland bei der Digitalisierung genau da steht wo es steht.
Dazu müsstest du genau definieren was für dich "frei verfügbar" bedeutet und wie die KI zwischen "legal" und Illegal" frei verfügbar unterscheiden soll.
Ich kann deine Einstellung durchaus nachvollziehen und in einer perfekten Welt würde ich dir auch sicher recht geben.
In der Realität stehen der KI (vor allem einer die z.B. auch dein Profil kennt) viel mehr Datensätze zur Verfügung wie du glaubst und mit einigen davon kann man so einiges anstellen.
Allgemeinwissen wie 2x2=4 ist hier weniger das Problem.

Die Frage ist natürlich wie man damit umgeht
  • Augen zu und durch mit allen Konsequenzen
  • Vorsichtig womit am Ende trotzdem wenig gewonnen ist da die Dinger eben nicht in der EU stehen bzw. stehen müssen und trotzdem auf vieles was uns betrifft Zugriff haben
 
Zurück
Oben