Datenschutz­bedingungen: Google nutzt sämtliche verfügbaren Informationen für KI-Training

Andreas Frischholz
98 Kommentare
Datenschutz­bedingungen: Google nutzt sämtliche verfügbaren Informationen für KI-Training
Bild: Google

Anfang der Woche entdeckte Gizmodo ein Update in Googles Datenschutz­bestimmungen. Diese besagen, dass der Konzern sämtliche im offenen Web verfügbaren Informationen nutzen kann, um Large Language Models (LLM) zu trainieren. Von nun an gilt das auch explizit für generativen KI-Tools wie Bard und die KI-Dienste in der Cloud.

Dass Google sämtliche öffentlich verfügbaren Informationen für das Training der Modelle verwenden will, stand bereits seit geraumer Zeit in den Datenschutz­erklärungen. Neu ist, dass die aktuellen Tools nun konkret benannt werden. Wie Heise meldet, finden sich die Absätze auch in den deutschen Datenschutz- und Nutzungsbedingungen. Konkret heißt es:

Beispielsweise erheben wir Daten, die online oder in anderen öffentlichen Quellen verfügbar sind, um die KI-Modelle von Google zu trainieren sowie Produkte und Funktionen wie Google Übersetzer, Bard und Cloud AI weiterzuentwickeln. Wenn Ihre Unternehmensinformationen auf einer Website erscheinen, können wir sie indexieren und in Google-Diensten anzeigen.

Nachvollziehen lassen sich in die Änderungen im Revisionsverlauf. Google ersetzt den Begriff „Sprachmodelle“ durch „KI-Modelle“ und fügt neben den Funktionen auch die Produkte hinzu, die entwickelt werden. Hatte die Passage vorher noch einen Anstrich von Forschung, ist nun klar, dass es auch um Produktentwicklung geht.

Unsere Datenschutzbestimmungen sind seit langem transparent in der Hinsicht, dass Google öffentlich zugängliche Informationen aus dem offenen Web verwendet, um Sprachmodelle für Dienste wie Google Translate zu trainieren“, sagt ein Sprecher des Konzerns zu The Verge. Mit dem jüngsten Update stelle man lediglich klar, dass neuere Dienste wie Bard ebenfalls eingeschlossen seien.

Streit um Trainingsdaten

Dass die führenden KI-Unternehmen wie Google und auch OpenAI das offene Web nach Trainingsdaten abgrasen und diese für das Training der Modelle nutzen, wird kritisch beobachtet. Angesichts der vagen Formulierungen ist noch nicht klar, inwieweit solche Vorgaben mit Gesetzen wie der DSGVO in Einklang bringen lassen. Ebenso fraglich ist, wie mit Web-Angeboten umgegangen wird, die das Datensammeln etwa in den AGB untersagen.

Ebenso protestieren auch die großen Plattform-Betreiber, die über viele Nutzerinhalte verfügen. So begründeten sowohl Reddit-Chef Steve Huffman als auch Twitter-Besitzer Elon Musk die Einschnitte bei den API-Zugängen mit den KI-Modellen, die Daten der Plattformen als Trainingspool nutzen. Auch Twitters Leselimits vom Wochenende begründete Musk mit der Aussage, man wolle KI-Firmen und Datensammlern den Hahn abdrehen.

Ein weiterer Aspekt ist der Zugang zu urheberrechtlich geschütztem Material. Das EU-Parlament will daher über den AI Act künftig eine Transparenzpflicht einführen, die Entwickler verpflichtet, eine Liste mit Copyright-Material zu veröffentlichen.