Copilot-Training: GitHub nimmt sich Daten der Nutzer per Opt-out

Christian Schnegelberger
31 Kommentare
Copilot-Training: GitHub nimmt sich Daten der Nutzer per Opt-out
Bild: GitHub

Wie GitHub mitteilt, möchte die Plattform ab dem 24. April die Daten und Interaktionen von Benutzern zum Trainieren des Copilot verwenden. Betroffen sind alle Benutzer von Copilot Free, Pro und Pro+. Wer nicht widerspricht, stimmt automatisch zu.

Benutzer müssen aktiv werden

Ausgenommen sind alle Kunden von Copilot Business und Copilot Enterprise sowie deren Repositories. GitHub setzt das Ganze als „Opt-out“ um, sodass alle Benutzer, die diesem Vorgehen widersprechen wollen, aktiv werden müssen. In den Einstellungen von GitHub muss die Option „Allow GitHub to use my data for AI model training“ deaktiviert werden. Dies ist nur dann deaktiviert, wenn der GitHub-Benutzer bereits früher widersprochen hat, dass GitHub seine Daten für Produktverbesserungen verwenden darf. Alle anderen Benutzer müssen diese Einstellung in den nächsten Wochen ändern, sofern sie widersprechen wollen.

GitHub Copilot – Opt-Out-Setting
GitHub Copilot – Opt-Out-Setting

Was wird alles verwendet?

In einem Blog-Artikel schreibt GitHub, dass zum Trainieren von Copilot verschiedene Daten von Benutzern verwenden werden sollen. Dazu gehören alle Ausgaben von Copilot, die durch den Nutzer akzeptiert oder modifiziert wurden und alle Eingaben an Copilot einschließlich Beispielcode. Der Code-Kontext um die jeweilige Cursorposition sowie Kommentare und Dokumentationen werden ebenfalls verwendet.

Zum Trainieren werden auch die Repository-Struktur, die Dateinamen und das Bedienkonzept genutzt. Außerdem werden alle Interaktionen mit allen Copilot-Funktionen herangezogen, dazu gehören der Chat oder die Codevorschläge sowie das Feedback der Benutzer in Form von Daumen hoch und runter. Danach werden Mitarbeiter von GitHub und Microsoft, die mit der KI-Entwicklung betraut sind, sowie externe Dienstleister Zugriff auf diese Daten haben.

GitHub betont ausdrücklich, dass keine Daten verwendet werden, die aus Interaktionen von Copilot Business oder Enterprise oder Repositories von Enterprise-Kunden stammen. Ebenso ausgenommen sind alle Benutzer, die dem Modelltraining widersprochen haben und Inhalte von Issues, Diskussionen und privaten Repositories, sofern sie nicht mit Copilot verwendet werden und die entsprechende Einstellung nicht deaktiviert wurde.

Und wozu soll das gut sein?

GitHub hat zu Beginn nur öffentliche Daten und verschiedene, manuell erstellte Code-Beispiele verwendet, um das Modell zu trainieren. Nachdem auch die Daten verwendet wurden, die durch Microsoft-Mitarbeiter mit Copilot geteilt wurden, soll sich eine starke Verbesserung eingestellt haben. Deshalb möchte man die Trainingsdaten jetzt auf eine größere, realistischere Code-Basis stellen, um das Modell und dessen Leistung zu verbessern.

Weitere Fragen und Antworten lassen sich in den eigens eingerichteten FAQ von GitHub einsehen.