News Wikipedia: Daten für KI-Entwickler sollen Bot-Scraper abwehren

mischaef · 17. April 2025

Wikipedia will künftig verhindern, dass Entwickler von KI-Modellen die Plattform für das eigene KI-Training direkt auslesen. Dafür stellt die freie Online-Enzyklopädie in Kooperation mit der von Google betriebenen Plattform Kaggle einen speziell für das maschinelles Lernen optimierten Datensatz bereit.

Zur News: Wikipedia: Daten für KI-Entwickler sollen Bot-Scraper abwehren

CDLABSRadonP... · 17. April 2025

Als ich das erste Mal von den Problemen gehört hatte, war meine direkte Reaktion auch, dass sich das doch technisch lösen lassen müsste. Die bisherige Variante klingt allerdings merkwürdig; nur englisch und französisch? Sozusagen als Beta?

Sweepi · 17. April 2025

Warum reicht denen KiwiX nicht?

Joshinator · 17. April 2025

Den Aufwand haben die Scraper eigentlich gar nicht verdient.

Manche Bots verhalten sich wirklich wie ein DDoS, da wird ohne Rücksicht alles so schnell wie möglich gecrawlt.
Auf der Arbeit sperren wir mittlerweile ganze IP-Ranges von Rechenzentren weil die AI-Crawler-Dienste ihre IPs wie Unterwäsche wechseln.

Wenn ich mit einer VPN unterwegs bin sehe ich das mittlerweile auch bei anderen Webseiten.
Da muss man legitime User aussperren weil Firmen im AI-Hype alle Manieren verlieren.

IBISXI · 17. April 2025

Man kann doch ohnehin das ganze Wiki herunterladen und offline verwenden. Wieso trainieren die KIs denn Online? Das wäre doch viel schneller.

Joshinator · 17. April 2025

IBISXI schrieb:
Das wäre doch viel schneller.

Aber dann müsste ja jemand Aufwand betreiben.
Den Datensatz runterladen, gesondert einspeisen, alle Wikipedia-Domains blacklisten.
Und was wenn der Datensatz nicht wirklich alle Daten hat, dann verpassen die ja was.

Gibt ja genug Seiten die APIs für Nicht-Menschen haben, man müsste nicht das HTML crawlen.
Aber stumpf alle Links zu crawlen ist einfacher als das richtige JSON zu finden.

Die Anfragen pro Sekunde zu drosseln ist ja noch einfacher gemacht.
Aber die wollen alle Inhalt, und das am besten schon gestern.
Die Konkurrenz hat ja schon viel mehr Daten zum trainieren gesammelt, da muss jetzt aufgeholt werden.

(Ich weiß, klingt sehr zynisch, ist aber leider so)

fatony · 17. April 2025

Sweepi schrieb:
Warum reicht denen KiwiX nicht?

Simpel: Nicht Primärquelle (ja ich weiß. Ist ein Widerspruch in sich, weil Wikipedia selbst auf die Primärquellen verweist; Aber im Sinne von Hauptquelle für das Training gemeint) und gleichzeitig könnten die Daten bei der Verarbeitung teilweise korrupt oder fehlerhaft sein. Generell gilt: Wenn die Erstqulle 4free ist, warum dann auf solche Quellen zurückgreifen?

Suche

News Wikipedia: Daten für KI-Entwickler sollen Bot-Scraper abwehren

mischaef

Kassettenkind

CDLABSRadonP...

Admiral

Sweepi

Commander Pro

Joshinator

Commander

IBISXI

Admiral

Joshinator

Commander

fatony

Commander

Ähnliche Themen