Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsWikipedia: Daten für KI-Entwickler sollen Bot-Scraper abwehren
Wikipedia will künftig verhindern, dass Entwickler von KI-Modellen die Plattform für das eigene KI-Training direkt auslesen. Dafür stellt die freie Online-Enzyklopädie in Kooperation mit der von Google betriebenen Plattform Kaggle einen speziell für das maschinelles Lernen optimierten Datensatz bereit.
Als ich das erste Mal von den Problemen gehört hatte, war meine direkte Reaktion auch, dass sich das doch technisch lösen lassen müsste. Die bisherige Variante klingt allerdings merkwürdig; nur englisch und französisch? Sozusagen als Beta?
Den Aufwand haben die Scraper eigentlich gar nicht verdient.
Manche Bots verhalten sich wirklich wie ein DDoS, da wird ohne Rücksicht alles so schnell wie möglich gecrawlt.
Auf der Arbeit sperren wir mittlerweile ganze IP-Ranges von Rechenzentren weil die AI-Crawler-Dienste ihre IPs wie Unterwäsche wechseln.
Wenn ich mit einer VPN unterwegs bin sehe ich das mittlerweile auch bei anderen Webseiten.
Da muss man legitime User aussperren weil Firmen im AI-Hype alle Manieren verlieren.
Aber dann müsste ja jemand Aufwand betreiben.
Den Datensatz runterladen, gesondert einspeisen, alle Wikipedia-Domains blacklisten.
Und was wenn der Datensatz nicht wirklich alle Daten hat, dann verpassen die ja was.
Gibt ja genug Seiten die APIs für Nicht-Menschen haben, man müsste nicht das HTML crawlen.
Aber stumpf alle Links zu crawlen ist einfacher als das richtige JSON zu finden.
Die Anfragen pro Sekunde zu drosseln ist ja noch einfacher gemacht.
Aber die wollen alle Inhalt, und das am besten schon gestern.
Die Konkurrenz hat ja schon viel mehr Daten zum trainieren gesammelt, da muss jetzt aufgeholt werden.
(Ich weiß, klingt sehr zynisch, ist aber leider so)
Simpel: Nicht Primärquelle (ja ich weiß. Ist ein Widerspruch in sich, weil Wikipedia selbst auf die Primärquellen verweist; Aber im Sinne von Hauptquelle für das Training gemeint) und gleichzeitig könnten die Daten bei der Verarbeitung teilweise korrupt oder fehlerhaft sein. Generell gilt: Wenn die Erstqulle 4free ist, warum dann auf solche Quellen zurückgreifen?