News Wikipedia: Daten für KI-Entwickler sollen Bot-Scraper abwehren

mischaef

Kassettenkind
Teammitglied
Registriert
Aug. 2012
Beiträge
7.040
  • Gefällt mir
Reaktionen: Mr.Seymour Buds, Sweepi und knoxxi
Als ich das erste Mal von den Problemen gehört hatte, war meine direkte Reaktion auch, dass sich das doch technisch lösen lassen müsste. Die bisherige Variante klingt allerdings merkwürdig; nur englisch und französisch? Sozusagen als Beta?
 
Warum reicht denen KiwiX nicht?
 
Den Aufwand haben die Scraper eigentlich gar nicht verdient.

Manche Bots verhalten sich wirklich wie ein DDoS, da wird ohne Rücksicht alles so schnell wie möglich gecrawlt.
Auf der Arbeit sperren wir mittlerweile ganze IP-Ranges von Rechenzentren weil die AI-Crawler-Dienste ihre IPs wie Unterwäsche wechseln.

Wenn ich mit einer VPN unterwegs bin sehe ich das mittlerweile auch bei anderen Webseiten.
Da muss man legitime User aussperren weil Firmen im AI-Hype alle Manieren verlieren.
 
  • Gefällt mir
Reaktionen: flo.murr, Fritzler, doof123 und 6 andere
Man kann doch ohnehin das ganze Wiki herunterladen und offline verwenden. Wieso trainieren die KIs denn Online? Das wäre doch viel schneller.
 
IBISXI schrieb:
Das wäre doch viel schneller.
Aber dann müsste ja jemand Aufwand betreiben.
Den Datensatz runterladen, gesondert einspeisen, alle Wikipedia-Domains blacklisten.
Und was wenn der Datensatz nicht wirklich alle Daten hat, dann verpassen die ja was.

Gibt ja genug Seiten die APIs für Nicht-Menschen haben, man müsste nicht das HTML crawlen.
Aber stumpf alle Links zu crawlen ist einfacher als das richtige JSON zu finden.

Die Anfragen pro Sekunde zu drosseln ist ja noch einfacher gemacht.
Aber die wollen alle Inhalt, und das am besten schon gestern.
Die Konkurrenz hat ja schon viel mehr Daten zum trainieren gesammelt, da muss jetzt aufgeholt werden.

(Ich weiß, klingt sehr zynisch, ist aber leider so)
 
  • Gefällt mir
Reaktionen: flo.murr, Kampfmoehre und Termy
Sweepi schrieb:
Warum reicht denen KiwiX nicht?
Simpel: Nicht Primärquelle (ja ich weiß. Ist ein Widerspruch in sich, weil Wikipedia selbst auf die Primärquellen verweist; Aber im Sinne von Hauptquelle für das Training gemeint) und gleichzeitig könnten die Daten bei der Verarbeitung teilweise korrupt oder fehlerhaft sein. Generell gilt: Wenn die Erstqulle 4free ist, warum dann auf solche Quellen zurückgreifen?
 
Zurück
Oben