Kann mir jemand mit Detailwissen erklären wie man mit Destillation ein besseres Modell erzeugen soll ? Das kann doch maximal so gut sein wie das Modell dessen Daten destilliert werden mit dem Nachteil das man die ganzen Fehler vom destillierten Model noch mit einbaut?
Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
News DeepSeek und Co.: Anthropic wirft chinesischen KI-Startups vor, Claude-Fähigkeiten zu stehlen
Quantität
Lt. Commander
- Registriert
- Jan. 2011
- Beiträge
- 1.122
@M-X Versuch mal hier, vielleicht bist danach bisl schlauer:
- https://medium.com/@tahirbalarabe2/understanding-llm-distillation-attacks-929306ca38cd
- https://medium.com/@tahirbalarabe2/understanding-llm-distillation-attacks-929306ca38cd
tomgit
Rear Admiral
- Registriert
- Nov. 2015
- Beiträge
- 5.222
Der Gedanke ist, dass man den Output von größeren Modellen nutzt um kleinere Modelle zu trainieren, wodurch die kleineren Modelle die Fähigkeiten der größeren Modelle adaptieren sollen.M-X schrieb:Kann mir jemand mit Detailwissen erklären wie man mit Destillation ein besseres Modell erzeugen soll ?
Wie ich in dem anderen Posting dargelegt habe, ist die Qualität von Distillation Attacks bestenfalls umstritten, weil nicht wirklich klar ist, ob damit bessere Modelle produziert werden können oder ob kleinere Modelle bei einfacheren Fragen dann besser wirkende Ausgaben erzeugen.
Kann auch einfach sein, dass Anthropic die "Attacke" als Vorwand nimmt um zu sagen, dass DeepSeek und co einfach nur synthetische Daten mit den Modellen haben produzieren lassen, womit sie ihre Modelle trainierten.
Genau das war die Frage, leider hast du auch keine Antwort.tomgit schrieb:Qualität von Distillation Attacks bestenfalls umstritten, weil nicht wirklich klar ist, ob damit bessere Modelle produziert werden können oder ob kleinere Modelle bei einfacheren Fragen dann besser wirkende Ausgaben erzeugen.
- Registriert
- Juli 2019
- Beiträge
- 208
Wer im Glashaus sitzt, sollte lieber im Keller onanieren.
Ich bin zwar nicht der erste der das hier sagt, aber es ist schon zynisch wenn man erst im großen Maßstab urheberrechtlich geschütztes Material stiehlt und sich dann beschwert wenn die liebevoll geklauten Daten einfach von anderen übernommen werden.
Ich bin zwar nicht der erste der das hier sagt, aber es ist schon zynisch wenn man erst im großen Maßstab urheberrechtlich geschütztes Material stiehlt und sich dann beschwert wenn die liebevoll geklauten Daten einfach von anderen übernommen werden.
Diablokiller999
Captain
- Registriert
- Jan. 2007
- Beiträge
- 3.570
I don't care, wenn wir schon alle bestohlen wurden, machen wir einfach ein free for all draus.
Deepseek Coder läuft auf der 24GB RTX echt gut und die Daten bleiben bei mir. Hoffe das die Chinesen weiter machen, sehe da absolut keine Probleme.
Deepseek Coder läuft auf der 24GB RTX echt gut und die Daten bleiben bei mir. Hoffe das die Chinesen weiter machen, sehe da absolut keine Probleme.
Also irgendwo hab ich mal aufgeschnappt, dass Anthropic selbst die robots.txt ignoriert.
Unabhängig davon wundert mich diese "News" irgendwie. Ich dachte das war damals beim DeepSeek Hype schon klar, dass das mit einer der Hauptgründe für die geringen Entwicklungskosten war.
Unabhängig davon wundert mich diese "News" irgendwie. Ich dachte das war damals beim DeepSeek Hype schon klar, dass das mit einer der Hauptgründe für die geringen Entwicklungskosten war.
Biervampyr
Cadet 3rd Year
- Registriert
- Okt. 2018
- Beiträge
- 56
Elverado schrieb:"verschärfte Urheberrechts- und Handelsvorgaben"...
Wie war das denn nochmal mit den Trainingsdaten?
Bin absolut kein Freund von der chinesichen Methode Wissen anzueignen, aber wer im Glashaus sitzt...
Habe mal gehört das es eine Ehre in China ist Sachen zu kopieren. Nach dem Motto "Nur was sich lohnt (gut ist), wird kopiert." Keine Ahnung ob das stimmt aber würde die Mentalitätsunterschiede bei dem Thema Kopieren in Bezug zur westlichen Welt erklären.
aufkrawall
Lt. Junior Grade
- Registriert
- Apr. 2012
- Beiträge
- 283
Mal sollte nicht auf das Narrativ der amerikanischen KI-Firmen reinfallen, dass der Erfolg der chinesischen Modelle vornehmlich durch Nachahmen kommt. GLM 5 in OpenCode ist extrem beeindruckend.
