Cuda für LLM Fine Tuning

xybit · 13. Dezember 2023

[Bitte fülle den folgenden Fragebogen unbedingt vollständig aus, damit andere Nutzer dir effizient helfen können. Danke!

]

Hallo Zusammen,

bin auf der Suche nach ner Cuda Karte, mit der ich die LLMs Fine Tunen kann. Da mir hier völlig die Übersicht über den Markt fehlt, wollte ich die experten in der Runde befragen.

Vielen Dank schon mal jetzt für die Antworten!

1. Wie viel Geld bist du bereit auszugeben?
1000 bis 1500€

2. Möchtest du mit der Grafikkarte spielen?

Nein

3. Möchtest du die Grafikkarte für spezielle Programme & Anwendungen (z.b. CAD) nutzen? Als Hobby oder bist du Profi? Welche Software wirst du nutzen?
Pytorch, Tensorflow und Co

4. . Wieviele und welche Monitore möchtest du nutzen? Wird G-Sync/FreeSync unterstützt? (Bitte mit Link zum Hersteller oder Preisvergleich!)
Möglicherweise gar keinen und nur per Remote drauf

5. Nenne uns bitte deine aktuelle/bisherige Hardware:

Gibt es noch nicht, wird dann an die Graka angepasst

6. Hast du besondere Wünsche bezüglich der Grafikkarte? (Lautstärke, Anschlüsse, Farbe, Hersteller, Beleuchtung etc.)
nein

7. Wann möchtest du die Karte kaufen? Möglichst sofort oder kannst du noch ein paar Wochen/Monate warten?
Kann auch noch ein paar Wochen warten

madmax2010 · 13. Dezember 2023

Mindestens eine RTX4090, besser 2, aber da passt das Budget nicht.
Lieber eigentlich eine H100. Je nachdem was du vor hast.

IBISXI · 13. Dezember 2023

xybit schrieb:
mit der ich die LLMs Fine Tunen kann.

Das wird dann wohl von der Komplexität der LLMs abhängen.

Je nachdem wird eine Grafikkarte bzw. deren Speicher wohl kaum reichen.
KI taugliche Beschleuniger haben gerne mal 100GB+ HBM Speicher und treten in Gruppen auf.

Alternativ kannst Du die Rechenleistung oder auch komplette KI Infrastrukturen in der Cloud mieten.

xybit · 13. Dezember 2023

madmax2010 schrieb:
Mindestens eine RTX4090, besser 2, aber da passt das Budget nicht,.

Die RTX4090 habe ich jetzt auch schon öfter gehört. Ich hatte gehofft, dass es vielleicht noch eine günstigere alternative gibt

IBISXI schrieb:
Alternativ kannst Du die Rechenleistung oder auch komplette KI Infrastrukturen in der Cloud mieten.

Derzeit mache ich das auch so. Die Models werden mit PEFT bzw. LoRA gefine tuned. Allerdings muss man da immer permanent dahinter sein, die Ergebnisse vergleichen und wenn Müll rauskommt, hast du unter umständen schon 5 bis 10 € ausgegeben.

Lokal hätte auch den Vorteil, dass ich dann komplette Benchmark Loops schreiben kann, ohne an das Geld denken zu müssen.

madmax2010 · 13. Dezember 2023

vram Ist halt der limitierende Faktor. brauchst du mehr als, als deine Karte hat wird es sehr nervig.
Welche Karten, mietest du und wie viel vram ist dabei jeweils benötigt? Welche Modelle möchtest du finetunen?

xybit · 13. Dezember 2023

Im Moment immer eine Tesla P100. Bin derzeit auf der Suche nach einem Model, mit dem ich die besten Ergebnisse auf meinem Datensatz bekommen. Bisher hab ich das t5-xl und das llama2 benutzt. Wenn ich was brauchbares gefunden habe, wollte ich anfangen, die Daten zu skalieren.

madmax2010 schrieb:
vram Ist halt der limitierende Faktor. brauchst du mehr als, als deine Karte hat wird es sehr nervig.

Nervig im Sinne von Quantisierung, oder einfach nur, weil es mehr Zeit braucht, weil es ausgelagert wird?

IBISXI · 13. Dezember 2023

xybit schrieb:
Derzeit mache ich das auch so.

Kannst Du von dem was Du in der Cloud machst, keine Rückschlüsse auf benötigte Hardware ziehen?
(abschätzen wie lange es mit einer 4090 dauern würde)

VRAM belegung, geleistete Arbeit?

Sonst evtl. eine VM mit 4090 mieten und mal schauen wie es tut.

xybit · 13. Dezember 2023

IBISXI schrieb:
VRAM belegung, geleistete Arbeit?

Das kommt sehr stark auf die Hyperparameter (genau Batch Size und Target Tokensize) an. Wenn ich Batch Size 1 und als Target Tokensize 1024 Tokens wähle, schaff ich das Flan T5 Base gerade so mit 14 GB in die 16 GB des P100 zu quätschen (ohne Lora Peft), falls dir das weiter hilft.
Am Ende kann ich dir noch gar nicht genau sagen, wieviel ich benötige, weil ich erst mal ein paar Iterationen machen müsste, um zu wissen, was wie genau gute Ergebnisse bringt.

Grundsätzlich geht es darum, QA auf eigene Dokumente zu machen. Falls ihr damit Erfahrung habt und vielleicht ein ganz anderes (kleineres) Model empfehlen könnt, wäre ich dafür auch dankbar und offen

Suche

Cuda für LLM Fine Tuning

xybit

Lt. Junior Grade

madmax2010

Fleet Admiral

IBISXI

Admiral

xybit

Lt. Junior Grade

madmax2010

Fleet Admiral

xybit

Lt. Junior Grade

IBISXI

Admiral

xybit

Lt. Junior Grade

Ähnliche Themen