LLM und KI Modelle Leitungszuwachs RTX 4000 vs. RTX 5000 Blackwell GPUs

Risikus · 12. Februar 2025

https://www.pcmasters.de/news/13371...lagerung-auf-nvidia-und-amd-graifkkarten.html

Die RTX 4090 soll angeblich bei dem LLM LLAMA 3.2 3B rund 77 Tokens pro Sekunden erreichen.
Die RTX 5090 erreicht hier eine Leistung von 2x RTX 4090. (Nachweis folgt)

NVIDIA bewirbt die neue RTX 5000er Blackwell Generation mit großen AI Leistungszuwächsen.
Wie groß sind die Leistungszuwächse wirklich im Vergleich zu den Älteren Modellen?

SpartanerTom · 12. Februar 2025

Das Zauberwort heißt hier (meiner Einschätzung nach) in den meisten Fällen FP4. Nvidia vergleicht gerne Inferenz bei "halber Genauigkeit" FP4 auf der 5090 mit FP8 auf der 4090. Das ist sicher für viele Anwendungen mit angepassten Modellen ok. Aber es bleibt ein großes Stück weit ein Äpfel und Birnen Vergleich.

Hier zum Beispiel mal ein Phoronix-Benchmark mit llama.cpp

https://www.phoronix.com/review/nvidia-rtx5090-llama-cpp/2

Auf der anderen Seite ist die Anwendung von AI allem Anschein nach der Teil der 5000 Serie, welcher die größte Aufmerksamkeit und Änderungen erfahren hat. Die Wahrheit liegt in der Praxis vermutlich wie immer irgendwo in der Mitte. Und zuletzt sei Erwähnt, dass auch schon die native Verfügbarkeit von FP4 innerhalb der Recheneinheiten einen Fortschritt darstellt. Wie auch immer man den am Ende dann bewerten mag bleibt jeden überlassen.

oicfar · 12. Februar 2025

Risikus schrieb:
Die RTX 4090 soll angeblich bei dem LLM LLAMA 3.2 3B rund 77 Tokens pro Sekunden erreichen.

Was soll ich mit einem 3B Modell?

Risikus · 12. Februar 2025

Llama 3.3 70b (gguf) läuft mit 42 - 50 Token/s

oicfar · 12. Februar 2025

50 Tokens/s bei 70B sind schon gut. Wie komplex ist der Prompt dabei?

Risikus · 12. Februar 2025

Es war von jemanden ein selbst geschriebener Prompt:
https://www.reddit.com/r/LocalLLaMA/comments/1au4s0k/i_created_a_singleprompt_benchmark_with/

Das Ergebnis ist aber auch reproduzierbar, mit einem Input von 895 Token (Programmieraufgabe eines Arduinos mit LC-Display), erzielte ich einen Wert von 42,XX Token/s.

Suche

LLM und KI Modelle Leitungszuwachs RTX 4000 vs. RTX 5000 Blackwell GPUs

Risikus

Cadet 1st Year

SpartanerTom

Captain

oicfar

Captain

Risikus

Cadet 1st Year

oicfar

Captain

Risikus

Cadet 1st Year