LLM und KI Modelle Leitungszuwachs RTX 4000 vs. RTX 5000 Blackwell GPUs

Risikus

Cadet 1st Year
Registriert
Feb. 2025
Beiträge
11
https://www.pcmasters.de/news/13371...lagerung-auf-nvidia-und-amd-graifkkarten.html

Die RTX 4090 soll angeblich bei dem LLM LLAMA 3.2 3B rund 77 Tokens pro Sekunden erreichen.
Die RTX 5090 erreicht hier eine Leistung von 2x RTX 4090. (Nachweis folgt)

NVIDIA bewirbt die neue RTX 5000er Blackwell Generation mit großen AI Leistungszuwächsen.
Wie groß sind die Leistungszuwächse wirklich im Vergleich zu den Älteren Modellen?
 
Das Zauberwort heißt hier (meiner Einschätzung nach) in den meisten Fällen FP4. Nvidia vergleicht gerne Inferenz bei "halber Genauigkeit" FP4 auf der 5090 mit FP8 auf der 4090. Das ist sicher für viele Anwendungen mit angepassten Modellen ok. Aber es bleibt ein großes Stück weit ein Äpfel und Birnen Vergleich.

Hier zum Beispiel mal ein Phoronix-Benchmark mit llama.cpp

https://www.phoronix.com/review/nvidia-rtx5090-llama-cpp/2

Auf der anderen Seite ist die Anwendung von AI allem Anschein nach der Teil der 5000 Serie, welcher die größte Aufmerksamkeit und Änderungen erfahren hat. Die Wahrheit liegt in der Praxis vermutlich wie immer irgendwo in der Mitte. Und zuletzt sei Erwähnt, dass auch schon die native Verfügbarkeit von FP4 innerhalb der Recheneinheiten einen Fortschritt darstellt. Wie auch immer man den am Ende dann bewerten mag bleibt jeden überlassen.
 
Risikus schrieb:
Die RTX 4090 soll angeblich bei dem LLM LLAMA 3.2 3B rund 77 Tokens pro Sekunden erreichen.
Was soll ich mit einem 3B Modell? ;)
 
  • Gefällt mir
Reaktionen: JumpingCat und madmax2010
Llama 3.3 70b (gguf) läuft mit 42 - 50 Token/s
 
50 Tokens/s bei 70B sind schon gut. Wie komplex ist der Prompt dabei?
 
Zuletzt bearbeitet:
Zurück
Oben