GPU AI-Rechenleistung Datentypen

DKK007

Lt. Commander
🎅Rätsel-Elite ’25
Registriert
Nov. 2015
Beiträge
1.893
Mir ist im Preisvergleich aufgefallen, dass bei den GPUs die AI-Rechenleistung für unterschiedliche Datentypen angegeben ist. https://geizhals.de/?cmp=3472917&cmp=3509896&cmp=3365541&active=0
Bei Nvidia ist es FP, also Gleitkomma/Floatingpoint, bei AMD und Intel INT, also Integer.

AI-Rechenleistung_Vergleich_Datentypen_GPUHersteller.png


Woran liegt das und kann man das bei gleicher Datenbreite dann überhaupt vergleichen (z.B. FP8 vs. INT8)?

Welche Datentypen nutzen KI Modelle wie gemma oder llama?
 
Interessant, was Copilot dazu sagt:

FP8 vs. INT8: Was steckt hinter den Zahlen?​

  • FP8 (Floating Point 8) ist ein Gleitkommaformat mit 8 Bit, das von NVIDIA speziell für KI-Training entwickelt wurde. Es bietet eine dynamische Skalierung durch Exponenten, was besonders bei großen Modellen wie LLMs hilfreich ist. FP8 ist ideal für Training, da es hohe Genauigkeit bei geringem Speicherbedarf ermöglicht.
  • INT8 (Integer 8) ist ein Ganzzahlformat mit 8 Bit, das vor allem für Inference (also das Ausführen von trainierten Modellen) verwendet wird. Es ist extrem effizient in Bezug auf Rechenleistung und Energieverbrauch, aber weniger flexibel bei der Darstellung von Werten mit großem Dynamikumfang3.

🔍 Vergleichbarkeit: Warum der direkte Vergleich schwierig ist​

MerkmalFP8 (NVIDIA)INT8 (AMD & andere)
TypGleitkommaGanzzahl
HaupteinsatzgebietTraining großer ModelleInference auf Edge-Geräten
DynamikumfangHoch (durch Exponenten)Gering (feste Skalierung)
HardwareeffizienzWeniger effizient als INT8Sehr effizient für spezialisierte HW
GenauigkeitHöher bei komplexen OperationenGut bei quantisierten Modellen
Laut einer Studie von Qualcomm ist FP8 für Training zwar vielversprechend, aber für Inference bis zu 50–180 % weniger effizient als INT8. Das liegt daran, dass INT8-Hardware speziell auf einfache Ganzzahloperationen optimiert ist.

🧠 Fazit: Was bedeutet das für den Vergleich?​

Wenn du die KI-Leistung von GPUs vergleichen willst, solltest du:
  • Den Einsatzzweck beachten: Training vs. Inference.
  • Die unterstützten Formate und Tensor-Kerne prüfen: NVIDIA z. B. hat spezielle FP8 Tensor Cores.
  • Benchmarks mit realen Modellen anschauen: z. B. wie schnell ein LLM auf der jeweiligen GPU läuft.
Die Frage hat wohl schon mehr beschäftigt, da gibts auch sogar eine Studie dazu:
FP8 versus INT8 for efficient deep learning inference
 
  • Gefällt mir
Reaktionen: DKK007
Naja, in meinen Augen ist FP8=Int8. Nämlich ein Datentyp mit 8bit.

Und dann hat keiner von beiden eine höhere Dynamik oder Genauigkeit.
 
@Piak wenn man keine Ahnung (zumindest zeigt das deine Aussage) hat dann auch einfach nichts Posten..

Denn wie unterschiedlich gleitkomma und Festkommazahlen sind ist jedem mit Grundlagen aus Informatik oder mess/Regeltechnik bekannt.

Beschreibung der beiden fp8 Modelle von Nvidia..
https://developer.nvidia.com/blog/f...ion-to-efficient-lower-precision-ai-training/

Und deren Wertebereich..

Int8 ohne Komma kann nur von +/- 127 rechnen.

Beide Darstellungsmodelle können nur 254 unterschiedliche zahlen darstellen ja aber +/- 127 vs +/- 57xxx ist sicher ein deutlicher Unterschied...
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Monarch2, tomgit, Ruptarr und 4 andere
Piak schrieb:
Naja, in meinen Augen ist FP8=Int8. Nämlich ein Datentyp mit 8bit.
Ich steig schnell in die Zeitmaschine und sag bei Intel bescheid, dass sie die FPUs nicht entwickeln müssen..
Das sind in hardware komplett andere pfade und die zahlen sind anders im adresierbaren bereich verteilt.
Qualcomm hat das mal aufgeschrieben:
https://ar5iv.labs.arxiv.org/html/2303.17951
ich denke das relevanteste ist am sampling in dieser grafik sichtbar und sollte eine gute intuition fuer das geben was da passiert:
x10.png


DKK007 schrieb:
Welche Datentypen nutzen KI Modelle wie gemma oder llama?
alle die du willst. im Prinzip kannst du dir FP64 modelle quantisieren wie du lustig ist.
Im Grunde nimmst du ein bereits trainiertes neuronales Netzwerk, dessen Gewichte und Aktivierungen typischerweise in einer hohen Genauigkeit wie FP32 vorliegen, und wandelst diese in eine niedrigere Genauigkeit wie INT8 oder FP8 um. Das Ziel ist es, das Modell kleiner, schneller und energieeffizienter zu machen, ohne dabei die Genauigkeit signifikant zu beeinträchtigen. Wobei du (wie beiaffinen abbildungen im Abi) immer etwas genauigkeit verlierst, wenn du aus einer höheren Dimension in eine niedrigere projizierst.

Je nachdem welche hardware du nutzt musst du das Modell immer in ein Format bringen, welches auf dem jeweiligen chip funktioniert.
Ausgangspunkt ist in dem Beispiel meist ein LLM im ONNX Format und daraus baust du etwas, was via cuda/rocm/vino auf der jeweiligen Hardware performant funktioniert.
(den teil finde ich schwierig runter zu brechen, wenn das jemand besser formuliert bekommt gern her damit)
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: DKK007, xxMuahdibxx, rollmoped und eine weitere Person
gerade bei LLM Inferenz limitiert dich die speicherbandbreite & Menge bevor die GPU es tut.
Darum ist ein Mac Mini M4 32GB auch besser fuer LLMs geeignet als eine RTX4090.
Was du da von igor verlinkt hast sind ist eher computer vision

DKK007 schrieb:
Gibt es irgendwo eine Übersicht, welche Datentypen welche GPU-Architektur kann?
wenn du keine gefunden hast vermutlich nicht. Kauf hardware auf der das funktioniert was dich interessiert.

Gerade die 4-5stelligkostenden GPUs wuerde ich einfach mieten. Ist billiger. Eine A100 80Gb kostet ~70cent/h
https://app.primeintellect.ai/dashb...ion=Cheapest&security=Cheapest&show_spot=true
Darauf laufen mittelgroße llama modelle in brauchbarer Quantisierung. Auf einer 4090 laufen nur kleine Modelle.
Jahrelang mieten, bis di den preis einer gekauften GPU raus hast

Die Liste erlaubt gut abzuschätzen was geht.
https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
Ergänzung ()

da noch was mehr:
https://www.hardware-corner.net/guides/gpu-benchmark-large-language-models/

aber bevor du eine 16gb karte kaufst.. kauf den Mac ini mit 16GB Ram. Ist schneller.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: xxMuahdibxx, rollmoped und nutrix
Int8 wurde bei nvidia mit pascal auf der nvidia P4 eingeführt, da es zum inferencing sehr beliebt wurde ist es auf ada deutlich beschleunigt worden.

Aber im prinzip geht das auch auf 20 jahre alten GPUs. Ist dann halt ineffizient
 
  • Gefällt mir
Reaktionen: rollmoped
madmax2010 schrieb:
Kauf hardware auf der das funktioniert was dich interessiert.

Gerade die 4-5stelligkostenden GPUs wuerde ich einfach mieten. Ist billiger.
Ich habe schon eine RTX 5060ti 16 GiB, brauche da keine neue Karte.

Frage war eher allgemeines Interesse, bzw. wegen Arbeit.
Und da darf es dann nicht viel kosten, wegen Haushalt.
 
Zuletzt bearbeitet:
madmax2010 schrieb:
aber bevor du eine 16gb karte kaufst.. kauf den Mac ini mit 16GB Ram. Ist schneller.
Sorry dass ich den Thread hier nochmal ausgrabe, aber ich bin aus ähnlichen Gründen wie OP hierhin gekommen. Unter Anderem wegen diesem Tipp von dir kam für mich auch ein Mac in Frge, zumindest vorübergehend.
Aber sowohl dein Link als auch andere Quellen zeigen: die M-Chips sind deutlich langsamer als Nvidia-Karten, und zwar so richtig deutlich. Ein Mac ist nur dann sinnvoll wenn man Modelle nutzt, die mindestens 48 GB brauchen - dann ist ein entsprechend ausgestatteter M4 günstiger als 2x5090 zB.
Alles von Apple was nicht mehr Ram hat, als RTX-Karten bieten können, wie zB. den mini mit 16GB,
zieht was Geschwindkeit angeht, den deutlichn Kürzeren - übrigens auch beim Rendern.
Wollte ich nur mal anmerken, falls noch jemand per Forensuche hier landet.
Wenn nur Rendern und LLM´s der Kaufgrund sind, sollte der Apple aber massiv an Ram haben, sonst tuts auch
ein 5060Ti mit 16GB, und zwar schneller.
 
  • Gefällt mir
Reaktionen: Azdak und Simonte
Zurück
Oben