Piak schrieb:
Naja, in meinen Augen ist FP8=Int8. Nämlich ein Datentyp mit 8bit.
Ich steig schnell in die Zeitmaschine und sag bei Intel bescheid, dass sie die
FPUs nicht entwickeln müssen..
Das sind in hardware komplett andere pfade und die zahlen sind anders im adresierbaren bereich verteilt.
Qualcomm hat das mal aufgeschrieben:
https://ar5iv.labs.arxiv.org/html/2303.17951
ich denke das relevanteste ist am sampling in dieser grafik sichtbar und sollte eine gute intuition fuer das geben was da passiert:
DKK007 schrieb:
Welche Datentypen nutzen KI Modelle wie gemma oder llama?
alle die du willst. im Prinzip kannst du dir FP64 modelle quantisieren wie du lustig ist.
Im Grunde nimmst du ein bereits trainiertes neuronales Netzwerk, dessen Gewichte und Aktivierungen typischerweise in einer hohen Genauigkeit wie FP32 vorliegen, und wandelst diese in eine niedrigere Genauigkeit wie INT8 oder FP8 um. Das Ziel ist es, das Modell kleiner, schneller und energieeffizienter zu machen, ohne dabei die Genauigkeit signifikant zu beeinträchtigen. Wobei du (wie beiaffinen abbildungen im Abi) immer etwas genauigkeit verlierst, wenn du aus einer höheren Dimension in eine niedrigere projizierst.
Je nachdem welche hardware du nutzt musst du das Modell immer in ein Format bringen, welches auf dem jeweiligen chip funktioniert.
Ausgangspunkt ist in dem Beispiel meist ein LLM im ONNX Format und daraus baust du etwas, was via cuda/rocm/vino auf der jeweiligen Hardware performant funktioniert.
(den teil finde ich schwierig runter zu brechen, wenn das jemand besser formuliert bekommt gern her damit)