Der AI-Part kommt mir hier ein klein wenig kurz. Ich benche kurz mal GPT 120B-oss als Vergleich:
Edit:
Also als erstes wäre es für den AI-Part des Tests wichtig kurz den Wert von
43 Token/s im Text zu erwähnen. Das ist ja neben der Antwort an sich, die jedoch KI-Modell-abhängig ist der Wert von Interesse. Vereinfacht gesagt. Je höher der Wert, desto schneller wird das Modell Reasoning betreiben (wenn verfügbar) und eine Antwort ausgeben.
Ich habe mit meinem System mal ein Vergleich mit GPT 120B-oss durchgeführt in LM Studio.
Dabei bin ich davon ausgegangen, dass ihr die Modellkonfiguration im LM Studio im Standard belassen habt und euer Prompt in etwa lautete: "
Can you explain the AMD Strix Halo architecture in detail and at the end also give a short FAQ about AMD Strix Halo?"
Hier mein Ergebnis (AMD 5950X, 128GB DDR4 auf 3333, RTX 3090 24GB)
Wie man sieht war Strix Halo etwa 4 mal so schnell. Jetzt mag sich ein Laie fragen: "Wie kann die APU von Strix Halo 4 mal so schnell sein wie eine RTX 3090?"
Die Antwort: Ist sie nicht. Aber in meinem System gibt es einen Flaschenhals, den Strix Halo nicht hat. Während nämlich die RTX 3090 mit ihrem GDDR6X eine Bandbreite zur GPU von 936.2 GB/s besitzt, liegt die Bandbreite von meinem Dualchannel DDR4-Kit nur bei ~53GB/s (2 × 3333 MT/s × 8 B).
Das Strix Halo System hat Shared RAM. Das Bedeutet es gibt keinen expliziten VRAM, sondern CPU und GPU teilen sind wie im Artikel erwähnt den Speicher. Dieser hat jedoch eine Bandbreite von 256GB/s (256-bit (16×16-bit) x 8000 MT/s). Natürlich spielen die unterschiedlichen Architekturen der GPUs auch eine Rolle, aber in diesem Fall kann meine GPU nicht ihr Potential ausspielen. Das KI-Modell GPT 120B-oss ist mit ~60GB Gesamtgröße der Tensorfiles zu groß um komplett im 24GB VRAM zu rechnen.
Das ist der Vorteil von Strix Halo. Wenn ich mir jetzt beispielsweise ein System mit sehr schnellem DDR5 und Quad-Channel statt Dualchannel besorge und die GPU behalte, dann würde ich auf ähnliche Werte wie Strix-Halo kommen.