Test Nvidia DGX Spark im Test: Ein Blick auf den kleinsten KI-Supercomputer der Welt

Gohst schrieb:
Naja, immerhin hat dieses Teil auch die Möglichkeit durch die vorhandenen "connect-x7" mit 200GBe Ethernet Bandbreite in ein Cluster verbunden zu werden.

Somit könnte man eine hochverfügbare oder eben ge-clusterte Umgebung nachbauen.
Das sind die feinen Spezialitäten die in die "hat sich gelohnt" Kasse einzahlen.

Das nächste besondere Merkmal sind die 128GB schneller Speicher - das ist in bestimmten Fällen (grosse Sprachmodelle) ein deutlicher Vorteil wie schon beim Ryzen AI Max+ 395 eben auch.
Ist sicher ein Punkt, aber was fürn schneller Speicher ???:

Hätten se NVLink auf der RTX 6000 gebracht wie sichs gehört für ein 8k€+ Produkt, dann würde jeder eher dazu greifen. 192 GB Memory Pool wo 96GB individuell locker jenseits der 2TB/s drücken + 900GBs via NVLink.

Dann braucht auch keiner die Shitbox hier. Hausgemachte Gierprobleme. :daumen:
 
  • Gefällt mir
Reaktionen: MalWiederIch
Hm, ich sehe das Produkt interessiert, aber zwiespältig. Die schlechte Performance bei der Inference (verglichen mit der 6000 Pro oder auch einer 5090 bei kleinen Modellen) ist sicherlich ein Punkt (der auch den Preis erklärt) - man muss das aber auch in Relation zu den Alternativen sehen.
  • Eine 5090 mit passendem PC dazu. Bis 32GB sehr schnell, darüber wird es sehr langsam oder läuft garnicht. Vernünftig ausgestattet reden wir vermutlich von rund 6k Wert.
  • z.B. ein M4 Max mit 128GB unified RAM. Damit kann man LLMs samt Kontext in maximal rund 112GB quetschen, ohne das die Systemstabilität leidet. Das ist bei MOE Modellen auch recht OK in der Performance. Bild/Videogenerierung ist auf dem Mac unfassbar langsam. Manches dauert 2, 3, 4 oder 10 Mal so lange oder noch mehr. Manches läuft auch garnicht. Der RAM hilft hier null und ist auch nicht der limitierende Performance-Faktor (also die Bandbreite ist nicht das primäre Problem) - es fehlt einfach an Compute. Und eben dem NVIDIA Stack. So ein Gerät kostet so grob ab 6k als Notebook.
  • Eben die DGX Spark. Bei größeren LLMs vermutlich ähnlich schnell wie der Mac. Bei Bild-/Videogegenerierung zwar deutlich langsamer als die 5090 (so alles in den VRAM passt) aber DRAMATISCH schneller als ein Mac. Und es läuft vor allem alles. Und kostet ab 3k
  • PC mit 6000 Pro. Schnell, großer VRAM, alles bis 96GB wird sehr schnell laufen. Karte kostet aber auch 8k. Plus die Workstation drum herum. Sind wir schnell bei 12k in etwa.
  • AMD AI - Performance irgendwo in der Größenordnung des Mac vermutlich. Relativ günstig - um die 2k vermutlich? Läuft aber auch nicht alles.
Im Gesamtkontext (und wenn man den NVIDIA-Stack mit einpreist) ist die DGX Spark eigentlich garnicht so teuer. Neben(!) der Funktion als Dev-Box für das NVIDIA-Enterprise-Ökosystem - was alleine den Preis rechtfertig - ist sie auch(!) für alle AI-Anwendungen interessant, wo ich mehr als 32GB VRAM und weniger als ~110GB VRAM benötige (der Unified Ram wird ja nicht komplett als VRAM verfügbar sein können - ähnlich wie beim Mac) benötigt werden und reine Performance nicht kriegsentscheidend ist. Wobei die Spark ja noch nichtmal die langsamste Lösung ist. In vielen Usecases (Bild/Video) wird sie z.B. massiv schneller als mein doppelt so teurer Mac sein. Und für mittlere Teams, die eine datenschutzkonforme LLM-Lösung suchen, ist sie auch interessant, da die Spark ja anscheinend vor allem im Multiuser-Betrieb Stärken zu haben scheint.

Bei mehr Speicherbandbreite und vielleicht auch etwas mehr Rechenleistung wäre das ein totaler No-Brainer - so halt nicht. Zeit ist eben auch Geld und da sind wir wieder bei der höheren Performance einer 6000 Pro im Anwendungsfenster von 32-96GB VRAM. Darüber wird dann aber auch erstmal wieder die Spark interessanter. Ein Paar von denen ist immer noch billiger und man hätte nochmal mehr Speicher zur Verfügung.
 
  • Gefällt mir
Reaktionen: Spawn182, fab.erg und interesTED
Zhan schrieb:
Und für mittlere Teams, die eine datenschutzkonforme LLM-Lösung suchen, ist sie auch interessant, da die Spark ja anscheinend vor allem im Multiuser-Betrieb Stärken zu haben scheint.
Ich denke gerade der Punkt des Datenschutzes ist nicht zu unterschätzen:
Wenn es um sensible Kundendaten oder kritische Geschäftsgeheimnisse geht, will man sich eventuell nicht unbedingt auf die Datenschutzversprechen einer Branche verlassen die aktuell auf finanziell fragwürdigen, ggf. bald wackeligen Beinen steht. Inbesondere nicht wenn diese Firmen fast alle aus einem Land kommen, deren Staatsoberhaupt auch nicht unbedingt für Verlässlichkeit gegenüber Partnern steht...

So ein Teil wie dieses hier (was man in einer abgeschotteten Umgebung einrichtet) erscheint mir dahingehend deutlich weniger kritisch und ist, sofern die Leistung für den Usecase reicht, deutlich günstiger als ein richtiger KI-Server. Wenn ich da an meine Ausbildungszeit bei einem kleinen IT-Dienstleister damals zurück denke wäre das heute vermutlich eine passende Lösung für zweckgebundene interne Unterstürzungs-Chatbots für z.B. kleinere Anwaltskanzleien, Arztpraxen, lokale Behördenbüros, Startups usw.
 
  • Gefällt mir
Reaktionen: fab.erg und whats4
Die lokalen Modelle sind halt extrem eingeschränkt, wenn es um um nicht sehr spezifische Aufgaben geht - lokal machen eigene Modelle oder selbst (oder von Dritten) fine getunede Modelle Sinn - wird aber sicher noch bei den meisten Unternehmen nicht gemacht - vielleicht langsam bei Dokumentationsmaterial.

Ausserhalb dieser beiden Fälle hat man lokal den doofen Schulabbrecher statt in der Cloud das System das einen Schulabschluss hat :D
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: MoonTower
DerMond schrieb:
Das weiß die Redaktion mit Sicherheit selber nicht. Neben den Ausgaben für das weltweite Militär dürfte KI die wohl größte Geldverschwendung sein.
Hmmm
Naja KI wird eh fürs Militär genutzt ;)

Aber ich meinte das anders. Die Vor/Nachteile von KI sind mir bewusst. Ich benutze diverse LLMs ja ab und zu, nur für mich persönlich macht es noch keinen Sinn/Vorteil mich mit der Konfiguration eines lokalen LLMs oder anderen Modellen zu beschäftigen obwohl ich's in der Arbeit habe.

Dass manche meiner Kollegen schon seit einiger Zeit fleißig damit herumspielen verstehe ich, aber ich persönlich hab noch nicht den unmittelbaren Nutzen gesehen.

Kommt sicher noch.

Für unseren Arbeitgeber ist der Nutzen natürlich klar. Neben Datenschutz und langfristig theoretisch sogar Kostenersparnis wenn man eigene Hardware verwenden kann, hilft es natürlich wenn man eine eigene Forschungsabteilung für KI hat, dass man solche Spielereien kauft
 
Geld raushauen ist im Zeitraum der Entwicklung aber immer normal - bis eine brauchbarte Version erreicht ist.
 
Der Lüfter ist bemerkenswert!
Punkt.
 
  • Gefällt mir
Reaktionen: Mills97
da sieht man mal wie gut linux ist.
kaum ist es wo vorinstalliert, kostet die kiste gleich das dreifache xD
SCNR
 
  • Gefällt mir
Reaktionen: nutrix und stefan92x
Es lassen sich ja 2 DGX Sparks zusammenschalten, so daß sie zusammen über 256 GB RAM verfügen. Wäre jetzt mal zu klären, ob das nur innerhalb eines Herstellers funktioniert oder auch mit einer DGX FE zu einer Asus DGX.
 
Da die Platinen diegleichen sind bei allen, sollte das überall klappen. Die Hersteller dürfen ja nur ihr Gehäuse drum bauen, das Innere liefert alles Nvidia (also außer die SSD).
 
Frage von einem Laien:
Wäre das nicht eine gute Basis für eine offline-Deepseek-Variante, die mit eigenem Material trainiert wird? Gibt's einen mit diesbezüglichen Erfahrungen?

PS: Danke für den Test!
 
  • Gefällt mir
Reaktionen: s0ja und zazie
Welche Quantisierung / Q-Faktor wurde denn bei den Modellen jeweils genommen? Und welche Context Length? Spielt das nicht eine Rolle bei der Geschwindigkeitsmessung? So könnte man die Werte etwas mit anderen Rechnern vergleichen.

Grüße
 
Artikel-Update: Am 12. Februar ließ Nvidia wissen, dass die Leerlauf-Leistungsaufnahme des DGX Spark mit dem neuesten Firmware-Update um bis zu 18 Watt niedriger ausfallen kann, wenn die beiden ConnectX-7-Netzwerkanschlüsse keine Verwendung finden. Nach einem Monat ist das Update inzwischen auch auf dem Asus Ascent GX10 angekommen – denn 1:1 übernehmen können OEMs das Update für die Founders Edition nicht.

[Bilder: Zum Betrachten bitte den Artikel aufrufen.]

Nach dem Update liegt die „Idle-Leistungsaufnahme“ des DGX Spark von Asus jetzt bei 28 statt vormals 38 Watt und damit zehn Watt niedriger.

[Bilder: Zum Betrachten bitte den Artikel aufrufen.]
 
  • Gefällt mir
Reaktionen: steirerblut und konkretor
Das ist kein Supercomputer lieber @Jan ! ;)
https://en.wikipedia.org/wiki/Supercomputer

Das Ding soll laut den Heise "Kollegen" nicht mal auf die Leistung von 3 3090 kommen, wen ich das nciht total falsch in erinnung habe. Aber abseit von einem sehr teuren AI Spielzeug, hat es doch ein sehr eingeschrenktes Usecase. Ob das aber reicht es als Supercomputer zu deklarieren, weil man damit praktisch nur ein einziges Usecase hat, ich weiß nicht lieber Jan....

Dafür deutlich Sparsamer als 3 3090. Aber wir sollten als IT "Fach" Platform, nicht die falsche Nomenklatur der Marketingabteilung von NV verfallen denke ich. Schon garnicht wen es die Erwartungen nicht erfüllt, bzw den Preis nicht rechtfertigen.

 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Blende Up
Verwendung von absoluten, statt relativer Zahlen, würde so viel mehr Klarheit schaffen.... eine mit, eine ohne X-7 Verwendung...
Und wär auch noch kürzer...
 
Ist der Idle-Verbrauch nicht eher egal? Wer so eine Maschine kauft, lässt die doch mehr oder weniger permanent rechnen.
 
@Krik

Ja. Das ding soll angeblich nur dafür sein sachen zu testen bevor es auf Rechenzentren hochgeladen wird. SPrich man schaltet es ein. Und wen die Testprozedur zu ende ist, schaltet man es wieder aus. Und "Irre" die sich das als Spielzeug auf den Tisch bauen, den ist der Idle-Verbrauch wohl denke ich auch relativ wurscht bei 4500€ xD

@Jan
Ach nochwas, du schreibst hier von einen große Rückstand. Vielleicht kann man aber trotzdem fährerweise ergänzen, das der Rückstand stark abgenommen haben soll. Ich weiß aber nicht mehr genau wo ich das gelesen habe. Aber es soll nicht mehr so sein, das man praktisch für alles Cuda und nur Cuda braucht. Das heist nicht das es keinen Abstand gibt. Aber ich denke man sollte vollständigkeitshalber schon erwähnen, das der Verfolger aufgeholt, wen es der Case ist. Ich schau ob ich noch eine Quelle finde.



1773478020346.png



Ohne jetzt die Problem und den Abstand klein zu reden, aber soll auch Progression geben. Also nur der Vollständikeits halber mal erwähnt.

https://www.hardware-corner.net/ryzen-ai-halo-is-not-new-hardware/
https://aimultiple.com/cuda-vs-rocm
https://www.technolynx.com/post/cuda-vs-rocm-choosing-for-modern-ai

Korregiert mich wen das alles nur Influenzer-Käse sein sollte.

Zitat 1 (Framework-Support):

"ROCm support has improved markedly; many training and inference pipelines now run well on supported AMD GPU models."
Zitat 2 (Performance):

"On ROCm, rocBLAS/MIOpen have seen consistent progress and perform well on many AI workloads, especially when you pick recommended kernel and precision settings."
Zitat 3 (Vergleichbarkeit):

"For mainstream vision and language networks, ROCm is increasingly production-worthy."
Zitat 4 (Entwicklung):

"The ROCm toolchain has matured quickly. HIP makes many CUDA codebases portable with mechanical changes."
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Krik
@Krik Kommt darauf an. Mein AMD 395 braucht im idle (mit geladenem und sofort einsatzbereitem LLM) nur ~5W im idle (Linux Mint). Den kann ich ohne Sorge 24/7 laufen lassen, auch wenn ich ihn wenig nutze.

Das ist nochmal ein gutes Stück von dem 28W, welche die Nvidia-Kiste im idle verbraucht, entfernt. Klar, wer sich sowas anschafft, für den mögen die halbe kWh am Tag an Mehrverbrauch nicht unbedingt finanziell stören, aber dennoch... ich mein, ansonsten die die ja doch recht ähnlich. Im Idle-Verbrauch ist Nvidia hier klar hinterher (laut Benchmark sogar bei den LLM Tokens/Sekunde leicht hinterher).

Für mich hat hier AMD klar das bessere Produkt auf den Markt gebracht.

@lynx007
Ja, man kann AMD problemlos für LLMs oder die Comfy-Bildgeneration o.ä. nutzen.
Da ich derzeit auch mit Nvidia experimentiere, muss ich sagen, da ist das auch nicht wirklich einfacher, da man genau die passende CUDA-Version und torch-Version und Python-Version haben muss, damit die Zeug wie flash-attn läuft, oft nicht im wheel vorhanden, etc. Vom Stress das Zeug lauffähig zu bekommen und zu halten geben sich da beide nichts.
 
  • Gefällt mir
Reaktionen: Zarlak
der Test ist klasse! Ich finde es auch toll das das Gerät lieferbar ist und nicht wie Originalen Sparx nur in USA wenn überhaupt.
 
Zurück
Oben