Test Nvidia DGX Spark im Test: Ein Blick auf den kleinsten KI-Supercomputer der Welt

SirKhan schrieb:
Im Idle-Verbrauch ist Nvidia hier klar hinterher (laut Benchmark sogar bei den LLM Tokens/Sekunde leicht hinterher).
Idle Verbrauch interessiert hier keinen. Im real usecase außerhalb benchmarks zieht die nv kiste davon. und der noch größere vorteil ist das ökosystem, wenn nötig schiebt man die workloads einfach 1:1 auf einen größeren NV Cluster.
Ergänzung ()

SirKhan schrieb:
Ja, man kann AMD problemlos für LLMs oder die Comfy-Bildgeneration o.ä. nutzen.
Da ich derzeit auch mit Nvidia experimentiere, muss ich sagen, da ist das auch nicht wirklich einfacher, da man genau die passende CUDA-Version und torch-Version und Python-Version haben muss, damit die Zeug wie flash-attn läuft, oft nicht im wheel vorhanden, etc. Vom Stress das Zeug lauffähig zu bekommen und zu halten geben sich da beide nichts.
Ka was du machst aber hab noch nie was manuell konfigurieren oder installieren müssen bei nv, alles ootb. auch bei pinokio installieren und läuft. Da ist auch der Vorteil das es die meisten Sachen nur für NV gibt bzw unzählige "NVIDIA Only" Tags...
Ergänzung ()

lynx007 schrieb:
Ohne jetzt die Problem und den Abstand klein zu reden, aber soll auch Progression geben. Also nur der Vollständikeits halber mal erwähnt.
Wäre ja auch schlimm wenn nicht, wer am wenigsten Probleme und das beste Ökosystem haben möchte kauft aber einfach NV wie auch 90% am Markt
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: hippiemanuide
Kanste alles vergessen. Die wirklich guten Modelle brauchen schon 1TB Ram. Supercomputer :volllol:
 
Syranite schrieb:
Kanste alles vergessen.
Ja. Nein. Vielleicht.
Wenn man ein Modell haben will, was alles kann, ja.
Aber zum Beispiel muss eine Code-Assistant-KI nicht alle vergangenen Bürgermeister von Paris kennen. Für spezialisiertere KIs taugen auch LLMs mit weniger Parametern.
 
  • Gefällt mir
Reaktionen: octra, tomgit, hippiemanuide und eine weitere Person
Syranite schrieb:
Kanste alles vergessen. Die wirklich guten Modelle brauchen schon 1TB Ram. Supercomputer :volllol:
Dann brauchst du eben min 9 Sparks oder 2x M3 Ultra mit 512 bzw nun halt 4x M3 Ultra, weil es die 512er Konfig nicht mehr gibt. :daumen:

Ne aber mal im Ernst.
Dafür ist der DGX Spark ja auch nicht gedacht/gemacht. Der Sinn vom Spark ist es das man das Entwickeln finanziell erschwinglich macht wo man ggf. nicht gleich 100K+ riskiert oder im schlimmsten Fall in so in die Knie zwingt, dass solche cluster offline geht, wegen eines kleinen Fehlers. Ich finde man kann mit 128 GB unified schon eine Menge anstellen und auch wenn es nicht die Leistung einer 5090/Pro 6000 in t/s hat, hat es in meinem Fall gezeigt, dass es der Spark zwar nur 1/4 der Geschwindigkeit eines Cloud-Modells was ich zum Vergleich für Tests verwendet hatte (~4h Cloud zu 16h lokal bei ~40-50W), wird es sich dennoch, je nach meinem Anwendungszweck und Aufgabe, relativ schnell amortisieren, wenn ich die API Kosten für manche Zwecke gegenüberstelle (z.B. Media Content).

Der wichtigste Punkt für mich war und ist aber, ich habe und besitze all die Daten und habe diese bei mir lokal, nix geht an die big Tech Corps, wenn ich es nicht brauche/entscheide. Und mMn sind die 100+b Modelle lokal ziemlich gut geworden zumindest erfüllen sie meine Anforderungen soweit.
Würde ich einen 2. 3. oder 4 Spark zusagen (je nach Zweck klustern)? Ja definitiv. Je nachdem wenn ich diese dann benötige (benötigen würde).
Ich hoffe, das "Vera Rubin" ebenfalls in diesem Formfaktor kommt, wenn die "neue" Architektur wirklich das hält was sie verspricht, könnte es wirklich mal in die Richtung Pocket Super Computing Home A.I. gehen.
Bisher scheint Nvidia (wie bereits beim Jetson Orin (nano, nano super) immer wieder und weiter nachzubessern mit Firmware und Treibern, wird man jemals diese "240 Watt" Leistung erhalten? Vielleicht, vielleicht auch nicht, da werde ich mich einfach mal überraschen lassen.
 
War so klar:
Das böse Wort mit W darf im Hause Nvidia nicht ausgesprochen werden.
Screenshot 2026-03-14 at 12-32-07 Nvidia DGX Spark Als Asus Ascent GX10 im Test - ComputerBase.png
 
  • Gefällt mir
Reaktionen: stefan92x und gimmix
Jan schrieb:
Artikel-Update: Am 12. Februar ließ Nvidia wissen, dass die Leerlauf-Leistungsaufnahme des DGX Spark mit dem neuesten Firmware-Update um bis zu 18 Watt niedriger ausfallen kann, wenn die beiden ConnectX-7-Netzwerkanschlüsse keine Verwendung finden. Nach einem Monat ist das Update inzwischen auch auf dem Asus Ascent GX10 angekommen – denn 1:1 übernehmen können OEMs das Update für die Founders Edition nicht.
Eine schöne Entwicklung. Ich vermute, dass sich aber auch intern einfach zu rechtfertigen war, weil ja schließlich ohnehin für den Einsatz bei Consumerhardware weiter optimiert werden muss.
 
Danke für das Update, die Firmwares werden nächste Woche gleich aktualisiert. Concurrency ist auf SparkOS gefühlt halt noch King bzw. siehts bei unseren so aus als ob bis 64 Parallele Aufrufe klein Sparky linear skaliert. In Testscripten warens da halt auch über 1000 tps. Wie realistisch das für den eigenen Einsatz ist muss eh jeder für sich selbst entscheiden, die meisten Reviews die im Internet kursieren zeigen halt den 0815 qwen 3 8b "schreib mir eine Geschichte - Benchmark".
Was die Geräte in Verbindung mit der schnellen Einrichtung ideal fürs Lab oder eben Einsätze mit viele Usern/ parallel Arbeiten macht. Wahrscheinlich kannst dir auch irgendeinen Agentic Coding Tasks zurecht basteln der dir 32+ Agenten Spawned die auf dem Teil herum hämmern.
Ich seh halt den Einsatzzweck unter Windows für das Gerät nicht nur um dann wieder WSL VLLM Container zu installieren und dann Probleme mit den ganzen Nvidia Buzzwords wie GDS, NVLink usw. zu bekommen. Spark ist aber eher ne "AI Appliance", man merkt dass die viele Arm Pakete unter Linux noch immer Probleme machen.
 
  • Gefällt mir
Reaktionen: interesTED
Das doofe ist halt, dass man privat nicht immer grosse "AI Projekte" hat und dass sich dann wenn man doch mal was grösseres hat, und das mit mit AI Support angehen will dafür auch ein "teures" Kurzabo mehr lohnt als lokal - ob man die API dann auf dem kleinen "doofen" DGX nutzt oder auf einem Einstein Riesenbollen irgendwo auf der Welt macht halt auch keinen Bedienunterschied (ausser man nutzt private Daten, die muss man halt bei der Remote AI Nutzung anonymisieren, was aber auch geht nur ein wenig Aufwand ist)
 
Hm spannend. Bei meinem Arbeitgeber, einem industriellen KMU haben wir bisher gezögert mit KI zu starten, weil es quasi keine wirklich interessante Lösung gab, die unabhängig und souverän on einem Rahmen finanzierbar war, in dem man es als "Testfeld" in der aktuellen wirtschaftlichen Lage einfach mal ausprobieren kann. Ich finde 3.000€ sind dahingehend ein kalkulierbares Risiko und als Playground durchaus interessant.
 
  • Gefällt mir
Reaktionen: luckysh0t und hippiemanuide
AwesomSTUFF schrieb:
Ich finde 3.000€ sind dahingehend ein kalkulierbares Risiko und als Playground durchaus interessant.
Das stimmt wohl. Man muss sich nur im Klaren sein, dass der Spark ja eher zum Entwickeln um es dann auf den großen Systemen laufen zu lassen, denn zur Nutzung gedacht ist - wobei man dazu sagen muss, dass es auch auf die Ansprüche und die Nutzung ankommt. Ich hatte mir auch überlegt so ein Framework Desktop Mainboard oder den Spark privat zu kaufen, um einen eigenständigen KI-Host zu haben, der mit seinen 128 GB Ram auch bisschen was laufen lassen kann. Auf der anderen Seite werde ich das nun wohl erstmal lassen, bei dem Preisanstieg xD zumal es an sich fast Perle vor die Säue wäre :D aber wer testet schon gerne im kleinsten Limit..wenn man ewig auf Resultate warten muss.. xD
 
@luckysh0t 128 GB unified Memory sind für lokale Inferenz tatsächlich sehr attraktiv, da laufen auch 70B-Modelle noch flüssig. Für reines Entwickeln und Testen ist der Spark gut geeignet, aber für produktiven Dauerbetrieb mit mehreren Nutzern zeigen sich dann die Grenzen.
 
  • Gefällt mir
Reaktionen: luckysh0t
Elan1338 schrieb:
mit mehreren Nutzern zeigen sich dann die Grenzen.
Ja, da merkt man es dann deutlich. In meinem Team überlegen wir gerade, ob wir nicht einen der alten ausgedienten vSphere Host die eh nur im Keller stehen als Testspielwiese nehmen und schauen, ob wir damit halbwegs was anstellen können, sind zwar nicht mehr die aktuellsten, aber zum Testen sollte es ja reichen xD
 
eastcoast_pete schrieb:
Meanwhile, back at the ranch, ahem, bench, und am anderen Ende der Preisspanne: wie gut/schlecht ist denn der Pi HAT mit dem Hailo H10? Diese NPU soll laut Angaben immerhin ~40 TOPs bei 4 Bit Sparsity schaffen, und dabei um die 3 W verbrauchen. Ein Test dazu wär doch auch interessant, und wahrscheinlich weniger kontrovers 😁.
Bisschen spät, aber vielleicht liest das ja noch jemand den es interessiert: https://www.schwab.sh/blog/hailo-ai-hat-benchmarks/ Der Pi mit NPU ist erstaunlich nützlich wenn man sich auf etwa 1.5B grosse Modelle beschränkt. Der Blogeintrag liefert dazu auch ein paar Anwendungsbeispiele.
 
  • Gefällt mir
Reaktionen: eastcoast_pete
@eastcoast_pete Praxisnahe Tests vom DGX Spark sind noch rar, daher ist jeder Erfahrungsbericht wertvoll. Besonders interessant wird sein, wie sich der Spark bei längeren Inferenz-Lasten oder bei parallelen Workloads schlägt.
 
  • Gefällt mir
Reaktionen: eastcoast_pete
Zurück
Oben