@Volker
bitte nicht dem nVidia Marketing verfallen. Die haben mir NV256 oder NV72 gar nichts "erfunden" sondern einfach nur bekanntes skaliert und Geld drauf geworfen sowie Einschränkungen hingenommen. Die machen einfach ihr Ding und sagen dann friss oder stirb.
Ich will aber ganz sicher keines der Teile betreiben müssen. Mir reichen schon die Ausfälle der 4er und 8er DGX Systeme mir den SMX Modulen. Da geht gefühlt ständig was kaputt. Also wenn ich das mit CPU Systemen vergleiche. Einen vernünftigen stabilen Betrieb über längere Zeiten bekommst du so nur schwer hin.
Vor allem ist bei einem Defekt immer ein ganzer Node weg. Bei CPU Systemen hat man nur sehr viel mehr Nodes. Es tut also nicht so weh.
Gefühlt sterben die GPUs auch eher einfach so im Vergleich zu CPUs wo man über RAS doch oft schon sieht das da etwas Probleme machen wird und dann halt bei nächster Gelegenheit aus der Produktion nimmt.
davidzo schrieb:
Das eigentliche Wunder ist ja wie nvidia NVL72 nur mit Kupfer durchziehen konnte.
das ist jetzt kein Wunder sondern einfach nur Design innerhalb der Spezifikationen. Hätte man mit den vorherigen gens auch hinbekommen wenn man gewollt hätte.
davidzo schrieb:
Unter anderem eine nie dagewesene Rackdichte durch durchweg Flüssigkeitskühlung auch für die Nvlink switches und Peripherie.
ja, abet alles einfach hoch skaliert. Mehr Manifolds in ein Rack zu packen ist keine Kunst. Am Ende zählt da nur das pro Node design. Und da geht es halt auch um Geld. Schau dir LRZ an. Die sind schon lange auf kompletter Wasserkühlung inkl Netzteilen! Kommt von Lenovo.
davidzo schrieb:
Grundsätzlich ist Kupfer natürlich nicht effizienter als Glasfaser.
na doch. Wenn du nicht wandeln musst, als direkt den Empfänger hinstellts ist es immer effizienter. Es skaliert halt nur sehr sehr sehr viel schlechter als Kupfer. Bei Glas macht es keinen relevanten Unterschied ob du 10 oder 100m Leitungslänge hast. Bei Kupfer schon. Für 10cm oder auch einen Meter reicht die Signalstärke mit Kupfer weil es so designed ist. Da hast du bei Optisch immer den zusätzlichen Transciever auf beiden Seiten der Energie frisst und damit ineffizienter wird als direct connected.
davidzo schrieb:
Grundsätzlich ist Kupfer natürlich nicht effizienter als Glasfaser.
doch, so lange du keinen Repeater brauchst und den gleichen SerDes verwendest ist Kupfer IMMER effizienter.
davidzo schrieb:
Aber innerhalb des Servers / trays ist es nunmal Kupfer, es sei denn man verwendet Co-packaged Optics wie IBM bei Telum oder Intels Demochips.
auch dann ist Kupfer effizienter. Nur kommst du damit nicht mehr sehr weit. Sprich nur noch innerhalb des Dies bzw Packages.
davidzo schrieb:
Also muss man standard Receiverchips verwenden und die brauchen viel Platz und Energie. Soviel Energie dass es bei kurzen Distanzen anscheinend effizienter ist bei Kupfer zu bleNvidia
Nein, für nen Meter oder 1.5 sind die SerDes ausgelegt. Da brauchst du noch keine Repeater. Wie gesagt bus dahin bist du effizienter mit Kupfer und günstiger dazu.
Wobei die Monster Nackplane bei NV256 könnte schon heftig teuer sein.
davidzo schrieb:
Nvidia ist also das Kunststück gelungen die Distanzen so weit zu reduzieren dass Kupfer für Rackweite NVlink Gen5 Verbindungen ausreicht.
Naja "Kunststück". Das kst wie gesagt das Aufstellen einer Spezifikation und dann das Akzeptieren des damit verbundenen Preises und eingeschränkter Wartbarkeit. That's it
davidzo schrieb:
Das ist eine beachtliche Engineering Leistung und geht nur weil die Density soviel höher ist, wobei natürlich das Fehlen der OSFP Module einen Anteil daran hat.
Ja, das ist ne Ingenieursleistung. Aber auch sehr viel einfach zugekauft.
Die Idee zu WaKü gekühlten HighDensity GPU Systemen hatte ich vor ca 15 Jahren.
An einem Projekt ähnlich zu NV256 für Exascale Computer habe ich vor ca 10 Jahren mitgearbeitet.
Wie gesagt, den größten Respekt verdienen Sie dafür die Eier in der Hose zu haben dad tatsächlich zu machen. Wie im Artikel aber schon zu lesen wird das nicht viel gekauft.
Ist einfach zu teuer und Fehleranfällig. Und kaum einer zieht wirklich einen Nutzen daraus abseits der größten LLMs beim Trainieren.
Aber ob es den Premiumaufschlag wert ist???