News (G)B300 vs. (G)B200: Blackwell Ultra nimmt Steroide und beherrscht PCIe 6.0

Jan

Chefredakteur
Teammitglied
Registriert
Apr. 2001
Beiträge
17.272
  • Gefällt mir
Reaktionen: flo.murr, aid0nex, PietVanOwl und 7 andere
Und das ohne GB200 zu "Blackwell Max" umzubenennen?
 
  • Gefällt mir
Reaktionen: R O G E R
Man bekommt jede erdenkliche GPU auf nicht spielbare frameraten gedrückt, das ist nix besonderes.
 
  • Gefällt mir
Reaktionen: aid0nex, McTheRipper, Zagrthos und 10 andere
Kann man den nv-hbi Link auch für consumer chips hernehmen? Denk da an 2x gb202, fast 50k shader cores und keine sli Probleme :D
 
FP32 bleibt unverändert bei 80 TFLOPS, während FP64 von 40 auf 1,3 TFLOPS einbricht? Bei gleichem Silizium, mit mehr Ausführungseinheiten, mehr TDP und schnellerer Anbindung? Nur noch EIN DREISSIGSTEL Performance? Kann mich mal jemand mit mehr Ahnung davon aufklären?
 
  • Gefällt mir
Reaktionen: Kadett_Pirx, CDLABSRadonP..., Turbolord und eine weitere Person
Yosup schrieb:
FP32 bleibt unverändert bei 80 TFLOPS, während FP64 von 40 auf 1,3 TFLOPS einbricht? Bei gleichem Silizium, mit mehr Ausführungseinheiten, mehr TDP und schnellerer Anbindung? Nur noch EIN DREISSIGSTEL Performance? Kann mich mal jemand mit mehr Ahnung davon aufklären?
Der AI-Markt ist viel größer als der HPC-Markt, es macht für Nvidia daher absolut Sinn, sich auf diesen zu fokussieren. Wer HPC macht, kann ja weiter GB200 bekommen.
 
@Jan Sind wir uns denn wirklich sicher, dass es sich hier wirklich um den gleichen Chip handelt? Oder hat Nvidia Anpassungen vorgenommen, die zu einem insgesamt genauso großen Chip führen, aber die Ressourcen anders verteilt in den Rechenwerken? Ich sehe das jetzt noch nicht ausgeschlossen, solange es da keine explizite Bestätigung von Nvidia gibt, dass beides bei 208 Mrd Transistoren rauskommt kann mehr oder weniger Zufall sein, und der gleiche Prozess macht Änderungen relativ günstig (weil man weite Teile des Designs einfach übernehmen kann).
 
PCI Express 6.0

Eine weitere Anpassung von Blackwell Ultra gegenüber Blackwell müsste das ebenso betreffen: Das PCI-Express-Interface beherrscht jetzt PCIe 6.0 mit bis zu 256 GB/s statt vormals PCIe 5.0 mit bis zu 128 GB/s. Die Hardware dafür muss der Blackwell-Chip also ebenfalls schon geboten haben, nur freigegeben wurde die im Jahr 2022 verabschiedete PCIe-Version 6.0 erst jetzt.
https://developer.nvidia.com/blog/n...rameter-llm-training-and-real-time-inference/
The GB200 has cold plates and connections for liquid cooling, PCIe gen 6 support for high-speed networking, and NVLink connectors for the NVLink cable cartridge.
 
  • Gefällt mir
Reaktionen: Sweepi
Yosup schrieb:
FP32 bleibt unverändert bei 80 TFLOPS, während FP64 von 40 auf 1,3 TFLOPS einbricht? Bei gleichem Silizium, mit mehr Ausführungseinheiten, mehr TDP und schnellerer Anbindung? Nur noch EIN DREISSIGSTEL Performance? Kann mich mal jemand mit mehr Ahnung davon aufklären?
Jan schrieb:
Könnte auch schlichtweg bedeuten, dass NVIDIA nicht will, dass man das für FP64 kauft.
stefan92x schrieb:
Der AI-Markt ist viel größer als der HPC-Markt, es macht für Nvidia daher absolut Sinn, sich auf diesen zu fokussieren. Wer HPC macht, kann ja weiter GB200 bekommen.
Jan schrieb:
Trotzdem ist ja die Frage, warum das auf Basis desselben Chips so ist.
stefan92x schrieb:
@Jan Sind wir uns denn wirklich sicher, dass es sich hier wirklich um den gleichen Chip handelt? Oder hat Nvidia Anpassungen vorgenommen, die zu einem insgesamt genauso großen Chip führen, aber die Ressourcen anders verteilt in den Rechenwerken? Ich sehe das jetzt noch nicht ausgeschlossen, solange es da keine explizite Bestätigung von Nvidia gibt, dass beides bei 208 Mrd Transistoren rauskommt kann mehr oder weniger Zufall sein, und der gleiche Prozess macht Änderungen relativ günstig (weil man weite Teile des Designs einfach übernehmen kann).
Jan schrieb:
Ich bin mir sicher bis kurz vor Hand ins Feuer legen. 😅
Ich finde das auch höchst merkwürdig --- will Nvidia danach etwa auch noch Black Ultra SUPER bringen, bei dem dann wieder das volle FP64er-Verhältnis freigeschaltet wurde? Wirkt alles absurd...

Oder will Nvidia künstlich AI und sonstige Anwendungen trennen, um zu verhindern, dass aus aussortierten AI-Racks später traditionelle Supercomputer gebaut werden?
 
  • Gefällt mir
Reaktionen: lzon
Ich sehe eigentlich nur drei Möglichkeiten.
  1. Entweder: Nvidia hat Transistoren für FP64 geopfert für mehr FP4-Leistung.
  2. Oder: Nvidia hat bei Blackwell absichtlich 1/3 der FP4-Leistung per Firmware beschnitten, um dann bei Blackwell Ultra behaupten zu können diese hätte 50 % mehr PF4-Leistung.
  3. Oder: Durch Umkonfigurieren von Leitungen auf dem Chip steht jetzt wirklich mehr FP4-, aber dafür weniger FP64-Leistung bereit.
Die erste Möglichkeit in der Kürze der Zeit erscheint mir eher unwahrscheinlich. Die zweite Möglichkeit würde ich Nvidia zutrauen, die sind am meisten auf Dollars aus. Und Möglichkeit 3: Es könnte sein, dass Nvidia es mittlerweile geschafft hat eine business-freundliche ALU-Architektur für verschiedene Formate auf Chips zu liefern die sich im Nachhinein per Firmware konfigurieren lassen, selbst wenn schon Millionen von Chips von TSMC gebaut wurden.

PS: Der Artikel behauptet "Die INT8, aber insbesondere die FP64-Leistung fällt deutlich.". Nur in der Tabelle steht bei INT8 "157,5/315 TFLOPS" für Bleckwell Ultra und "105/210 TFLOPS" für Bleckwell. Entweder sind die Zahlen durcheinander gekommen oder INT8 ist gestiegen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: bensen, Qyxes, HolySkillet und 2 andere
Seit wann kann man Nividia denn wieder etwas glauben ? Ehrlich ??? Ist das wieder der gleiche Mist wie etwa 4090 Leistung mit einer 5070 ???
 
  • Gefällt mir
Reaktionen: gecan und Kadett_Pirx
Yosup schrieb:
FP32 bleibt unverändert bei 80 TFLOPS, während FP64 von 40 auf 1,3 TFLOPS einbricht?
Jan schrieb:
Könnte auch schlichtweg bedeuten, dass NVIDIA nicht will, dass man das für FP64 kauft.
Exakt wie von @stefan92x erwähnt: AI ist um ein vielfaches lukrativer, deshalb bringt man speziell auf diesen Markt optimierte Chips. Ähnlich wie zu Zeiten des Mining Booms.
stefan92x schrieb:
Der AI-Markt ist viel größer als der HPC-Markt, es macht für Nvidia daher absolut Sinn, sich auf diesen zu fokussieren. Wer HPC macht, kann ja weiter GB200 bekommen.


Jan schrieb:
Trotzdem ist ja die Frage, warum das auf Basis desselben Chips so ist.
stefan92x schrieb:
Sind wir uns denn wirklich sicher, dass es sich hier wirklich um den gleichen Chip handelt?
Stand heute ja, selber Chip. Warum selber Chip? Ist schlichtweg deutlich günstiger, einen bestehenden Chip auf AI inference zu tunen. Genauso wurde das auch im NVIDIA dev forum beworben. Und sieht man auch an den stats => mehr FP4 und INT8, was man für AI inference benötigt, gleichbleibend bei FP16 und 32, was für AI training genutzt wird und deutlich niedriger bei FP64, was man für AI gar nicht nutzt.


CDLABSRadonP... schrieb:
Ich finde das auch höchst merkwürdig --- will Nvidia danach etwa auch noch Black Ultra SUPER bringen, bei dem dann wieder das volle FP64er-Verhältnis freigeschaltet wurde? Wirkt alles absurd...
Können sie nicht, denn das hier ist der Grund:
pioneer3001 schrieb:
Entweder: Nvidia hat Transistoren für FP64 geopfert für mehr FP4-Leistung.
Wurde im Dev Forum so auch erwähnt: die FP64 Einheiten wurden massiv reduziert, weil das für AI nicht interessant ist und die TensorCores wurden massiv upscaled, um FP4/8 und INT8 zu beschleunigen.

Wobei die Zahlen eigentlich falsch sind: ein Teil des boosts kommt auch durch das transformer engine v2 update, d.h. nur LLMs haben den massiven boost im inferencing, andere AI use cases profitieren weniger (sollte man auf jeden fall beachten @Jan )
 
  • Gefällt mir
Reaktionen: Simonte, eastcoast_pete und lzon
Dass Nvidia hier die FP64 Leistung reduziert hat, könnte mit einer Effizienzsteigerung begründet werden, zumal die FP4 Leistung um 50% angehoben wurde - sofern diese Gerüchte zutreffend sein sollten. Bei sehr großen KI-Modellen dürfte die erhöhte Gleitkomma-Präzision von FP64 zu dem Problem führen, dass wesentlich mehr Speicher benötigt wird. Ich würde annehmen wollen, dass Nvidia allem voran das Thema KI weiter pushen und auch immer mehr in den Alltag der Menschen integrieren möchte. Da würde die gesteigerte FP4-Performance nicht verwundern, schließlich wird hier auch im direkten Vergleich zu FP32 wesentlich weniger Speicher benötigt und mit FP4-Frameworks für LLMs wird eine deutlich effizientere Verarbeitung erreicht, so dass auch das Laden größerer Modelle bei begrenztem Hardwareeinsatz ermöglicht wird.

So eine GPU wäre mit Sicherheit nicht das Mittel der Wahl, wenn wissenschaftliche Simulationen mit KI-Einsatz in Erwägung gezogen werden, könnte aber auf eine mögliche Intention seitens Nvidias hindeuten das Thema "KI" für die "breite Masse" zugänglich machen zu wollen, die am Ende eben nur begrenzte Ressourcen an Hardware zur Verfügung hat. Damit dürften dann auch wesentlich größere Modelle eben lokal laufen, während kleinere Modelle auf FP4 Basis wiederrum an Präzision verlieren. Die größeren Modelle bieten dann dafür wieder mehr Qualität im Bereich des kontextuellen Verstehens oder können komplexere Aufgabenstellungen erledigen bei gleichzeitig geringerem Hardwarebedarf.

Oder auf der anderen Seite müssen dann auch weniger Ressourcen im IaaS-Bereich seitens der Betreiber eingesetzt werden, wenn die Modelle einfach mit weniger Hardware mehr Output in entsprechender Qualität liefern können. Das drückt am Ende dann auch die Kosten.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: lzon und CyrionX
SKu schrieb:
Bei sehr großen KI-Modellen dürfte die erhöhte Gleitkomma-Präzision von FP64 zu dem Problem führen, dass wesentlich mehr Speicher benötigt wird.
FP64 ist bei KI non-existent.

SKu schrieb:
Da würde die gesteigerte FP4-Performance nicht verwundern, schließlich wird hier auch im direkten Vergleich zu FP32 wesentlich weniger Speicher benötigt und mit FP4-Frameworks für LLMs wird eine deutlich effizientere Verarbeitung erreicht, so dass auch das Laden größerer Modelle bei begrenztem Hardwareeinsatz ermöglicht wird.
Das ist eine Datacenter GPU, welche fünfstellig kostet. Begrenzter Hardwareeinsatz ist da kein Fokus, sondern schlichtweg das FP4/8 idR für das inferencing bei LLMs ausreicht und man deshalb explizit darauf optimiert, um die ganzen geplanten AI Giga-Factories möglich zu machen. Preis pro Token und überhaupt Bepreisung der API Nutzung bei OpenAI und überall sonst.

SKu schrieb:
So eine GPU wäre mit Sicherheit nicht das Mittel der Wahl, wenn wissenschaftliche Simulationen mit KI-Einsatz in Erwägung gezogen werden, könnte aber auf eine mögliche Intention seitens Nvidias hindeuten das Thema "KI" für die "breite Masse" zugänglich machen zu wollen, die am Ende eben nur begrenzte Ressourcen an Hardware zur Verfügung hat.
Auch bei wissenschaftlichen Simulationen läuft die KI selbst maximal in FP32 - die meisten KI libraries supporten nicht mal FP64 nativ. Die beiden größten, TensorFlow und PyTorch, haben beispielsweise diverse nicht optimierte GPU kernel für FP64 und für einen Teil der ops auch nur CPU-fallback. Damit kannst du nichts heutzutage relevantes trainieren.
 
  • Gefällt mir
Reaktionen: eastcoast_pete, lzon, CyrionX und eine weitere Person
Zurück
Oben