Bericht Nvidia Hopper: So schnell ist die neue Architektur für Supercomputer

Colindo

Redakteur
Teammitglied
Dabei seit
Dez. 2015
Beiträge
2.872
Hopper ist Nvidias neue Architektur für Supercomputer-GPUs. Vorgestellt wurde sie mit vielen technischen Details Ende März. Das umfangreiche Whitepaper zu Nvidias Hopper-GPU GH100 lieferte im Nachgang weitere Details zur Architektur und erlaubte einen Vergleich mit AMDs mehr oder weniger direktem Gegenspieler Instinct MI250X.

Zum Bericht: Nvidia Hopper: So schnell ist die neue Architektur für Supercomputer
 
  • Gefällt mir
Reaktionen: lynx007, ComputerJunge, Bccc1 und 60 weitere Personen
Zwei Daumen hoch für diesen Inhalt @Colindo !
 
  • Gefällt mir
Reaktionen: bullit1, Moerf, iron-man und 33 weitere Personen
Danke fürs Zusammenfassen des Whitepapers
 
  • Gefällt mir
Reaktionen: bullit1, flo.murr, Skydix und 9 weitere Personen
But will it run Crysis?

Krass wie sehr sich die Transistorendichte der letzten 10 Jahre stetig erhöht hat.

700W TDP, jetzt werden wieder einige rumheulen 😁
 
  • Gefällt mir
Reaktionen: XY-Diddi, flo.murr, Firezeed und 2 weitere Personen
"~600 mm²" in der Tabelle GPU-Gerüchte RTX 4090 kann also nicht hinkommen, wenn man sich die Zahlen in diesem Artikel anguckt.
 
Unterstützt werden die Formate H.265, H.264 und VP9, wobei H.265 mit 340 gleichzeitigen Full-HD-Streams am meisten Daten gleichzeitig verarbeiten kann. Für das Training mit Bilddaten beherrscht der Dekoder auch JPEG und dekomprimiert bis zu 6.350 Full-HD-Bilder pro Sekunde.
🤯

Kaum zu glauben, aber sehr faszinierend, was so möglich ist.
 
  • Gefällt mir
Reaktionen: sikarr
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: pipip, derSafran, mm19 und 2 weitere Personen
@Colindo Sollten in der Tabelle zu den Tensorcores die "PS" in FLOPS nicht verschwinden? Du gibst ja pro Einheit pro Takt an, was keinen Bezug auf Zeit nimmt :)
 
Zitat von flappes:
"~600 mm²" in der Tabelle GPU-Gerüchte RTX 4090 kann also nicht hinkommen, wenn man sich die Zahlen in diesem Artikel anguckt.
Die RTX 4090 dürfte GH102 sein, hier geht's um GH100

War bei vergangenden Generationen auch nicht anders - der ganz fette Chip schafft es nie in Consumer-Karten.
 
  • Gefällt mir
Reaktionen: XY-Diddi, Col. Jessep, Recharging und eine weitere Person
Zitat von Rickmer:
Die RTX 4090 dürfte GH102 sein, hier geht's um GH100

AD102. Wie bei Ampere und "Gaming-Ampere" werden sich die HPC- und die Consumer-Architektur wieder unterscheiden. GH100 z.B. hat wie GA100 keine RT-Kerne, GA102 und AD102 werden die aber haben.
 
  • Gefällt mir
Reaktionen: sigsegv, gartenriese, LatinoRamon und 3 weitere Personen
Zitat von GT200b:
700W TDP, jetzt werden wieder einige rumheulen 😁
Server GPU sind eher auf Effizienz ausgelegt, als die Gamerkarten.
Weit weniger würden sich über eine hohe TDP bei der High End Gamerkarte beschweren, wenn sie auch die Effizienteste wäre. Ein Grund, weshalb die erste Titan damals auch so gut ankam.
 
Gibt es dafür auch DirectX 12 Treiber, kann man damit seine Games beschleunigen?
 
2030 gibts millionen cuda kerne auf einer pcie karte und dazu 100 solarpanels gratis
:freak::daumen::D:D:D
 
Damit kann ich mir mein Haustier simulieren einschließlich Gefühle wie eingeschnappt und beleidigt.

lol
Ergänzung ()

Ein Tamagotchi Beschleuniger. :freak::daumen::D:D:D
 
  • Gefällt mir
Reaktionen: guzzisti, Sdfendor und sikarr
Nvidia hält sich dieses Jahr wohl nicht zurück was Hardware angeht.
80 Mrd. Transistoren und 80 GB HBM3 an 3 TB/s sind eine Ansage.

Ein x4 bei der Tensor-Core Leistung ist auch erstaunlich, zumal von pro Core die Rede ist. Davon kommt sicherlich auch etwas beim GA an.
Zitat von Wattwanderer:
Ernsthaft mal. Wie viele passen davon in ein 19" 42HE?
8 GPUs bekommt man auf 4HE, weiß nicht ob es da noch etwas spezielleres gibt.
Aber ansonsten 80 GPUs pro Rack.
 
Zitat von Rage:
Sollten in der Tabelle zu den Tensorcores die "PS" in FLOPS nicht verschwinden? Du gibst ja pro Einheit pro Takt an, was keinen Bezug auf Zeit nimmt :)
Das ist eine interessante Frage. Die erste Aufstellung der Art habe ich bei AMD gesehen, wo "FLOPS/CU/Clock" steht (S.10) https://www.amd.com/system/files/documents/amd-cdna2-white-paper.pdf

Die Sache ist, glaube ich, dass man mit 1 Hz mehr als 1 Operation pro Sekunde bekommt, deswegen bleibt das "FLOPS" bestehen. Du kriegst pro Takt eine bestimmte Rechengeschwindigkeit zur Verfügung gestellt.
 
  • Gefällt mir
Reaktionen: Onkel Föhn
Interessant in der Tat - doch wo ist die Grenze? Einiges der Mehrleistung wird durch hohe TDP erkauft - werden wir in der nächsten Generation TDP >1kW sehen oder wird der nächste Zuwachs kleiner Ausfallen (müssen)?

Und ich kaufe eine a ;)
Anlog fällt die Anzahl der Cuda- und Tensor-Kerne
 
  • Gefällt mir
Reaktionen: Colindo, Onkel Föhn und Jan
Weshalb kaufen die Schürfer nicht solche Rechenknechte und lassen uns die Gamer Karten ? :freaky:

MfG Föhn.
 
  • Gefällt mir
Reaktionen: ArilethDeTyr, XY-Diddi, iron-man und eine weitere Person
Zurück
Top