Bericht Nvidia Hopper: H100 treibt KI-Supercomputer im ExaFLOPS-Zeitalter an

SirSilent schrieb:
Das war eigentlich schon immer so im Computerzeitalter, früher sogar noch viel extremer.
Ich weiß, ich weiß, bin ja selbst seit den 80ern dabei.
Da war man weniger gewöhnt und die Erfolge bei den Strukturverkleinerungen waren noch wesentlich "einfacher".

Nichtsdestotrotz finde ich es manchmal schade, wenn gerade jüngere Leute, solche Technik als völlig selbstverständlich, ja von den Bäumen herabfallend, annehmen. Dass das überhaupt in dieser Qualität und Leistung funktioniert, ist schlichtweg genial und zeigt, wie Wissenschaft den Alltag bereichern und was der Mensch erreichen kann.

Daher sollte man sich hin und wieder seine Fähigkeit zum (Be)Wundern erhalten. 😉
 
  • Gefällt mir
Reaktionen: DerNiemand und Onkel Föhn
AppZ schrieb:
Effizienz und Leistungsaufnahme haben nichts miteinander zu tun.
Sie mögen nicht dasselbe sein, miteinander in Beziehung stehen Sie aber sehr wohl ^_^
 
  • Gefällt mir
Reaktionen: Onkel Föhn
Recharging schrieb:
Da war man weniger gewöhnt und die Erfolge bei den Strukturverkleinerungen waren noch wesentlich "einfacher".
Wieso waren die Erfolge wesentlich einfacher ? Man wusste damals auch wesentlich "weniger". Geforscht werden musste trotzdem und es gab ja immer wieder so kleinere "Krisen", bei denen man der Meinung war, man käme an die Physikalische Grenze.
 
Man war einfach viel weiter weg von den harten physikalischen Grenzen die auch damals als Abschätzung nach unten bekannt waren.

Früher, so bis in die 2000er konnte man einfach shrinken und die Spannung senken um einen besseren Prozess zu haben. Das funktioniert heute einfach nicht mehr.

Was wir heute an Steigerungen sehen sind nicht nur die Prozesse sondern auch ganz stark die Designs. Würde es da nicht so große Entwicklungen geben, sähe es ziemlich düster aus.

Aber auch hier gehen einem so langsam die Möglichkeiten aus. So Sachen wie HBM sind jetzt eben da. Genauso wie Chiplets. Der Effizienzsprung ist einmal da, das wars dann aber auch. Da gibt es nicht wirklich was was du über zich Generstionen treiben kannst mit jeweils einer Versoppelung.

Früher hattest du vielleicht 5 Schrauben mit denen am Ende ein Faktor 2 raus kam, weil das dein DesignZiel war. Jetzt hast du 500 Schrauben und bekommst mit denen vielleicht 1.9 raus obwohl du 2+ haben willst. Und es wird mit jeder Generation schlimmer.

Das man jetzt solche Monster baut hat nämlich den Grund, dass die Effizienz damit erst möglich ist. Nach unten skalieren kannst du das nicht. Sprich in nem normalen Gamer System muss das keinerlei Effizienzsteigerung bei 200W bedeuten.
 
Was, nur 350W für die PCIe Karte? Da geht bestimmt noch mehr!
 
Ich lese da wenig über Consumer.

Mag mir jemand helfen. Ist das auch gleichzeitig die neue Generation an Desktop und Spiele Beschleuniger die wir da im 3. Quartal erwarten können oder, so wie ich gerade denke, hat es damit nicht viel zu tun?

Danke
 

Cheechako

Consumer wirst bestimmt Nahe oder während irgendwelchen Gaming Events hören.

Skysnake

Ne, die Vorstellung einfach kleiner machen und Shrinken kommt mir zu easy vor. Allein wenn man an Leckströme denkt. Die waren Anfangs komplett unbekannt und auch da musste man erst einmal Überlegungen treffen. Und bei 90 nm gabs damals bereits schon große Probleme und ich erinnere mich "gelernt" zu haben, dass es davor bereits eine kleine Krise gab, bei der man alternativen gesucht hatte, weil man sich an der Grenze sah.
Aus heutiger Sicht rückblickend, wird immer alles viel einfacher, weil das Wissen da ist. Deshalb weiß man auch nicht was die Zukunft bringt, vor 20 Jahren auf heutiger Sicht hätten wir vllt 20GHZ Single Prozessoren ? Wer weiß.
 
Marius schrieb:
Der letzten Schritt vor Quantenrechnern?
Die gibts ja schon, aber ich denke eher nicht. Das wird, wenn überhaupt noch Jahrzehnte dauern.
pipip schrieb:
Wieso waren die Erfolge wesentlich einfacher ?
Wie @Skysnake schon sagte war das schrumpfen "einfacher", damit ist gemeint das es noch keine großartigen Probleme dabei gab. Der AMD Athlon wurde in 250 - 180nm gefertigt, Hopper schon in 4nm. Man kommt da in physikalische Grenzen, schon jetzt sind die Transistoren nur noch wenige Atome hoch, sehr viel mehr wird nicht mehr gehen, man nähert sich dem technisch machbaren.
 
Cheechako schrieb:
Ist das auch gleichzeitig die neue Generation an Desktop und Spiele Beschleuniger die wir da im 3. Quartal erwarten können oder, so wie ich gerade denke, hat es damit nicht viel zu tun?
In dem Fall Jaein mit dem Hang zu Nein: Was hier vorgestellt wurde sind die HPC-Karten, die auch dort primär verwendet werden. Das sieht man auch an den dedizierten FP64-ALUs sowie den dedizierten INT32-ALUs und das zum Beispiel RT-Kerne vollständig fehlen und man auch weitgehend nun alle TMU und ROPs raus geworfen hat.

Gleichzeitig kann man aber durch den internen Aufbau der SM auch ein paar Sachen für Ada ableiten und Vermutungen anstellen, was sich von Ampere zu Ada ändert. (Hab ich schon geschrieben, dass man ggf. die Datenpfade von 64 auf 32 senkt und damit die ALUs feiner granuliert ansprechen kann, was die Effizient steigert.)
Ergänzung ()

sikarr schrieb:
Man kommt da in physikalische Grenzen, schon jetzt sind die Transistoren nur noch wenige Atome hoch, sehr viel mehr wird nicht mehr gehen, man nähert sich dem technisch machbaren.
Um etwas anzureichern: Die physikalische Grenze für klassische Transitoren sind 3 Atome, die man braucht mit ihrer entsprechenden Dotierungen um einen Transistor abzubilden. Das wären - je nach dem was man nimmt - 0,3 - 0,6 nm, kleiner geht echt nicht mehr.

Und man arbeitet auch daran gewisse Lagen in den Transistoren auf 1nm zu reduziere, wird aber immer aufwändiger und treuer: https://www.golem.de/news/graphen-transistorgate-mit-einem-atom-breite-2203-163891.html
 
Zuletzt bearbeitet:
Unfassbar was inzwischen Möglich ist. Meine Milchmädchenrechnung ergibt ca 100 Millionen Transistoren pro mm² 🤯
 
  • Gefällt mir
Reaktionen: Colindo
pipip schrieb:
Ne, die Vorstellung einfach kleiner machen und Shrinken kommt mir zu easy vor. Allein wenn man an Leckströme denkt. Die waren Anfangs komplett unbekannt und auch da musste man erst einmal Überlegungen treffen. Und bei 90 nm gabs damals bereits schon große Probleme und ich erinnere mich "gelernt" zu haben, dass es davor bereits eine kleine Krise gab, bei der man alternativen gesucht hatte, weil man sich an der Grenze sah.
Das waren aber eher ökonomische Limits und nicht harte physikalische Limits.

Mit der Immersionslithohraphie geht halt nur eine bestimmte Wellenlänge und damit ist die minimale Struktur definiert. Und ja damit ist das auch ein physikalisches Limit. Aber eben ein Limit der Technologie und kein hartes Limit der Physik an sich. Deswegen konnte man mit so Tricks wie Belichtung mittels Interferenzmasken tiefer kommen als klassisch möglich. Oder eben Mehrfachbelichtung. Also z.b. LELE. Man hätte auch "einfach" auf niedrigere Wellenlängen gehen können ohne diese Tricks. Man hatte die Technologie aber nicht im Griff. Das ist aber im Wesentlichen ein Igenieurswissenschaftliches Problem und keins der Physik. Physiker bauen wir zur Not Kisten in denen Sie dir einzelne Atom bewegen. Ist halt nur nicht praktikabel für die Massenfertigung, zeigt aber wo die physikalischen Limits liegen. Denen kommen wir aber immer näher. Ganz abgesehen davon kann man aber gewisse Parameter wie die Länge des Transistorgates einfach nicht mehr kürzer machen, weil die dann aufhören vernünftig zu funktionieren. Da sind wir schon an einem harten Limit. Deswegen sind die Prozessnamen heute ja auch nur noch als Äquivalenz bezogen geben aber keine echte Größe mehr an wie früher....

Das ist halt das Problem. Die Anzahl der Stellschrauben wird kleiner weil einige wie die Gate Länge einfach nicht mehr nutzbar sind. Und das ist blöd denn geometrische Größen ließen sich sehr lange schön skalieren.

Aus heutiger Sicht rückblickend, wird immer alles viel einfacher, weil das Wissen da ist. Deshalb weiß man auch nicht was die Zukunft bringt, vor 20 Jahren auf heutiger Sicht hätten wir vllt 20GHZ Single Prozessoren ? Wer weiß
Das mit den 20GHz war schon damals wohl mit großen Fragezeichen versehen. Man muss da aber auch Bedenken das Effizienz noch nicht das Thema war. Man muss ja Bedenken, das jeder von uns mit PCIe Schaltungen hat die mit 8GHz+ laufen.

Da ist der Schritt zu 20GHz nicht weit. Wenn du willst und die Ineffizienz akzeptierst sind 20GHz heute machbar. Will nur niemand haben.

Und das sage ich als FullCustomASIC Designer. In 28nm habe ich selbst bis 12.5GHz designt. Also selbst 12.5GHz Inverter gebaut und auch FlipLops mit 12.5GHz verwendet und die Designs gesehen. Das geht schon wenn man denn will...
 
  • Gefällt mir
Reaktionen: Colindo, Recharging und sikarr
Porky Pig schrieb:
Wirklich beindruckend und auch auf welchen Feldern Nvidia gleichzeitig tätig und führend ist: Autonomes Fahren, Omniverse, Supercomputer...
Das kann man jetzt ja nicht so stehen lassen :)

Als Bsp.
Der Tesla FSD Chip hat ne TDP von 2x36w und ist bis Level 5 gedacht (laut Tesla)...
https://en.wikichip.org/wiki/tesla_(car_company)/fsd_chip

Nvidia Drive PX Pegasus hat Level 5 (laut Nvidia) bei einer TDP von 500w...
https://wccftech.com/nvidia-unveils...ps-post-volta-next-generation-dgpus-500w-tdp/

Ist vllt auch der Grund warum Automotive die letzten Jahre so bei Nvidia stagniert bzw sogar zurück geht (was es nicht tun sollte wenn man führend ist)
https://www.3dcenter.org/news/die-nvidia-geschaeftsergebnisse-im-dritten-quartal-2021 (siehe Auto Zahlen)
 
  • Gefällt mir
Reaktionen: Onkel Föhn
pilzsammler2002 schrieb:
Der Tesla FSD Chip hat ne TDP von 2x36w und ist bis Level 5 gedacht (laut Tesla)...
pilzsammler2002 schrieb:
Nvidia Drive PX Pegasus hat Level 5 (laut Nvidia) bei einer TDP von 500w...
Nurmal so das geht alles von der Akkukapazität ab, Autonomes fahren = 100km weniger Reichweite :D
 
BAR86 schrieb:
Natürlich: Effizienz= Leistung/Leistungsaufnahme
heroesgaming schrieb:
Sie mögen nicht dasselbe sein, miteinander in Beziehung stehen Sie aber sehr wohl ^_^

Nicht in diesem Zusammenhang. In diesem Zusammenhang ist die Leistung TFlop/Watt (relative Kennzahl).
Und diese hat sich eben massiv verbessert. Das NVidia trotzdem 700 Watt TDP (absolute Kennzahl) erlaubt hat mit der gesteigerten Effizienz des Chips an sich nichts zu tun.

Deswegen ist die Aussage im Text absolut richtig, die Effizienz wurde massiv gesteigert. Der Vergleich relativ zu absoluter Kennzahl ist hier halt nicht angemessen.
 
pipip schrieb:
Wieso waren die Erfolge wesentlich einfacher ? Man wusste damals auch wesentlich "weniger". Geforscht werden musste trotzdem und es gab ja immer wieder so kleinere "Krisen", bei denen man der Meinung war, man käme an die Physikalische Grenze.
Natürlich, einfacher im Sinne von "noch weit weg vom Problem etwa der Elektromigration durch viel größere Strukturbreiten", wenn man das retrospektiv betrachtet.

Natürlich musste man damals gewaltig forschen, es ist wie bei den Spielen: früher war sehr viel Grundlage, also Pionierarbeit und man über die Möglichkeit schlicht verblüfft. Mittlerweile stehen die Grundlagen recht gut und so leicht lockt man damit niemanden hervor, dh in dem Bereich muss man extrem im Detail tüfteln bevor eine neue Technik mit abermals viel Pionierarbeit (Quanten, andere Träger als Silizium,etc.) den Prozess von Neuem/anderen Standpunkt wiederholt. 😉

@Skysnake Beitrag etwas weiter oben erläutert das noch viel eloquenter.
 
  • Gefällt mir
Reaktionen: sikarr
Schade das halt die ganze Rechenpower meistens lausig und eher selten in Top Spielegrafik umgemünzt wird, statt dessen wird ganz einfach die Auflösung auf meistens unsinnige 4k oder noch mehr hochgeschraubt
 
Wie verhalten sich eigentlich "traditionelle" FLOPS (LINPACK) zu KI-FLOPS? Also ist ein ExaFLOP-System in beiden Kategorien so Leistungsfähig, oder nur für KI?
Ergänzung ()

OR4LIFE schrieb:
Gefühlt bekommt man alle zwei Generationen einfach die doppelte Leistung. Jetzt nur noch am stromhunger basteln :)
Mit doppeltem Strom kriegst du auch die doppelte Leistung - das ergibt nur für Consumer/Gaming keinen Sinn.
Ergänzung ()

ichnunwieder schrieb:
genau so "unsinnig" wie mein 4K Monitor 😊
Nö. 4K kann je nach (Arbeits)szenario sehr sinnvoll sein - auch ökologisch, wenn er zuvor vorhandene mehrere Bildschirme ersetzt. Von 4K mit HD-Texturen hingegen wird man nicht so viel haben.
 
Zurück
Oben