News AMD Instinct MI210: Halbiertes GPU-Doppel als PCIe-Karte mit 23 TFLOPS

MichaG

Redakteur
Teammitglied
Registriert
Juli 2010
Beiträge
12.922
  • Gefällt mir
Reaktionen: boxte30:Goas, aid0nex, Onkel Föhn und 10 andere
Einen schlechteren Zeitpunkt hat sich AMD aber auch nicht aussuchen können. Gerade während der GTC wird doch deutlich, dass Nvidia eben nicht nur Hardware anbietet, sondern die notwendige Software, um diese ausreizen zu können.
Und AMD bietet weiterhin keinen offiziellen Support für ROCm auf Navi oder Big Navi. :freak:
 
  • Gefällt mir
Reaktionen: aid0nex, nosound, Lahire690 und 2 andere
MountWalker schrieb:
Wie funktioniert das eigentlich, 300 W "passiv" zu kühlen?
Die sind für die Verwendung in Servern gedacht. Darin sind alle Komponenten "passiv" gekühlt.

"Passiv" insofern, dass dann vorne oder hinten (je nach Bauweise) eine Batterie an Hochleistungslüftern verbaut wird, welche genügend Luft durch die Blades bewegen, damit die Teile ausreichend gekühlt werden.
 
  • Gefällt mir
Reaktionen: erwischt, aid0nex, Onkel Föhn und 20 andere
Sorry vorab wenn das ein wenig Off-Topic sein sollte, aber das Design des Enterprise-Beschleunigers würde der nächsten Generation Radeon mit RDNA 3 und MCM auch gut stehen.

Dort dann natürlich aktiv gekühlt. Mir sagt dieses professionelle und seriöse Design einfach mehr zu als die Entwürfe für Spieler.
 
  • Gefällt mir
Reaktionen: KellyFornia, dhew, Col. Jessep und 23 andere
SV3N schrieb:
Mir sagt dieses professionelle und seriöse Design einfach mehr zu als die Entwürfe für Spieler.

Joar, schön clean. Aber wer klaut dann der Frau den Fön der ans hintere Ende gehört?
Und ist das dann noch hübsch mit dem Fön am Ende und dem ganzen Klebeband? :)

MountWalker schrieb:
Wie funktioniert das eigentlich, 300 W "passiv" zu kühlen?

Da ist nichts passiv, der aktive Teil ist nur extern.

Die Karten werden durch denselben Luftstrom gekühlt wie alles andere auch, bei dem Zug in so einem "Case" brauchst du intern einfach keine Lüfter mehr, aber außen Gehörschutz. :)

Passiv ist erstmal alles was keine aktive Komponente zur Kühlung dabei hat, also praktisch gesehen jede Karte wenn du einfach die Lüfter abbaust. Das wird ohne die entsprechende Luftzufuhr (und das so vorgesehene Finnendesign) aber logischerweise nicht lang' gut gehen, jedenfalls nicht mit normalen Taktraten.
 
  • Gefällt mir
Reaktionen: Onkel Föhn und Makso
SV3N schrieb:
Sorry vorab wenn das ein wenig Off-Topic sein sollte, aber das Design des Enterprise-Beschleunigers würde der nächsten Generation Radeon mit RDNA 3 und MCM auch gut stehen.

Dort dann natürlich aktiv gekühlt. Mir sagt dieses professionelle und seriöse Design einfach mehr zu als die Entwürfe für Spieler.
Sehe ich ganz genauso. Sehr attraktiv, dieses Design.
 
  • Gefällt mir
Reaktionen: SVΞN
UNDERESTIMATED schrieb:
Joar, schön clean. Aber wer klaut dann der Frau den Fön der ans hintere Ende gehört?
Und ist das dann noch hübsch mit dem Fön am Ende und dem ganzen Klebeband? :)
Ich hatte ja geschrieben "dort natürlich aktiv gekühlt". Denn ich glaube, dass man das Design auch hübsch und seriös mit 2 oder gar drei Lüftern umsetzen kann. Aber insbesondere bei Spielern scheinen auffälligere Designs einfach gefragter zu sein.
LuckyMagnum schrieb:
Sehe ich ganz genauso. Sehr attraktiv, dieses Design.
Vielleicht wird das nächste Referenzdesign von AMD noch etwas cleaner und sersiöser als bei der Radeon-RX-6000-Serie. Das gefiel mir auch schon ganz gut ... auch wenn ich eine 3090 TUF Gaming nutze. :D
 
  • Gefällt mir
Reaktionen: LuckyMagnum
SV3N schrieb:
Ich hatte ja geschrieben "dort natürlich aktiv gekühlt".

Wenn du da 3*100mm reinsägst ist die seriöse Optik aber auch wieder dahin, oder?
Vielleicht fehlt mir da aber auch nur die Phantasie um diese Uhrzeit. 🥱

Davon mal abgesehen: Kauft man ein Case unter denselben Aspekten (Kein RGB/Glas/Mesh) kann's dir imgrunde relativ egal sein. :cool_alt:
 
  • Gefällt mir
Reaktionen: Col. Jessep und SVΞN
UNDERESTIMATED schrieb:
Davon mal abgesehen: Kauft man ein Case unter denselben Aspekten (Kein RGB/Glas/Mesh) kann's dir imgrunde relativ egal sein. :cool_alt:
Da hast du natürlich nicht ganz unrecht, auch wenn ich mir meine Hardware und hübsche Hardware im allgemeinen schon gerne mal ansehe, auch wenn das nicht immer durch ein per RGB beleuchtetes Seitenfenster sein muss. :D

Gute Nacht mein Freund und liebe Grüße
Sven
 
  • Gefällt mir
Reaktionen: Col. Jessep und UNDERESTIMATED
tomgit schrieb:
Und AMD bietet weiterhin keinen offiziellen Support für ROCm auf Navi oder Big Navi.
-- Edit -- Etwas anpassen, man sollte nicht vor dem ersten Kaffee einen Kommentar schrieben:

Doch, für Big Navi bietet ROCm schon offiziellen Support, aber nicht für die Consumer Modelle: https://github.com/RadeonOpenCompute/ROCm#radeon-pro-v620-and-w6800-workstation-gpus

Ansonsten: Ja, es gibt keinen offiziellen Support für RDNA und für die Consumer RDNA2 Modelle, aber Consumer sind nicht unbedingt die Leute, die auch ROCm verwenden. Man kann ROCm aber nun weitgehend nutzen, es wird halt nicht offiziell Unterstützt, kann ich ein Stückweit aber auch verstehen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: ETI1120
Also mit den FP TereFlops Werten beider Hersteller komem ich nicht ganz klar.
nVidia macht FP8 4000 und FP32 noch 1000, FP64 aber nur 60?
Und wieso scheint es bei AMD anders herum zu laufen?
Also FP64 knapp 100, also viel mehr als nVidia, dafür aber dann bei FP32 nicht auch wesentlich mehr, sondern viel weniger, genau die Hälfte?
Ich schaue doch sicher falsch hin, oder?
 
  • Gefällt mir
Reaktionen: Onkel Föhn
BxBender schrieb:
nVidia macht FP8 4000 und FP32 noch 1000, FP64 aber nur 60?
Das Problem ist, dass NVIDIA in dem Fall es nicht so genau mit der Unterscheidung der einzelnen Teilbereiche nimmt.

Die Spitzenleistung von FP8, FP16 und TP32 (wichtig!) ist auf die Tensore-Kerne bezogen und die Tensore-Kerne bei NVIDIA sind immer noch Fixed-Function-Units mit einem MAD/MAC auf eine Matrix, die Tensore-Kerne können nicht mehr, das dafür sau schnell und so kommt man hier auf eben 4000, 2000 und 1000 TFLOP/s.

Die FP64-Leistung scheint NVIDIA wiederum die Vektor-Leistung anzugeben, die dann bei 60 TFLOP/s liegt, was sich durchaus auch auch so ermitteln lässt.

Hier stand Blödsinn, man sollte sich auch mal die Whitepapers ansehen, bevor man schreibt und nicht nur die News lesen. Schande übermich!

Ändert aber eigentlich nicht soviel an meiner Erklärung, weil Teile auch stimmten. Wichtig ist, die 1000 TFLOP/s erreicht Hoper nicht bei FP32 sondern bei TF32, das ist wirklich wichtig. Das ist ein 18 Bit-Format (8 bit Range (FP32) und 8 Bit Percision (FP16).

Bei FP16 sind 2000 TFLOP/s drin, bei FP8 4000 TFLOP/s und das spricht dafür, dass NVIDIA ihre Tensore-Kerne nun primär auf Parameter mit FP16 auslegt, natürlich mit der entsprechenden Anzahl an Parametern um viele der FP16-Berechnungen durch zu führen. Halbiert man auf FP8, verdoppelt man die Leistung. TF32 muss - wegen des Datenformates - vermutlich mit 2 Takten ausgeführt werden, also kommt man auf 1000 TFLOP/s. Hier ist halt gut, dass man nur 18 Bit hat, statt 32 und damit genug Kontrollbits hat um in zwei Takten zu arbeiten. FP32 dürfte bereits deutlich einbrechen bei der Leistung und bei FP64 wird einiges an Takten drauf gehen um die Ergebnisse zu validieren, weil man einiges an Überläufen und Co kompensiere muss.
BxBender schrieb:
Also FP64 knapp 100, also viel mehr als nVidia, dafür aber dann bei FP32 nicht auch wesentlich mehr, sondern viel weniger, genau die Hälfte?
In dem Fall auch nicht ganz richtig, da NVIDIA bei den 1000 TFLOP/s ja eigentlich nicht von FP32, sondern von TF32 spricht, also ihrem Tensor-Format.

Hier könnte die Krux noch in den Matrix-Cores liegen bei AMD. Im Idealfall müsste sich bei einem Matrix-Core die Rechenleistung bei kleineren Datenformate verdoppelt. Die Frage ist, wie AMD ihre Matrix-Cores aufbaut und aktuell spricht vieles dafür, dass AMD die einzelnen Werte der Matrix auf FP64 auslegt, damit verdoppelt sich pro Schritt nach unten in den Dateiformaten die Leistung, gleichzeitig ist man aber limitiert, was die Anzahl der Parameter angeht.

AMD wählt vermutlich n*n mit der Grundlage FP64, NVIDIA wird ein n*n mit Grundlage FP16 wählen. n*n ist bei AMD dann deutlich kleiner gewählt als bei NVIDIA, daher auch diese Unterschiede.

AMD gibt relativ gut an - was ich löblich finde - wo welche Rechenleistung erzielt wird, womit man auch einen guten Vergleich ziehen kann. Matrix (erst mal mit den Tensore gleichzusetzen, ggf. sind die Matrix-Kerne von AMD aber mächtiger, müsste mal das Whitepaper mir ansehen) leistet 90 TFLOP/s in FP32 und FP64 - also wirklich FP32, nicht TF32! Vektor sind es 48 TFLOP/s, was sehr gut ist.

Die Vektor-ALUs sind in der Regel deutlich flexibler Einzusetzen als die Tensore/Matrix-Cores.

BxBender schrieb:
Ich schaue doch sicher falsch hin, oder?
Nein, du schaust nicht falsch. Das klassische Marketing-Geblubber von Firmen schlägt hier nur wieder voll durch und wenn man nicht genau aufpasst, lässt man sich etwas blenden.
Nein, du schaust nicht falsch. Die Frage ist immer: Welche Dimension und welche Breite haben die einzelnen Werte der Matrix-Kerne.

Die Breite der Werte liegt bei NVIDIA vermutlich bei FP16, dafür aber große Dimensionen, bei AMD aktuell wohl bei FP64, dafür deutlich kleinere Dimension.

Man wird abwarten müssen, wie breit NVIDIA die Tensore-Kerne auslegt, wenn man das weiß, kann man alles weitere relativ logisch erklären.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Onkel Föhn und NMA
@DevPandi
https://www.computerbase.de/2021-11...r-details-zum-compute-monster-instinct-mi200/
wenn man die Rechenleistung einer einzigen Matrix-Einheit mit der eines Tensor-Cores über verschiedene Generationen vergleicht. So waren AMDs Matrix-Einheiten der ersten Generation zwar bereits deutlich schneller und von der Funktionalität breiter aufgestellt als Nvidias erste Generation der Tensor-Cores im Volta-Beschleuniger V100. Gegenüber den Tensor-Cores der dritten Generation in Ampere-GPUs sind aber auch AMDs verbesserte Matrix-Cores noch deutlich schwächer.
 
  • Gefällt mir
Reaktionen: Colindo, NMA und DevPandi
UNDERESTIMATED schrieb:
Da ist nichts passiv, der aktive Teil ist nur extern.
Naja passiv ist bei der Beschreibung der Hardware schon richtig da die Hardware nun Mal ohne aktive Komponenten kommt.
Das gesamt Kühlkonzept ist aber in der Tat am Ende alles andere als passiv.
 
  • Gefällt mir
Reaktionen: Onkel Föhn
DevPandi schrieb:
Das Problem ist, dass NVIDIA in dem Fall es nicht so genau mit der Unterscheidung der einzelnen Teilbereiche nimmt.
Das ist nicht richtig. Nvidia gibt genau an was Vector und was Tensor Core ist.
Und die 60 TFLOP sind Tensor. Vector nur 30.

IMG_20220323_145420.jpg
 
  • Gefällt mir
Reaktionen: NMA und DevPandi
DevPandi schrieb:
-- Edit -- Etwas anpassen, man sollte nicht vor dem ersten Kaffee einen Kommentar schrieben:

Doch, für Big Navi bietet ROCm schon offiziellen Support, aber nicht für die Consumer Modelle: https://github.com/RadeonOpenCompute/ROCm#radeon-pro-v620-and-w6800-workstation-gpus
Ich versuche mal vorsichtig darauf ohne Kaffee intus zu antworten. Also Vorsicht :D

Großartig, könnte AMD vielleicht auch auf der eigenen Seite dann das Support-Document anpassen? https://community.amd.com/t5/knowle...are-and-software-support-document/ta-p/489937 :freak:
DevPandi schrieb:
Ansonsten: Ja, es gibt keinen offiziellen Support für RDNA und für die Consumer RDNA2 Modelle, aber Consumer sind nicht unbedingt die Leute, die auch ROCm verwenden.
Nicht unbedingt, aber das sind die Karten, welche Einsteiger eher kaufen als die Pro-Karten. Nvidia hat den Vorteil, dass CUDA ein elementarer Bestandteil der Architektur ist und somit sämtliche CUDA-unterstützte Frameworks automatisch ebenfalls auf sämtlichen Consumer-Karten laufen - mal besser, mal schlechter.
Für Data Centers ist es klar egal, aber wenn diese Hürde nicht wegfällt, werden Prototypen auch zukünftig fast ausschließlich auf Nvidia-Karten erstellt, wenn die Technologien dahinter nicht von stärkerer OpenCL-Performance profitieren.
 
tomgit schrieb:
Großartig, könnte AMD vielleicht auch auf der eigenen Seite dann das Support-Document anpassen?
Na, sollten Sie mal machen, aber lassen wir denen mal etwas Zeit. ;)
tomgit schrieb:
Nicht unbedingt, aber das sind die Karten, welche Einsteiger eher kaufen als die Pro-Karten.
Na ja, ROCm ist ja in weiten Teilen dafür gedacht, dass man Modelle, die man auf "NVIDIA" entwirft, auch auf AMD-Karten laufen lassen kann. Für AMD ist es jetzt nicht mehr so wichtig, wo die Modelle entstehen, sondern dass die Modelle ausgeführt werden können.

Und sein wir mal ehrlich: Die meisten Entwickler in dem Bereich, die ohnehin auf Linux arbeiten, scheren sich nicht so sehr um den offiziellen Support während der Entwicklung auf ihren eigenen Rechnern und Co, sondern für die ist dann wichtig, dass dann auf den Systemen, wenn der Code ausgeführt wird, alles passt mit dem Support.

Ich verstehe dein Argument und stimme dir da auch in weiten Teilen zu, aber ich sehe da auch aktuell die Realität und muss sagen, dass es viele eben nicht stört.
tomgit schrieb:
Nvidia hat den Vorteil, dass CUDA ein elementarer Bestandteil der Architektur ist und somit sämtliche CUDA-unterstützte Frameworks automatisch ebenfalls auf sämtlichen Consumer-Karten laufen - mal besser, mal schlechter.
Nun ja, OpenCL ist auch ein offiziellere Bestandteil der RDNA und RDNA2-Architektur und in Linux wird sogar für RDNA und RDNA2 seit einiger Zeit der ROCm-OpenCL-Part genutzt.

CUDA ist als API in dem Bereich aber aktuell so führend, dass AMD ja mit ROCm ihren CUDA nach AMD-Übersetzer geschaffen hat um den Code auszuführen. OpenCL ist ja - auch wenn das manche nicht hören wollen - tot.

Intel versucht aktuell mit ihrer OneAPI die CUDA-Dominanz zu brechen - was Intel auch dazu bewegt für AMD GPUs zu optimieren, was irgendwie zeigt, wie Dominant NVIDIA wirklich ist.
tomgit schrieb:
Für Data Centers ist es klar egal, aber wenn diese Hürde nicht wegfällt, werden Prototypen auch zukünftig fast ausschließlich auf Nvidia-Karten erstellt, wenn die Technologien dahinter nicht von stärkerer OpenCL-Performance profitieren.
Ich wiederhole kurz: OpenCL ist tot. Die Hoffnungen liegen nun ein Stückweit in der OneAPI von Intel und Vulkan Compute und wie diese beiden Schnittstellen denn längerfristig angenommen werden.

AMD geht mit ROCm einen Weg, den man in einer idealen Welt hätte nicht gehen müssen, weil die Entwickler CUDA den Finger gezeigt hätten und stattdessen OpenCL nutzen, aber so muss AMD die bittere Pille schlucken und muss CUDA weitgehend auf Radeons zum laufen bringen und das ist keine wirklich leichte Aufgabe.
Ergänzung ()

bensen schrieb:
Das ist nicht richtig.
Mein Fehler, bin das alles jetzt nur in der News über flogen.

Man sollte sich halt doch die Mühe machen richtig zu suchen.

Danke!
 
Zuletzt bearbeitet:
BxBender schrieb:
Und wieso scheint es bei AMD anders herum zu laufen?
Das Design von nVidia ist stark auf AI-Anwendungen optimiert, die sehr hohen Durchsatz bei niedriger Präzision brauchen. AMD hat eher für den HPC-Markt optimiert, der mehr Wert auf hohe Präzision legt. Deshalb hat AMD ja auch die Aufträge für Supercomputer wie Frontier bekommen und nicht nVidia.

Die beiden gehen sich in dem Bereich also ein bisschen aus dem Weg.
 
Zurück
Oben