News AMD CDNA 2 Whitepaper: Mehr Details zum Compute-Monster Instinct MI200

Colindo · 19. November 2021

AMDs HPC-Grafikkarten-Serie Instinct MI200 macht mit brachialer Rechenleistung auf sich aufmerksam. Dafür verantwortlich ist auch, aber nicht nur, der Multi-Chip-Ansatz, der zwei GPU-Dies in einer GPU vereint. Das offizielle Whitepaper (PDF) verrät inzwischen weitere Details. Ein Überblick.

Zur News: AMD CDNA 2 Whitepaper: Mehr Details zum Compute-Monster Instinct MI200

konkretor · 19. November 2021

Das schmeckt!

Brachiale, leider sieht das OS die zwei Chips nicht als einzelne GPU sondern wirklich noch als 2 GPU´s.

Kann man hier noch von einer GPU sprechen oder Beschleuniger Xy?

Volvo480 · 19. November 2021

Kleine Korrektur: "...arbeitete die verhältnismäßig aufgebohrte Consumer-GPU Radeon VII doch mit 1:8 ..."

Die AMD Radeon VII war bei 1:4 und schaffte ca. 3,5 TFLOPS in FP64.

https://www.computerbase.de/2019-02/amd-radeon-vii-test/
https://www.anandtech.com/show/13923/the-amd-radeon-vii-review/3

SVΞN · 19. November 2021

Tolle Arbeit @Colindo und alles sehr gut verständlich. Nice Job. 👍🏻

Nitschi66 · 19. November 2021

@Colindo
Dafür verantwortlich ist auch, aber nicht nur der Multi-Chip-Ansatz, der zwei GPU-Dies in einer GPU vereint.

Zwischen nur und der muss noch ein Komma hin :-)

Colindo · 19. November 2021

Volvo480 schrieb:
Kleine Korrektur: "...arbeitete die verhältnismäßig aufgebohrte Consumer-GPU Radeon VII doch mit 1:8 ..."

Die AMD Radeon VII war bei 1:4 und schaffte ca. 3,5 TFLOPS in FP64.

https://www.computerbase.de/2019-02/amd-radeon-vii-test/
https://www.anandtech.com/show/13923/the-amd-radeon-vii-review/3

Oops, falsch in der Erinnerung gehabt.

@Nitschi66 Danke

|Moppel| · 19. November 2021

Ist nicht mein Gebiet, verstehe auch wenig davon, aber die Zahlen lesen sich mal richtig gut.

Wo steckt man dieses Würfelformat (OAM) drauf?

Locuza · 19. November 2021

Mir sind zwei Artikelfehler aufgefallen:

	AMD CDNA1	AMD CDNA2	~~Nvidia Turing~~	Nvidia Ampere
Datenformat	1. Gen Matrix Core	2. Gen Matrix Core	1. Gen Tensor Core	3. Gen Tensor Core
Matrix FP64 (FLOPS)	N/A	64	N/A	N/A
Matrix FP32 (FLOPS)	64	64	N/A	256
Matrix TF32 (FLOPS)	N/A	N/A	N/A	256
Matrix FP16 (FLOPS)	256	256	128	512
Matrix BF16 (FLOPS)	128	256	N/A	512
Matrix INT8 (OPS)	~~~~128~~~~	256	N/A	1024

Der INT8-Durchsatz ist bei CDNA2 nicht schneller geworden, bei CDNA1 lag dieser ebenso bei 256 ops pro Matrix-Core bzw. 1024 ops pro Compute Unit mit vier Matrix Cores.
Bei CDNA1 war nur BF16 half-rate im Vergleich zum FP16-Durchsatz.
Bezüglich Nvidia spricht der Text richtigerweise V100 an (Volta), in der Tabelle wurde aber Turing/Ampere niedergeschrieben.

In den Bezug auf den Durchsatz hat die Tabelle davor die richtigen Zahlen verwendet:

Datenformat	MI100	MI250X*	A100
Standard-ALUs
Vector FP64 (TFLOPS)	11,5	47,9	9,7
Vector FP32 (TFLOPS)	23,1	47,9	19,5
Vector FP32 RPM (TFLOPS)	N/A	95,7	N/A
Matrix-Einheiten
Matrix FP64 (TFLOPS)	N/A	95,7	N/A
Matrix FP32 (TFLOPS)	46,1	95,7	156
Matrix FP16 (TFLOPS)	184,6	383	312
Matrix BF16 (TFLOPS)	92,3	383	312
Matrix INT8 (TOPS)	184,6	383	624

stefan92x · 19. November 2021

|Moppel| schrieb:
Wo steckt man dieses Würfelformat (OAM) drauf?

Gibt entsprechend dafür angepasste Plattformen. Das Stichwort hier ist OCP (Open Compute Project), die diesen Formfaktor standardisiert haben.

Colindo · 19. November 2021

@Locuza Danke, da hatte ich wohl einen Tippfehler drin.

S.Kara · 19. November 2021

In einigen Bereichen geht es derzeit gut ab muss man sagen. Die Zahlen lesen sich ganz nett.

Wo es bei mir aber gerade hängt: Eine FP64 Einheit kann doch gleichzeitig zwei Operationen mit FP32 ausführen. Ist es hier nicht irgendwie verschenkte Leistung nicht auf 2:1 zu gehen?

Gerade wenn AMD mehr in Richtung KI vorstoßen möchte sind FP16 bis INT8 alles andere als unwichtig.

Novasun · 19. November 2021

Das schmeckt!

konkretor schrieb:
Brachiale, leider sieht das OS die zwei Chips nicht als einzelne GPU sondern wirklich noch als 2 GPU´s.

Kann man hier noch von einer GPU sprechen oder Beschleuniger Xy?

Wie kommst du darauf? Mal davon ab das das keine GPU mehr im eigentlichen Sinne ist - weil ein Bild rendern ist hier nicht mehr...

Chesterfield · 19. November 2021

Das lässt die miner Herzen höher schlage. Wen. Sie es sich leisten können 😜.

Rage · 19. November 2021

@Colindo Weißt Du, was die Matrix cores bei AMD genau beschleunigen? Nvidias Tensor cores beschleunigen ja AxB+C für drei 4x4 Matrizen A,B,C mit Einträgen in unterschiedlichen Datentypen.

Nebenbei: Weißt Du vielleicht, woher das "4x4" kommt? Hat das was mit der weiten Verbreitung von SSE zu tun oder sowas?

Und noch eine Frage zum Artikel: Atomare Operationen für FP64? Dachte, sowas gibt es nur für Integer-Datentypen?

Colindo · 19. November 2021

Rage schrieb:
@Colindo Weißt Du, was die Matrix cores bei AMD genau beschleunigen? Nvidias Tensor cores beschleunigen ja AxB+C für drei 4x4 Matrizen A,B,C mit Einträgen in unterschiedlichen Datentypen.

Und noch eine Frage zum Artikel: Atomare Operationen für FP64? Dachte, sowas gibt es nur für Integer-Datentypen?

Ich kann aus dem verlinkten Whitepaper zitieren:

AMD CNDA 2 introduces a set of matrix multiplication instructions specifically for FP64 precision with a simplified microarchitecture. New instructions realize block-based matrix multiplication for the fixed matrix blocks sizes of 16x16x4 and 4x4x4 (MxNxK) and are wave-wide operations where input and output matrix block data are distributed over a wavefront’s lanes.

Was atomare Operationen angeht: Auf einer CPU wären die sicher als INT ausgeführt, aber eine Grafikkarte hat ja FP als nativen Datentyp. Theoretisch sollte es solche Operationen sowieso für alle Datentypen geben.

PS828 · 19. November 2021

So. Jetzt 2 64 Kerner und 8 MI250X in ein System packen und mit 8TB RAM und 1TB VRAM loslegen

Sehr cooler Einblick in die Technik wie üblich. Top Artikel! FP64/32 mit 1:1 ist natürlich unangefochten in der Technik aktuell. Wer Davon profitiert kann hier richtig nach vorne gehen.

Zum Vergleich
Meine kleine pro GPU hat den 1:2 Teiler bei dieser Angelegenheit was sie bei FP64 bei 35W auf immerhin 675 GFLOPs beschleunigt. Dürfte immernoch mehr sein als so manche signifikant stärkere gaming GPU.

FP64 wird halt an anderer Stelle benötigt. In der naturwissenschaft sind 32 Bit für eine gleitkommazahl sehr wenig um sie ausreichend genau darzustellen, da es zum Beispiel zu steifen Differentialgleichungen kommen kann welche bei einer Abweichung von einem Parameter um auch nur den geringsten Betrag ihr Endergebnis komplett anders Erscheinen lässt. Da kann man es sich nicht erlauben die Werte numerisch zu Runden, auch nicht auf 25 Stellen genau oder mehr. Die Zahl muss 100% exakt sein. Daher FP64 Oder gar virtuelles FP128, hier weiß ich aber nicht ob die FP units das auch können mit entsprechendem code für jeweils zwei Register. @Colindo vielleicht weißt du hier mehr^^

ähnlich auch bei Komplexen zahlen, Strahlungsmodellen, Netzwerkanalyse usw. Alles hoch komplexe zahlen der form Z=re^iPHI = r(COS(PHI)+i sin(PHI)) die man übrigens auch in der Wellengleichung wiederfindet.

Ergänzung (19. November 2021)

Rodelina schrieb:
Irgendwelche industriellen oder wissenschaftlichen Anwendungen interessieren mich hier nicht.

Da bist du hier leider falsch. Und was für den Hausgebrauch reichen soll darf jeder selbst entscheiden

Colindo · 19. November 2021

@Locuza Irgendwo bei INT8 habe ich noch einen Rechenfehler. Wenn die Leistung pro Matrix-Core gleich ist, aber es doppelt so viele Cores gibt, warum ist die Rechenleistung jetzt viermal so groß? Irgendwie passt das nicht zusammen.

Ergänzung (19. November 2021)

@PS828 FP128 wird im Whitepaper nirgendwo erwähnt.

Locuza · 19. November 2021

Colindo schrieb:
@Locuza Irgendwo bei INT8 habe ich noch einen Rechenfehler. Wenn die Leistung pro Matrix-Core gleich ist, aber es doppelt so viele Cores gibt, warum ist die Rechenleistung jetzt viermal so groß? Irgendwie passt das nicht zusammen.

?
Ist sie ja nicht, AMD gibt 2.1x im Whitepaper an, Seite 10.
https://www.amd.com/system/files/documents/amd-cdna2-white-paper.pdf

Nur bei BF16 fällt sie um 4.2x besser aus.

PS828 · 19. November 2021

@Colindo sowas ist bisher auch einfach CPU Gebiet und wird für sehr große zahlen benutzt die anders nicht in einer sinnvollen Numerik berechnet werden können. Mal sehen ob man in dem Zusammenhang hier noch was mitbekommt davon. Dieses FP64 Register bietet sich ja schon dafür an das Problem zu Teilen bzw die Zahl auf zwei Register aufzuteilen

Piak · 19. November 2021

Und die Aktie steigt und steigt und steigt. Tolle News.

News AMD CDNA 2 Whitepaper: Mehr Details zum Compute-Monster Instinct MI200

Redakteur

Vice Admiral

Lt. Junior Grade

Redakteur a.D.

Kreisklassenmeister

Redakteur

Captain

Lieutenant

Lieutenant

Redakteur

Captain

Commander

Fleet Admiral

Captain

Redakteur

Der Flieseninspektor

Redakteur

Lieutenant

Der Flieseninspektor

Commander

Ähnliche Themen