News AMD Radeon RX 6000: Navi 21 XT erhält große Vorschusslorbeeren

Cru_N_cher · 11. November 2020

Kann nicht warten ein paar Vulkan SPIRV tests zu machen

Allerdings die 12 weniger RA Cores ich bin mir nicht sicher ob Reflections + Shadows da noch bei 33 ms UHD machbar sind.
Da die meisten scheinbar schon jetzt Shadows ausschliesen werden die 60 RAs wohl schon zu schwach sein.
Die 72 werden es vielleicht besser meistern.
An flächendeckend GI davon fangen wir lieber erstmal an mit der nächsten Generation zu träumen

die 6900 und 3090 user stehen da besser da, aber die Frage wer optimiert das an dieser grenze als machbarkeitstudie und inverstiert die Zeit wenn er nur sehr wenige damit erreicht

Anfangen müssen wir aber jetzt schon egal wie grottig es läuft und auf die weitere Skalierungssteigerung hoffen.

Allerdings Shadows + Reflections flächendeckend angehen ist sehr sinvoll um endlich all die Probleme los zu werden.

Iscaran · 11. November 2020

Videocardz hat keine Ahnung auf WELCHE der RDNA2 GPUs sich die 471 FPS beziehen.
Sie spekulieren, dass es die 72 CU variante ist, weil es dazu von ANDEREN Seiten schon früher Leaks gab.
Die 471 FPS sind aber DIREKT von AMD aus der Präsentation. Jedoch ohne Angabe auf welche Karte sie sich beziehen.

Nur der Scale-Faktor von 13.8 pro RA (vs CU in Software-Emulation ist konkret.

Demnach KÖNNEN die 471 FPS auch von der 60 CU Variante stammen. Umgerechnet auf die 80 CUs von NAvi 6900 XT wäre die RT-Leistung also auf nVidia Niveau.

EINE RTX 3070 mit nur 184 Tensor Cores wäre in dem Benchmark etwa bei 420 FPS btw. (184/272*630FPS) +- Taktunterschiede (Die RTX 3080/3090 Takten ja beide etwa gleich mit 1.7GHz) sollte die 3070 hier höher takten ist die Differenz geringer.

6900 XT ~ RTX 3080
6800 ~ RTX 3070
6800 XT zwischen RTX 3070 und 3080

pitu · 11. November 2020

Die Gerüchteküche brodelt wieder unaufhörlich.

https://www.reddit.com/r/Amd/comments/jrqzuy/rx_6800_first_indication_of_volumes/

Hey all

One of the employees at Proshop have some early information about the volume. Danish company:

" You are absolutely right there will be very, very few cards available. As it looks now, we get together for launch:

200 x RX 6800 AMD reference boards
90 x RX 6800 XT AMD reference boards

- When the AIB cards come from ASUS, Gigabyte, MSI, Powercolor etc, I fear we see very, very few cards and the whole delivery situation will not look good there either .... "

Doesn't sound like it will be any better than the NVIDIA launch, sadly

The same shop had 64(89 Friday afternoon ) 3080 at launch, so much better

BlackRain85 · 11. November 2020

Iscaran schrieb:
Videocardz hat keine Ahnung auf WELCHE der RDNA2 GPUs sich die 471 FPS beziehen.
Sie spekulieren, dass es die 72 CU variante ist, weil es dazu von ANDEREN Seiten schon früher Leaks gab.
Die 471 FPS sind aber DIREKT von AMD aus der Präsentation. Jedoch ohne Angabe auf welche Karte sie sich beziehen.

Nur der Scale-Faktor von 13.8 pro RA (vs CU in Software-Emulation ist konkret.

Demnach KÖNNEN die 471 FPS auch von der 60 CU Variante stammen. Umgerechnet auf die 80 CUs von NAvi 6900 XT wäre die RT-Leistung also auf nVidia Niveau.

EINE RTX 3070 mit nur 184 Tensor Cores wäre in dem Benchmark etwa bei 420 FPS btw. (184/272*630FPS) +- Taktunterschiede (Die RTX 3080/3090 Takten ja beide etwa gleich mit 1.7GHz) sollte die 3070 hier höher takten ist die Differenz geringer.

6900 XT ~ RTX 3080
6800 ~ RTX 3070
6800 XT zwischen RTX 3070 und 3080

Ich könnte mir vorstellen, dass die 471 fps auch auf einer Xbox SX erreicht wurde mit Ihren 56 CU's. Der Test lief mitte August...

Wie Skaliert RT eigentlich mit der Speicherbandbreite ?

https://www.eurogamer.de/articles/2...racing-unterschied-und-ein-effizientes-design

Colindo · 11. November 2020

Raytracing braucht viel Speicherbandbreite und niedrige Speicherlatenzen.

BlackRain85 · 11. November 2020

Dann ist das SpeicherInterface inkl. dem Infinity Cache vom RDNA2 wohl besser als wenn es auf dem Klassischen weg laufen würde ? gg

Colindo · 11. November 2020

Die Verwendung der TMUs für den Strahlenflug ist auch optimal, da die bereits die beste Anbindung an den RAM haben.

Iscaran · 11. November 2020

BlackRain85 schrieb:
Dann ist das SpeicherInterface inkl. dem Infinity Cache vom RDNA2 wohl besser als wenn es auf dem Klassischen weg laufen würde ? gg

Das kommt darauf an ob man nun mit dem IC tatsächlich auch bei RT die Daten "lokal" vorhalten kann ODER ob dennoch immer neue Daten und das Mehrfach über das Speicherinterface reingeholt werden müssen.

FALLS der IC tatsächlich schafft die Datenlokalität auch bei RT drastisch zu steigern, dann kann man wohl die "effektive" Bandbreite von RDNA2 als Basis nehmen. Falls dies nicht der Fall ist liegt die RT-Leistung, sofern diese an der Bandbreite hängt irgendwo zwischen dem Basiswert und der "effektiven" Bandbreite mit IC.

BlackRain85 · 12. November 2020

Ich frage mich, warum der IC das nicht schaffen sollte?
AMD teilte ja schon beim RDNA 1 Release mit, dass RDNA 2 RT können wird. Da würde ich vorraussetzten, dass der IC einen Massiven beitrag dazu leistet.

Und um kosten zu Sparen und so ziemlich alles zu beschleunigen, ist der IC im Grunde eine verdammt gute Lösung mit "wenig" viel zu erreichen. Wie viel Verbraucht den an Chipfläche der RT bereich bei NV ? Werden die Kerne auch genutzt, wenn RT aus ist?

Ich bin mir jetzt nicht sicher, aber vom Gefühl her würde ich sagen, dass der Weg wie NV ihn beschreitet der teurere ist.

Ich kann mir einfach nicht vorstellen, dass RT so langsam beim RDNA 2 sein soll, wie hier viele das Suggerieren.

Hat die XBOX SX überhaupt nen IC ?

Cru_N_cher · 12. November 2020

Iscaran schrieb:
EINE RTX 3070 mit nur 184 Tensor Cores wäre in dem Benchmark etwa bei 420 FPS btw. (184/272*630FPS) +- Taktunterschiede (Die RTX 3080/3090 Takten ja beide etwa gleich mit 1.7GHz) sollte die 3070 hier höher takten ist die Differenz geringer.

6900 XT ~ RTX 3080
6800 ~ RTX 3070
6800 XT zwischen RTX 3070 und 3080

Das die 3070 nicht schneller ist bei RT als wie die 2080 TI liegt ganz einfach daran das beide zu wenig Saft bekommen für Hybrid usecases, sobald nur die RT cores werkeln sieht man die unterschiede deutlich sprich offline renderer oder realtime path tracer.
Sobald DLSS ins Spiel kommt werden plötzlich bis zu ~70W auf einen schlag frei für die RT cores.

Die 3080 hatt eine doppelte Versorgunsgleitung das die RT und Tensor cores unabhängig den Strom bekommen den sie auch benötigen ohne sich mit den den Shadern in dem moment um die resourcen zu prügeln.

Ja ich tendiere auch zu dem Verhältnis vor allem auf Intel System.
Allerdings in Raster only glaube ich AMD schon das sie meistens am Limit Nvidia diesmal brechen.

Und die Sache mit den Produktionsresourcen bei TSMC die Story kaufe ich nicht sie haben den HPC part dort fertigen lassen sie hätten auch den "GAMER" Ampere dort fertigen können taten sie nicht weil sie sich sicher waren wir schaffen das auch ohne besseren Node gegen dieses RDNA 1 Update und teils ist das ja auch noch der Fall und mit DLSS sah man die Chance eben massig zu sparen bei den Waffer kosten.
Und DLSS schlägt viele Fligen auf einmal immerhin wird man es nich nur für Games nutzen sondern durch den ganzen stack durch die R&D investition und das Training hat sich somit extreme gelohnt und war extreme wichtig für das Design der Gamer version selbst.

Glaube nicht das sie das selbe so tight und auf kante nochmal durchziehen werden mit Hopper da sie jetzt wissen schlaffen tut AMD definitiv nicht mehr.
Bis es soweit ist werden wir sehen wie sich Ampere nun schlägt, wie gesagt die 3070 Super wird definitv die bessere Balance.

die jetzigen 220W GA104 vs 250W Navi 21 XL sind schon ein kleiner erster Erfolg bei der leicht höheren Raster Leistung aber für Nvidia user ist die kombi von DLSS 2.0 + Hybrid Rendering noch nicht schlagbar für den kleinen Big Navi und das Textur Bottleneck Problem kann man effizienter lösen und so extreme wird dieses problem einfach nicht werden der Perceptual unterschied zwischen High und Ultra textures den sehen wohl die wenigsten.
Bis Hopper und 1 Generation weiter wird man an Kante durchhalten

Eine sehr gut optimierte Streaming Engine sollte mit der 3070 und 8GB so gut wie keine Probleme haben.

Iscaran · 12. November 2020

@Cru_N_cher : Hör doch mal bitte auf mit deinen ständigen Wattzahlen hier zu derailen oder glaubst du dass GPUs Watt in Flops umwandeln ?

Die Output Rechenleistung erzeugt zwar eine gewisse Abwärme in Watt, es ist aber hahnebüchen zu denken man kann DLSS in "Watt" ausdrücken.

Über die RT-Leistung der 2080Ti hab ich kein Wort verloren - aber basierend auf der Zahl ihrer Tensor Cores und ihrem Takt kann man schätzen dass eine 3070 mit 184 TCs eine 2080 Ti mit 68 TC wohl irgendwie hinter sich lassen wird.
EDIT: Ah falsch nachgesehen die 2080 Ti hat 544 TCs und 68 SM/RT Cores das heisst die relevante Größe hier sind nicht die TCs sondern die Zahl der SMs/RTCs.
RTX-Ampere hat 4TC pro SM
RTX-Turing hat 8TX pro SM

RTX 3090 82 SM/328TC = 749 FPS ( im DXR Procedural Geometry Test)
RTX 3080 68 SM/272TC = 630 FPS
2080 Ti 68 SM/544 TC = ??? FPS
RTX 3070 46 SM/184 TC = ??? FPS

Basierend auf dem Scaling von Ampere kann man die 3070 dann also bei grob bei 426 FPS verorten. (Sofern der Takt gleich ist wie RTX 3080 mit ca 1.7 GHz)...hat die 3070 10% mehr Takt dürften die FPS auch ca 10% hochgehen in dem Test).

Die 2080 Ti dürfte eigentlich in etwa 0.9x die RTX 3080 RT Performance haben, da sie ca 10% langsamer taktet (1.545 Boost vs 1.710 Boost gemäß Specs). Ich würde also die 2080 Ti mal grob bei ca 570 FPS einordnen.

Vermutlich ist 8 TC/SM eh zu viel für sinnvolle Auslastung bei RT. Daher hat nVidia das wohl zurückgefahren auf 4TC/SMs.

Colindo · 12. November 2020

BlackRain85 schrieb:
Wie viel Verbraucht den an Chipfläche der RT bereich bei NV ? Werden die Kerne auch genutzt, wenn RT aus ist?

RT-Cores und Tensor-Cores zusammen verbrauchen 10% der Chipfläche, zumindest war es bei Turing so. Wenn diese Cores nicht beschäftigt werden, liegt die Fläche brach.
AMDs Ray-Accelerators sollten etwas kleiner sein als Nvidias RT-Cores, da sie anders aufgebaut sind. Tensor-Cores hat AMD nicht.

Ergänzung (12. November 2020)

Cru_N_cher schrieb:
Die 3080 hatt eine doppelte Versorgunsgleitung das die RT und Tensor cores unabhängig den Strom bekommen den sie auch benötigen ohne sich mit den den Shadern in dem moment um die resourcen zu prügeln.

Hast du dafür eine Quelle? Klingt praktisch unmöglich, dass die TDP der GPU aufgeteilt wird.

Iscaran · 12. November 2020

BlackRain85 schrieb:
Ich frage mich, warum der IC das nicht schaffen sollte?
AMD teilte ja schon beim RDNA 1 Release mit, dass RDNA 2 RT können wird. Da würde ich vorraussetzten, dass der IC einen Massiven beitrag dazu leistet.

Ja das KANN so sein.

Hat die XBOX SX überhaupt nen IC ?

Das ist noch nicht gesichert. Ich würde es annehmen, da es sich um ein RDNA2 Chip handelt - aber bislang war die Nennung von IC nur PC-Desktop spezifisch.

Ergänzung (12. November 2020)

Colindo schrieb:
RT-Cores und Tensor-Cores zusammen verbrauchen 10% der Chipfläche, zumindest war es bei Turing so. Wenn diese Cores nicht beschäftigt werden, liegt die Fläche brach.
AMDs Ray-Accelerators sollten etwas kleiner sein als Nvidias RT-Cores, da sie anders aufgebaut sind. Tensor-Cores hat AMD nicht.

Die RAs sind TEIL der bisherigen CUs. Die einzelnen CUs sind nun minimal größer.
Der IC belegt ca 88mm^2 für 128 MB. Das sind also ca 0.6875 mm^2/MB Cache.

Bezogen auf den ganzen RDNA Chip (~536 mm^2 AFAIK sind es also ca 16% der Gesamtgrösse.

Colindo · 12. November 2020

Ja, das ist richtig, die Integration bei AMD ist anders als bei Nvidia.
Was den IC angeht, würde ich schätzen, dass AMD etwas mehr Chipfläche verbraucht haben, als sie es durch ein 512bit-Interface hätten. Allerdings ist die jetzige Lösung deutlich stromsparender.

Iscaran · 12. November 2020

Das war vermutlich die Hauptintention

Colindo schrieb:
Was den IC angeht, würde ich schätzen, dass AMD etwas mehr Chipfläche verbraucht haben, als sie es durch ein 512bit-Interface hätten. Allerdings ist die jetzige Lösung deutlich stromsparender.

Das war vermutlich die Hauptintention des ganzen ICs :-)

Benni82 · 12. November 2020

Sagt mal,kann ein Ryzen 7 3700X eine 6800XT überhaupt auslasten ?

BlackRain85 · 12. November 2020

Colindo schrieb:
Ja, das ist richtig, die Integration bei AMD ist anders als bei Nvidia.
Was den IC angeht, würde ich schätzen, dass AMD etwas mehr Chipfläche verbraucht haben, als sie es durch ein 512bit-Interface hätten. Allerdings ist die jetzige Lösung deutlich stromsparender.

Nun, dann liegen die großen Vorteile sicherlich beim PCB Design / Komplexität, Energieverbrauch und die Tatsache, dass man kein HBM bzw. GDDR6X benötigt. Möglicherweise ist die Kosteneinsparung in all den Bereichen höher als die verbrauchte Chipfläche für den IC. Ich könnte mir auch vorstellen, dass die 7nm bei TSMC so gut laufen und der Ausschuss so gering ist, dass die Entscheidung leicht viel.

Zu guter letzt, wenn auch nicht soooo relevant, sind größere Chips besser zu Kühlen.

Also, ersetzt der IC den L3 Cache ? Oder kommt er On top ?
448 GB/s leistet die RX5700XT mit 14Gbps Chips. Und wenn ich das richtig Verstehe, leistet der IC die 2,13x Performance eines 384 Bit Interfaces (angenommen 16Gbps). Was wiederum ca. 768GB bedeuten würden

768 GB x 2,17 = 1666 GB
1666 GB - 512 GB ( RDNA2 mit 16Gbps Chips ) = 1154 GB
Bei 14Gbps Chips sinkt das ganze um 200GB.
( nur der IC ??? ) So zumindest Lese ich das aus dieser Folie (Anhang) hier raus.... kann man daraus nicht ableiten, wie der IC getaktet ist ? Volle GPU Geschwindigkeit? Starr ? Dynamisch ?

Iscaran · 12. November 2020

BlackRain85 schrieb:
Also, ersetzt der IC den L3 Cache ? Oder kommt er On top ?

https://www.amd.com/system/files/documents/rdna-whitepaper.pdf
Bei RDNA1 gibt es einen LDS (local data share) pro WGP = 2 CUs.
Zusätzlich dazu hat jedes CU noch einen L0 vector Cache (und noch einen Instruction cache und K cache etc).
Die sind aber alle winzig und sehr speziell
Der LDS war bei RDNA1 war dieser 2x64 kByte groß.
Dazu gibt es den L1 Cache pro Shader Array !
Und on top dazu einen L2 Cache für den ganzen Chip.

So wie ich bislang den Aufbau von RDNA2 verstehe ist der IC ein stark vergrößerter UND umstrukturierter (insbesondere was Zugriffsorganisation etc betrifft) L2 cache, kein zusätzlicher L3 Cache.

Eigentlich denke ich bezeichnet IC die gesamte "Cache Struktur" die eben von GCN5 zu RDNA massiv verändert wurde und mit RDNA2 nochmals verändert was Zugriffslogik etc betrifft und im Bereich L2 deutlich vergrößert wurde.

448 GB/s leistet die RX5700XT mit 14Gbps Chips. Und wenn ich das richtig Verstehe, leistet der IC die 2,13x Performance eines 384 Bit Interfaces (angenommen 16Gbps). Was wiederum ca. 768GB bedeuten würden

768 GB x 2,17 = 1666 GB
1666 GB - 512 GB ( RDNA2 mit 16Gbps Chips ) = 1154 GB
Bei 14Gbps Chips sinkt das ganze um 200GB.
( nur der IC ??? ) So zumindest Lese ich das aus dieser Folie (Anhang) hier raus.... kann man daraus nicht ableiten, wie der IC getaktet ist ? Volle GPU Geschwindigkeit? Starr ? Dynamisch ?

Verstehe die Rechnung nicht ganz.

Der Faktor bzgl 256 bit ist 3.25 ! Die 2.17 gelten bzgl. einem 384 bit vergleichs SI.

https://www.amd.com/de/technologies/rdna-2

Es ist ganz einfach:
Auf RX5700XT bezogen wären 14Gbps = 448 GB/s x3.25 = 1456 GB/s "effective Bandbreite" (gegenüber 448 GB ohne IC)
RDNA2 hat aber nun 16Gbps RAM und damit 1664 GB/s effektive Bandbreite mit IC.
1664 = 3.25 *512 GB/s (=16 Gbps GDDR@256bit)

Der Punkt ist. Das ist immer noch 2.17x mal mehr als selbst ein 384 bit SI mit GDDR6 hätte !

Bzw. ein 512 Bit SI mit 16 Gbps hätte auch NUR 1024 GB/s !
Die 256bit + IC "wirken" aber so also ob da 1664 GB/s Bandbreite anliegen würden.

Das ganze steht und fällt aber eben mit der Wirksamkeit des Caches - also mit der Datenlokalität.
Solche Vergleichsrechnungen sind nur sinnvoll für definierte Workloads.

Nimmst du eine

BlackRain85 · 12. November 2020

Iscaran schrieb:
unnötiges Vollzitat entfernt

Ja aber genau das habe ich ja auch gerechnet. (Selbe Ergebnisse) Nur anders herum. Was ich damit errechnen wollte, ist die reine Bandbreite der IC. 1664 Gb Gesamtbandbreite minus das Speicherinterface (256 Bit 16Gbps) gleich 1152 GB.

Ergänzung (12. November 2020)

Nun, nach diesem Diagramm (Link, Patent) sieht es für mich einfach nur so aus, als hätte man aufgrund besserer Latenzen und Annäherung zur CU ? den L1 zu L0 getauft usw.

https://www.freepatentsonline.com/20200293445.pdf

Colindo · 12. November 2020

BlackRain85 schrieb:
Also, ersetzt der IC den L3 Cache ? Oder kommt er On top ?

Iscaran schrieb:
So wie ich bislang den Aufbau von RDNA2 verstehe ist der IC ein stark vergrößerter UND umstrukturierter (insbesondere was Zugriffsorganisation etc betrifft) L2 cache, kein zusätzlicher L3 Cache.

So wie ich das verstanden habe IST der IC ein L3-Cache. Den gab es bisher nicht auf GPUs und ist deshalb eine Neuheit.

In einer Fußnote auf der offiziellen RDNA2-Seite gibt AMD die Cache-Trefferquote mit 58% an, woraus ich eine L3-Bandbreite von 2,5TB/s errechnet habe. Eventuell kommt noch ein Artikel von mir dazu, aber momentan ist die Redaktion bis über beide Ohren in Arbeit und kann den nicht gegenlesen/optimieren.

Ergänzung (12. November 2020)

@BlackRain85 Ja, was früher L1 war heißt bei RDNA1+2 jetzt L0. Der L1 ist der, der bei Navi10 die Neuheit war.

News AMD Radeon RX 6000: Navi 21 XT erhält große Vorschusslorbeeren

Ensign

Captain

Admiral

Ensign

Redakteur

Ensign

Redakteur

Captain

Ensign

Ensign

Captain

Redakteur

Captain

Redakteur

Captain

Lt. Commander

Ensign

Anhänge

Captain

Ensign

Redakteur

Ähnliche Themen