Ampere Gigarays / RTX-Ops

Sweepi · 3. März 2021

TL; DR:

	Es gibt Werte zu	Es fehlen Werte zu:
Turing	Rays/s RTX-OPS/s Raytracing "Tera-Ops"	Raytracing TFLops
Ampere	Raytracing TFLops	Rays/s RTX-OPS/s Raytracing "Tera-Ops"

Wanted

nVidia's Angaben zu Rays/s und/oder RTX-OPS/s bei RTX 3070/3080/3090
die Quelle der Anandtech Angaben fuer "Raytracing TFLops" bei RTX 3070/3090
nVidia's Angaben zu "Raytracing TFLops" bei RTX 2070/2080 Ti
nVidia's Angaben zu Rays/s beim SUPER refresh (2070S/2080S)
nVidia's Angaben zu Rays/s bei der RTX Titan

nVidia - Quellen:
Turing Whitepaper
Ampere Whiteaper
RTX Titan Product PDF
2070S Product page
2080S Product page
Ampere Product Launch Video

Andere Quellen:
Anandtech
PCGH

<Text damit die Forensoftware nicht wieder alles zerstoert>
Ampere Whitepaper v1
<Text damit die Forensoftware nicht wieder alles zerstoert>

3070: 39.7 Raytracing TFlops: leaked Reviewers Guide: https://videocardz.com/newz/nvidia-geforce-rtx-3070-reviewers-guide-leaked
2070: 23.8 Raytracing TFlops: leaked Reviewers Guide: https://videocardz.com/newz/nvidia-geforce-rtx-3070-reviewers-guide-leaked

Gefundene Werte:

Model	Peak FP32	Rays/s in 10 E9	Raytracing "Tera-Ops"	Raytracing TFLops	RTX-OPS/s	nVidia-Quelle
2070 Ref	7.5	6	60*		42	Turing Whitepaper p 63
2070 FE	7.9	6	60*		45	Turing Whitepaper p 63
2070S	9.1	7	70*		52	Ampere Whitepaper p 47, Rays/RTX-OPS: Product page
3070	20.3			40		Ampere Whitepaper p 47, Raytracing TFlops: Ampere Product Launch Video@31:16
2080 Ref	10.0	8	80*	34(?)	57	Turing Whitepaper p 59, RT TFLops: Ampere Whitepaper p 7
2080 FE	10.6	8	80*	34(?)	60	Turing Whitepaper p 59, RT TFLops: Ampere Whitepaper p 7
2080S	11.2**	8	80*	35***	63	RT TFLops: Ampere Whitepaper p 7, Rays/RTX-OPS: Product page
3080	29.8**			58		RT TFLops: Ampere Whitepaper p 7
2080 Ti Ref	13.4	10	100		76	Turing Whitepaper p 15
2080 Ti FE	14.2	10	100	44***	78	Turing Whitepaper p 15
Titan RTX	16.3	11	110*	51***	84**	Ampere Whitepaper p 44, Rays: Product PDF
3090	35.6			69		Ampere Whitepaper p 44, Raytracing TFlops: Ampere Product Launch Video@35:21

mit einem (?) versehene Werte spezifizieren nicht eindeutig, ob es sich um die Referenz/FE/SUPER Version handelt. Gegenbeispiel: Das Turing Whitepaper benennt separat für die 2080 Ti Ref und FE jeweils 10 10E9 Rays/s
*: Werte sind berechnet / gefolgert, z. B.
2080 Ti nVidia Angabe: "with about 10 Giga Rays of total throughput or 100 tera-ops of compute for ray tracing." -> gefolgert: wenn die 2080Ref/FE 8 Gigarays hat, hat sie folglich auch 80 tera-ops of compute for ray tracing
**: keine nVidia Quelle gefunden, von Wikipedia übernommen.
***: keine nVidia Quelle gefunden, von PCGH übernommen.

Raytracing "Tera-Ops" vs Raytracing TFLops:
Im Turing Whitepaper p. 72 findet sich folgender Satz:

In Pascal, ray tracing is emulated in software on CUDA cores, and takes about 10 TFLOPs per Giga Ray, while in Turing this work is performed on the dedicated RT cores, with about 10 Giga Rays of total throughput or 100 tera-ops of compute for ray tracing."

im Ampere Whitepaper p. 7 hingegen folgender:

A full GA102 GPU incorporates 10752 CUDA Cores, 84 second-generation RT Cores, and 336 third-generation Tensor Cores, and is the most powerful consumer GPU NVIDIA has ever built for graphics processing. A GA102 SM doubles the number of FP32 shader operations that can be executed per clock compared to a Turing SM, resulting in 30 TFLOPS for shader processing in GeForce RTX 3080 (11 TFLOPS in the equivalent Turing GPU). Similarly, RT Cores offer double the throughput for ray/triangle intersection testing, resulting in 58 RT TFLOPS (compared to 34 in Turing). Finally, GA102’s new Tensor Cores can process sparse neural networks at twice the rate of Turing Tensor Cores which do not support sparsity, yielding 238 sparse Tensor TFLOPS in RTX 3080 compared to 89 non-sparse Tensor TFLOPS in RTX 2080.

Im ersten Absatz werdden "100 tera-ops of compute for ray tracing." angegeben fuer eine 2080 Ti, im zweiten Absatz 34 RT TFLOPS fuer eine 2080 beim "ray/triangle intersection testing" genannt. Es handelt sich um 2 verschiedene Werte.

Zu Turing finde ich hier diesen Satz zur 2080 Ti: "Ray tracing performance of up to 10 Giga Rays per second or 100 tera-ops per second."

~~die "100 x10E12 Ops Raytracing perfromance" suche in den nVidia Specs auch noch (alternativ den Umrechnungsfaktor 1:1000 zu Gigarays)~~ Gefunden, Whitepaper Seite 72:

In Pascal, ray tracing is emulated in software on CUDA cores, and takes about 10 TFLOPs per Giga Ray, while in Turing this work is performed on the dedicated RT cores, with about 10 Giga Rays of total throughput or 100 tera-ops of compute for ray tracing."

, die 10 Gigarays findet sich ~~hingegen~~ im Marketing Material und im Turing Whitepaper auf Seite 15

Zu Ampere nennt Anandtech 69/58/40 TFlops Ray Performance für 3090/3080/3070. Welcher nVidia Wert ist das? im Ampere Whitepaper steht auf Seite 44 unten für die 3090 "Peak FP16 Tensor TFLOPS with FP32" und "Peak BF16 Tensor TFLOPS with FP32 Accumulate" als 71 Tflops. Ist das der richtige Wert? Das wäre dann der einzige Wert, der um mehr als Rundung off wäre, sowie der einzige, beim dem nVidia mehr als Anand angibt, daher gehe ich eher von einer zufälligen Korrelation zu sein:

nVidia vs Anand

35.6 vs 35.7 (fp32 vs Single Precision Perf.)
142 vs 143 (fp16 tensor)
284 vs 285 (fp16 tensor fp16 acc vs fp16 tensor sparse)
71 vs 69 (fp16 tensor fp32 acc vs Ray perfomance) <-- gleicher oder unterschiedlicher Spec?

Zudem ist der RT core ein eigenstaendiger Bestandteil neben Shader(SM) und Ternsor-Cores.

In der Tabelle von Anandtech stehen bei der 2080TI die Referenz Werte zu fp32, aber die FE Werte zur Tensor Performance drin....

coasterblog · 3. März 2021

Sweepi schrieb:
2070 Ti

2080ti, oder?

H3llF15H · 3. März 2021

Sweepi schrieb:
Es gibt Werte zu

Sweepi · 3. März 2021

So, erster Beitrag ist nun fertig

@coasterblog
@H3llF15H

beides gefixed, Danke!

H3llF15H · 3. März 2021

Sweepi schrieb:
erster Beitrag ist nun fertig

Dann schmeiß mal deinen Spickzettel raus.

Und es wäre schön, dass Du dein Vorhaben etwas mehr erläuterst als nur "wanted" zu schreiben. Hinzu kommt, dass irgendwie der Abschluss fehlt. Sieht einfach dahingeklatscht aus.

Sweepi · 3. März 2021

H3llF15H schrieb:
Und es wäre schön, dass Du dein Vorhaben etwas mehr erläuterst als nur "wanted" zu schreiben

In der Wikipedia fehlen diese Werte, und ich konnte sie auch nach längerer Recherche nicht finden. Daher habe den halben Vormittag dazu verwendet, meine Recherche Ergebnisse übersichtlich zusammenzufassen, sodass andere mir helfen - und wir zusammen diese globale Wissenslücke schließen können.
Eventuell ergeben sich daraus neue Fragen oder es werden noch nicht gestellte Fragen beantwortet.

Sweepi · 4. März 2021

Sind die Reviewers Guides von nVidia fuer 3070/3080/3090 irgendwo veröffentlicht?
Konnte bis jetzt nur diesen "Leak" finden: https://videocardz.com/newz/nvidia-geforce-rtx-3070-reviewers-guide-leaked

Nai · 7. März 2021

Sehr komische Metriken....
Gigarays / s ist komplett wertlos ohne die Szene und Raytracingtechnik zu kennen, mit denen der Wert gemessen wurde, da er stark davon abhängig ist. Das wäre ähnlich, als ob man Crysis FPS als Performancemetrik für GPUs einfügt.... Bei 10 000 Ops per Ray und bei 27 FLOPs per Schnittpunkttest (OPs für BVH Traversierung ignoriere ich hier mal) ergeben sich circa 300 Schnittpunktteste pro Ray in dieser unbekannten Szene mit der unbekannten Raytracingtechnik von NVIDIA. Auch ist unklar, ob es sich bei der Raytracingtechnik um Path Tracing handelt, bzw. ob für diese Metrik ein Pfad von Anfang bis Ende als ein einziger Strahl oder ob jedes Teilstück des Pfad als ein Strahl zählt. Bei der hohen Anzahl von Schnittpunkttests pro Strahl gehe ich aber davon aus, dass hier Path Tracing verwendet wurde und ein Pfad als ein einziger Strahl zählt. Ebenso sind RTX OPs eine Metrik, wo man veruscht die unterschiedlichen übrigen Rohleistungen der GPU irgendwie aufzuaddieren, was mal besser mal schlechter hinhaut.

Was interessant wäre, wären 2 Rohleistungen, die hier nicht vorliegen und nicht von der Szene und der Technik abhängig wären:
-Anzahl der BHV Traversierungen pro Takt und RT Core
-Anzahl der Schnittpunktteste pro Takt und RT Core

NVIDIA veröffentlicht beides nicht, aber unter der Annahme, dass die Schnittpunktberechnung einen Goßteil der Rechenleistung der RT Cores ausmachen und diese in den Benchmarks gut ausgelastet sind, kann man zumindest bei der Schnittpunktberechnung ausgehend von den Daten der Titan RTX etwas herumrechnen:
110 TOPS / 27 FLOPS per Intersection ~= 4.1 Tera Intersections per second
4 Tera Intersections per second / 1.8 GHZ ~= 2.2 k Intersections per clock
2.2 k Intersections per clock / 72 RT Cores ~= 32 Intersections per clock per RT Core

Sweepi · 7. März 2021

Danke für deine Antwort! 32 Intersections per Block sieht ja nach einen runden Zahl aus. Werde mal nachrechnen, ob das auch für die anderen GPUs passt, sowie ob ich zu
-Anzahl der BHV Traversierungen pro Takt und RT Core
-Anzahl der Schnittpunktteste pro Takt und RT Core

noch in anderen Quellen Angaben finde.

Suche

Ampere Gigarays / RTX-Ops

Sweepi

Commander Pro

coasterblog

Fleet Admiral

H3llF15H

Admiral Pro

Sweepi

Commander Pro

H3llF15H

Admiral Pro

Sweepi

Commander Pro

Sweepi

Commander Pro

Nai

Lt. Commander

Sweepi

Commander Pro

Ähnliche Themen