Ampere Gigarays / RTX-Ops

Sweepi

Lt. Commander
Registriert
Sep. 2009
Beiträge
2.004
TL; DR:
Es gibt Werte zuEs fehlen Werte zu:
Turing
  • Rays/s
  • RTX-OPS/s
  • Raytracing "Tera-Ops"
  • Raytracing TFLops
Ampere
  • Raytracing TFLops
  • Rays/s
  • RTX-OPS/s
  • Raytracing "Tera-Ops"

Wanted
  • nVidia's Angaben zu Rays/s und/oder RTX-OPS/s bei RTX 3070/3080/3090
  • die Quelle der Anandtech Angaben fuer "Raytracing TFLops" bei RTX 3070/3090
  • nVidia's Angaben zu "Raytracing TFLops" bei RTX 2070/2080 Ti
  • nVidia's Angaben zu Rays/s beim SUPER refresh (2070S/2080S)
  • nVidia's Angaben zu Rays/s bei der RTX Titan




nVidia - Quellen:
Turing Whitepaper
Ampere Whiteaper
RTX Titan Product PDF
2070S Product page
2080S Product page
Ampere Product Launch Video

Andere Quellen:
Anandtech
PCGH

<Text damit die Forensoftware nicht wieder alles zerstoert>
Ampere Whitepaper v1
<Text damit die Forensoftware nicht wieder alles zerstoert>





Gefundene Werte:

ModelPeak FP32Rays/s in 10 E9Raytracing "Tera-Ops"Raytracing TFLopsRTX-OPS/snVidia-Quelle
2070 Ref7.5660*42Turing Whitepaper p 63
2070 FE7.9660*45Turing Whitepaper p 63
2070S9.1770*52Ampere Whitepaper p 47, Rays/RTX-OPS: Product page
307020.340Ampere Whitepaper p 47, Raytracing TFlops: Ampere Product Launch Video@31:16
2080 Ref10.0880*34(?)57Turing Whitepaper p 59, RT TFLops: Ampere Whitepaper p 7
2080 FE10.6880*34(?)60Turing Whitepaper p 59, RT TFLops: Ampere Whitepaper p 7
2080S11.2**880*35***63RT TFLops: Ampere Whitepaper p 7, Rays/RTX-OPS: Product page
308029.8**58RT TFLops: Ampere Whitepaper p 7
2080 Ti Ref13.41010076Turing Whitepaper p 15
2080 Ti FE14.21010044***78Turing Whitepaper p 15
Titan RTX16.311110*51***84**Ampere Whitepaper p 44, Rays: Product PDF
309035.669Ampere Whitepaper p 44, Raytracing TFlops: Ampere Product Launch Video@35:21

  • mit einem (?) versehene Werte spezifizieren nicht eindeutig, ob es sich um die Referenz/FE/SUPER Version handelt. Gegenbeispiel: Das Turing Whitepaper benennt separat für die 2080 Ti Ref und FE jeweils 10 10E9 Rays/s
  • *: Werte sind berechnet / gefolgert, z. B.
    2080 Ti nVidia Angabe: "with about 10 Giga Rays of total throughput or 100 tera-ops of compute for ray tracing." -> gefolgert: wenn die 2080Ref/FE 8 Gigarays hat, hat sie folglich auch 80 tera-ops of compute for ray tracing
  • **: keine nVidia Quelle gefunden, von Wikipedia übernommen.
  • ***: keine nVidia Quelle gefunden, von PCGH übernommen.


Raytracing "Tera-Ops" vs Raytracing TFLops:
Im Turing Whitepaper p. 72 findet sich folgender Satz:
In Pascal, ray tracing is emulated in software on CUDA cores, and takes about 10 TFLOPs per Giga Ray, while in Turing this work is performed on the dedicated RT cores, with about 10 Giga Rays of total throughput or 100 tera-ops of compute for ray tracing."
im Ampere Whitepaper p. 7 hingegen folgender:
A full GA102 GPU incorporates 10752 CUDA Cores, 84 second-generation RT Cores, and 336 third-generation Tensor Cores, and is the most powerful consumer GPU NVIDIA has ever built for graphics processing. A GA102 SM doubles the number of FP32 shader operations that can be executed per clock compared to a Turing SM, resulting in 30 TFLOPS for shader processing in GeForce RTX 3080 (11 TFLOPS in the equivalent Turing GPU). Similarly, RT Cores offer double the throughput for ray/triangle intersection testing, resulting in 58 RT TFLOPS (compared to 34 in Turing). Finally, GA102’s new Tensor Cores can process sparse neural networks at twice the rate of Turing Tensor Cores which do not support sparsity, yielding 238 sparse Tensor TFLOPS in RTX 3080 compared to 89 non-sparse Tensor TFLOPS in RTX 2080.

Im ersten Absatz werdden "100 tera-ops of compute for ray tracing." angegeben fuer eine 2080 Ti, im zweiten Absatz 34 RT TFLOPS fuer eine 2080 beim "ray/triangle intersection testing" genannt. Es handelt sich um 2 verschiedene Werte.


Zu Turing finde ich hier diesen Satz zur 2080 Ti: "Ray tracing performance of up to 10 Giga Rays per second or 100 tera-ops per second."

die "100 x10E12 Ops Raytracing perfromance" suche in den nVidia Specs auch noch (alternativ den Umrechnungsfaktor 1:1000 zu Gigarays) Gefunden, Whitepaper Seite 72:
In Pascal, ray tracing is emulated in software on CUDA cores, and takes about 10 TFLOPs per Giga Ray, while in Turing this work is performed on the dedicated RT cores, with about 10 Giga Rays of total throughput or 100 tera-ops of compute for ray tracing."
, die 10 Gigarays findet sich hingegen im Marketing Material und im Turing Whitepaper auf Seite 15

Zu Ampere nennt Anandtech 69/58/40 TFlops Ray Performance für 3090/3080/3070. Welcher nVidia Wert ist das? im Ampere Whitepaper steht auf Seite 44 unten für die 3090 "Peak FP16 Tensor TFLOPS with FP32" und "Peak BF16 Tensor TFLOPS with FP32 Accumulate" als 71 Tflops. Ist das der richtige Wert? Das wäre dann der einzige Wert, der um mehr als Rundung off wäre, sowie der einzige, beim dem nVidia mehr als Anand angibt, daher gehe ich eher von einer zufälligen Korrelation zu sein:

nVidia vs Anand

35.6 vs 35.7 (fp32 vs Single Precision Perf.)
142 vs 143 (fp16 tensor)
284 vs 285 (fp16 tensor fp16 acc vs fp16 tensor sparse)
71 vs 69 (fp16 tensor fp32 acc vs Ray perfomance) <-- gleicher oder unterschiedlicher Spec?

Zudem ist der RT core ein eigenstaendiger Bestandteil neben Shader(SM) und Ternsor-Cores.



In der Tabelle von Anandtech stehen bei der 2080TI die Referenz Werte zu fp32, aber die FE Werte zur Tensor Performance drin....
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Sgt_Stieglitz
H3llF15H schrieb:
Und es wäre schön, dass Du dein Vorhaben etwas mehr erläuterst als nur "wanted" zu schreiben
In der Wikipedia fehlen diese Werte, und ich konnte sie auch nach längerer Recherche nicht finden. Daher habe den halben Vormittag dazu verwendet, meine Recherche Ergebnisse übersichtlich zusammenzufassen, sodass andere mir helfen - und wir zusammen diese globale Wissenslücke schließen können.
Eventuell ergeben sich daraus neue Fragen oder es werden noch nicht gestellte Fragen beantwortet.
 
Sehr komische Metriken....
Gigarays / s ist komplett wertlos ohne die Szene und Raytracingtechnik zu kennen, mit denen der Wert gemessen wurde, da er stark davon abhängig ist. Das wäre ähnlich, als ob man Crysis FPS als Performancemetrik für GPUs einfügt.... Bei 10 000 Ops per Ray und bei 27 FLOPs per Schnittpunkttest (OPs für BVH Traversierung ignoriere ich hier mal) ergeben sich circa 300 Schnittpunktteste pro Ray in dieser unbekannten Szene mit der unbekannten Raytracingtechnik von NVIDIA. Auch ist unklar, ob es sich bei der Raytracingtechnik um Path Tracing handelt, bzw. ob für diese Metrik ein Pfad von Anfang bis Ende als ein einziger Strahl oder ob jedes Teilstück des Pfad als ein Strahl zählt. Bei der hohen Anzahl von Schnittpunkttests pro Strahl gehe ich aber davon aus, dass hier Path Tracing verwendet wurde und ein Pfad als ein einziger Strahl zählt. Ebenso sind RTX OPs eine Metrik, wo man veruscht die unterschiedlichen übrigen Rohleistungen der GPU irgendwie aufzuaddieren, was mal besser mal schlechter hinhaut.

Was interessant wäre, wären 2 Rohleistungen, die hier nicht vorliegen und nicht von der Szene und der Technik abhängig wären:
-Anzahl der BHV Traversierungen pro Takt und RT Core
-Anzahl der Schnittpunktteste pro Takt und RT Core

NVIDIA veröffentlicht beides nicht, aber unter der Annahme, dass die Schnittpunktberechnung einen Goßteil der Rechenleistung der RT Cores ausmachen und diese in den Benchmarks gut ausgelastet sind, kann man zumindest bei der Schnittpunktberechnung ausgehend von den Daten der Titan RTX etwas herumrechnen:
110 TOPS / 27 FLOPS per Intersection ~= 4.1 Tera Intersections per second
4 Tera Intersections per second / 1.8 GHZ ~= 2.2 k Intersections per clock
2.2 k Intersections per clock / 72 RT Cores ~= 32 Intersections per clock per RT Core
 
  • Gefällt mir
Reaktionen: Sweepi
Danke für deine Antwort! 32 Intersections per Block sieht ja nach einen runden Zahl aus. Werde mal nachrechnen, ob das auch für die anderen GPUs passt, sowie ob ich zu
-Anzahl der BHV Traversierungen pro Takt und RT Core
-Anzahl der Schnittpunktteste pro Takt und RT Core

noch in anderen Quellen Angaben finde.
 
Zurück
Oben