syfsyn
Admiral
- Registriert
- Nov. 2010
- Beiträge
- 8.873
Wären noch dgpu mit n2p möglich? Klares ja aber teuer und man müsste min einen 60$ chip bis 500€ verkaufen dafür aber gddr6 nutzen den der ist verfügbar.
Etwa dem ampere design mit 6gpc =96sm davon 90 aktiv
Davon 3 sku bauen 60 76 90sm diese dann stromsparend bei 2,7ghz beibehalten was dann
137mm² 60$ chip wäre dazu an 192bit 12 gddr6 20gbps chips a6$
sku ab 420$ hier 430€ 160w tbp +- rtx4070ti perf. 30tf
eine sku darüber mit dann 76sm etwa rtx 4080 perf. bei 200w 600€ und die schnellste bei 750€ etwa auf level der rtx5080 mit 230w
Umsetzbar ist das nur will das nvidia nicht amd ebenso nicht, alle wollen ai. Und ai braucht cache.
gpu sind lineare Prozessoren die perfekt mit wenig sram auskommen da diese auf Latenz angewiesen sind. Sprich Takt.
Ai ist post Prozess und kann out of order handeln. Das hat immer ne Latenz ist aber auch egal da es keine Echtzeitanwendung ist.
Diese hybriden Die für datacenter und consumer entworfen wurden war ne Wette das ai durchschlägt. jetzt muss man dies in apu optimieren und den sram Anteil drastisch verkleinern.
Allein aus stromspar Sicht ist das notwendig
ne dgpu ist möglich auf n2p was noch finfett ist aber nicht mit 64mb L2 cache der nicht mehr schrinkt.
amd verzichtet laut Gerüchten sogar auf den inf cache und lässt rdna komplett fallen das wird wieder eine traditionelle 64bit arch wie gcn
Das bedeutet auch das man dual issue streicht dafür laufen 2 32bit codes parallel (einfache Genauigkeit) was bei spielen die norm ist) faktisch 1 clock 4 Operationen
dies könnte bei der langsamsten chip Ausbau mit 64cu bis zur rtx4080 perf bringen und den mit 96cu auf lvl der rtx5090 hieven und das bei maxed 305w als dgpu in n2p finfett
mit a16 womit amd ihre udna herstellen als igp tile sind da nochmal um die 36-50% Stromersparnis drin
als dgpu würde das ganz in den Takt gehen also min 3,5ghz maxed 4,0ghz. Als igp voll in die Effizienz was dann 185w-230w tdp bedeuten würde
macht es Sinn überhaupt schneller zu sein als ne rtx5090?
Kurz nein das cpu limit das ein wenig gemildert wird bleibt ein problem
pathtraycing löst das nur bedingt zumal immer wieder bei den bvh zu Problemen kommt im Gegensatz zu raster was linear ist ist pathtraycing exponentiell sprich man muss denoisen da ansonsten mit jeden strahl die menge an fp32 workflow verdoppelt.
Das kann man in hardware nicht lösen. und raster ist in ein limit gekommen wo mehr Auflösung nix mehr bringt. also 8k und so
Pathtraycing ist der Weg aber es muss denoised werden und da braucht man zwingend mehr Effizienz und cache der muss nicht zwingend L2 sein L3 reicht als externen cache
also wird man stattdessen die tensor cores akä Ganzzahl Prozessoren in int32 aufgeteilt in int8 herstellen, geringer würde Ergebnisse zu viele Fehler haben.
Daher dürfte das so ausgehen auf einen cu kommen 64 tensor kerne zu 128 alu dadurch kann man 1-1 rendern in pathtraycing + simultan denoisen in vierfache Geschwindigkeit
Das dürfte dann ein denoised level von x32 entsprechen optimal wäre x64 Fach
Derzeit denoised man auf level von x16 darum sind die strahlen bei pathtraycing noch so hoch womit die perf. Einschlag groß ist etwa 80% aktuell
Mit der Verdoppelung des denoising würde man die strahlen halbieren und das gleiche Ergebnis haben.
mit doppelter fps am ende.
ich würde dann die strahlen gleich lassen und das bessere denoising nutzen für ein deutlich besseres Bild.
das bedingt aber min ne doppelte sm/cu egal ob amd oder nvidia das ist umsetzbar.
Darum wird man auf level der rtx5090 grob bis zur ps6 pro hängen bleiben. was so 2032 sein wird.
Das problem sind nicht die gpu sondern die ipc der cpu. Zen6 wird da ein großen schritt machen +60%
zen7 nochmal grob +50% und dann endlich auch in 1080p ne rtx5090 perf. auslasten kann was dann patbtraycing effektiv nutzbar macht.
Darüber hinaus muss man aber auf neue Halbleiter und substrate gehen damit man die 15-50ghz marke sieht.
Das ist aber Thema ab 2032 bis 2036 je nachdem wann bismut kommt.
Der Grund warum ne rtx4090 noch immer nicht geschlagen wurde von der neuen generation liegt daran das nvidia nicht bereit war 18500$ fürn n3 wafer zu geben die chips sind zu groß.
Derzeit 44% alu bei den meisten sku 31% sram der nicht kleiner wird 15% si und display engine
mit n3 wären es nur noch 25% alu 55% sram 20% displayengine und si
und das wird mit n2p nicht besser sondern schlimmer. Das ist auch der Grund warum man auf apu wechselt um zumindest das Si auszulagern
Der Grund warum 256bit als bsp so groß ist liegt schlicht an pcie den physischen link den man braucht um die analogen lötpunkte auf dem pcb direkt zu verbinden
Das macht man aus latenzgründen dies ginge auch direkt per chip zu chip Verbindung mittels hbm da wäre 2048 bit gleich groß wie 256bit mit bga vram chips.
Die alternative ist mehrere chips auf ein package zu verbinden also alu chip + sram si chip + cpu chip.
Es macht kein Sinn nenn mcm chip zu machen mit externen si ohne cpu.
Die alternative wäre den sram als Stapelchip mit tsv zu verbinden das erzwingt aber ein gleich großen sram chip mit dem alu chip. Das ist denkbar aber teuer. Tsmc verlangt dafür pro wafer 30000$ die chips dürften nicht größer sein als 108mm² +-62$
Das begrenzt aber die renderleistung auf maxed 4gpc a24sm bei nur 3,5ghz +-rtx4090 lvl
ein größerer chip wäre ab 168mm² möglich würde aber 124$ kosten und wäre nur knapp +20% schneller
und das bei grob 550w. Das lohnt nicht
man müsste den Takt Weg gehen was dann 4,0ghz bedeuten würde und eine min tbp von 300w fürn entry
kleinere chips lohnen nicht weil man in Wärmestau kämen würde.
man sieht man ist gezwungen den apu Weg zu gehen wenn es halbwegs wirtschaftlich sein soll.
Ohne Kompromisse würde ich auf a16 node warten mit gaa und bspd und dann tsv verbundene chips die 5,0ghz zu erreichen. Der Grund ist wie bei fast allen AI.
Den ohne riesigen Sram wäre das halb so schlimm und man könnte bei gleichen chipgrößen doppelte an alu und perf herausholen.
Wäre da nicht dass cpu limit.
Etwa dem ampere design mit 6gpc =96sm davon 90 aktiv
Davon 3 sku bauen 60 76 90sm diese dann stromsparend bei 2,7ghz beibehalten was dann
137mm² 60$ chip wäre dazu an 192bit 12 gddr6 20gbps chips a6$
sku ab 420$ hier 430€ 160w tbp +- rtx4070ti perf. 30tf
eine sku darüber mit dann 76sm etwa rtx 4080 perf. bei 200w 600€ und die schnellste bei 750€ etwa auf level der rtx5080 mit 230w
Umsetzbar ist das nur will das nvidia nicht amd ebenso nicht, alle wollen ai. Und ai braucht cache.
gpu sind lineare Prozessoren die perfekt mit wenig sram auskommen da diese auf Latenz angewiesen sind. Sprich Takt.
Ai ist post Prozess und kann out of order handeln. Das hat immer ne Latenz ist aber auch egal da es keine Echtzeitanwendung ist.
Diese hybriden Die für datacenter und consumer entworfen wurden war ne Wette das ai durchschlägt. jetzt muss man dies in apu optimieren und den sram Anteil drastisch verkleinern.
Allein aus stromspar Sicht ist das notwendig
ne dgpu ist möglich auf n2p was noch finfett ist aber nicht mit 64mb L2 cache der nicht mehr schrinkt.
amd verzichtet laut Gerüchten sogar auf den inf cache und lässt rdna komplett fallen das wird wieder eine traditionelle 64bit arch wie gcn
Das bedeutet auch das man dual issue streicht dafür laufen 2 32bit codes parallel (einfache Genauigkeit) was bei spielen die norm ist) faktisch 1 clock 4 Operationen
dies könnte bei der langsamsten chip Ausbau mit 64cu bis zur rtx4080 perf bringen und den mit 96cu auf lvl der rtx5090 hieven und das bei maxed 305w als dgpu in n2p finfett
mit a16 womit amd ihre udna herstellen als igp tile sind da nochmal um die 36-50% Stromersparnis drin
als dgpu würde das ganz in den Takt gehen also min 3,5ghz maxed 4,0ghz. Als igp voll in die Effizienz was dann 185w-230w tdp bedeuten würde
macht es Sinn überhaupt schneller zu sein als ne rtx5090?
Kurz nein das cpu limit das ein wenig gemildert wird bleibt ein problem
pathtraycing löst das nur bedingt zumal immer wieder bei den bvh zu Problemen kommt im Gegensatz zu raster was linear ist ist pathtraycing exponentiell sprich man muss denoisen da ansonsten mit jeden strahl die menge an fp32 workflow verdoppelt.
Das kann man in hardware nicht lösen. und raster ist in ein limit gekommen wo mehr Auflösung nix mehr bringt. also 8k und so
Pathtraycing ist der Weg aber es muss denoised werden und da braucht man zwingend mehr Effizienz und cache der muss nicht zwingend L2 sein L3 reicht als externen cache
also wird man stattdessen die tensor cores akä Ganzzahl Prozessoren in int32 aufgeteilt in int8 herstellen, geringer würde Ergebnisse zu viele Fehler haben.
Daher dürfte das so ausgehen auf einen cu kommen 64 tensor kerne zu 128 alu dadurch kann man 1-1 rendern in pathtraycing + simultan denoisen in vierfache Geschwindigkeit
Das dürfte dann ein denoised level von x32 entsprechen optimal wäre x64 Fach
Derzeit denoised man auf level von x16 darum sind die strahlen bei pathtraycing noch so hoch womit die perf. Einschlag groß ist etwa 80% aktuell
Mit der Verdoppelung des denoising würde man die strahlen halbieren und das gleiche Ergebnis haben.
mit doppelter fps am ende.
ich würde dann die strahlen gleich lassen und das bessere denoising nutzen für ein deutlich besseres Bild.
das bedingt aber min ne doppelte sm/cu egal ob amd oder nvidia das ist umsetzbar.
Darum wird man auf level der rtx5090 grob bis zur ps6 pro hängen bleiben. was so 2032 sein wird.
Das problem sind nicht die gpu sondern die ipc der cpu. Zen6 wird da ein großen schritt machen +60%
zen7 nochmal grob +50% und dann endlich auch in 1080p ne rtx5090 perf. auslasten kann was dann patbtraycing effektiv nutzbar macht.
Darüber hinaus muss man aber auf neue Halbleiter und substrate gehen damit man die 15-50ghz marke sieht.
Das ist aber Thema ab 2032 bis 2036 je nachdem wann bismut kommt.
Der Grund warum ne rtx4090 noch immer nicht geschlagen wurde von der neuen generation liegt daran das nvidia nicht bereit war 18500$ fürn n3 wafer zu geben die chips sind zu groß.
Derzeit 44% alu bei den meisten sku 31% sram der nicht kleiner wird 15% si und display engine
mit n3 wären es nur noch 25% alu 55% sram 20% displayengine und si
und das wird mit n2p nicht besser sondern schlimmer. Das ist auch der Grund warum man auf apu wechselt um zumindest das Si auszulagern
Der Grund warum 256bit als bsp so groß ist liegt schlicht an pcie den physischen link den man braucht um die analogen lötpunkte auf dem pcb direkt zu verbinden
Das macht man aus latenzgründen dies ginge auch direkt per chip zu chip Verbindung mittels hbm da wäre 2048 bit gleich groß wie 256bit mit bga vram chips.
Die alternative ist mehrere chips auf ein package zu verbinden also alu chip + sram si chip + cpu chip.
Es macht kein Sinn nenn mcm chip zu machen mit externen si ohne cpu.
Die alternative wäre den sram als Stapelchip mit tsv zu verbinden das erzwingt aber ein gleich großen sram chip mit dem alu chip. Das ist denkbar aber teuer. Tsmc verlangt dafür pro wafer 30000$ die chips dürften nicht größer sein als 108mm² +-62$
Das begrenzt aber die renderleistung auf maxed 4gpc a24sm bei nur 3,5ghz +-rtx4090 lvl
ein größerer chip wäre ab 168mm² möglich würde aber 124$ kosten und wäre nur knapp +20% schneller
und das bei grob 550w. Das lohnt nicht
man müsste den Takt Weg gehen was dann 4,0ghz bedeuten würde und eine min tbp von 300w fürn entry
kleinere chips lohnen nicht weil man in Wärmestau kämen würde.
man sieht man ist gezwungen den apu Weg zu gehen wenn es halbwegs wirtschaftlich sein soll.
Ohne Kompromisse würde ich auf a16 node warten mit gaa und bspd und dann tsv verbundene chips die 5,0ghz zu erreichen. Der Grund ist wie bei fast allen AI.
Den ohne riesigen Sram wäre das halb so schlimm und man könnte bei gleichen chipgrößen doppelte an alu und perf herausholen.
Wäre da nicht dass cpu limit.