News Integrierte GPUs: AMD soll an RDNA 3.5 bis mindestens 2028 festhalten

stefan92x schrieb:
Nicht unbedingt. Es ist so ein bisschen eine Henne-Ei-Frage: Was war zuerst, der Ausstieg aus High-End oder das Canceln der Dies? Wenn AMD bei Navi 41 bis 43 auf ein Design-Konzept gesetzt hat, dass sich als nicht praktikabel erwiesen hat (was ich nach dem de facto Scheitern von RDNA3 für möglich heute), dann hätte sich der Ausstieg daraus ergeben können, dass man diese Chips canceln musste. Navi 44 hat gerade mal 32 CUs, da halte ich es für gut möglich, dass es drei Dies mit mehr als 32 CUs gegeben haben könnte.

Auf das will ich doch raus, es muss noch einen anderen Grund geben, High End aufzugeben kann nicht der einzige Grund sein. Was es sonst noch war wird AMD nicht erzählen.

stefan92x schrieb:
Mehr als 64 wäre ja nur der Fall, wenn Navi 48 von Anfang an geplant war, aber danach sieht es ja eben nicht aus.

Alleine schon der Name ist eine Anspielung darauf das die Navi 48 eine doppelte Navi44 ist.

stefan92x schrieb:
Oder zumindest quasi neu gestartet. Was Sinn ergeben würde, wenn AMD wirklich in eine Sackgasse gerannt ist und sich neu aufstellen musste.

Zwei mit einander nicht kompatible GPU Architekturen zu haben war langfristig eine Fehlentscheidung.

Kurzfristig hat CDNA auf GFX9 zu belassen viel Arbeit beim Software Stack gespart, und war eventuell 2015 unumgänglich.

Aber so lange zu warten, ...

stefan92x schrieb:
Einerseits ja, andererseits aber auch nur eine logische Folge der Nutzung von Chiplets. Dadurch wird so eine Mischung aus Custom und "Standard" eben auch einfacher.

Es gab Gründe warum AMD es bisher bei Custom eigene Dies gemacht hat. Man kann den Die für den Kunden optimieren, was sich bei den Stückzahlen lohnt und eigentlich unumgänglich ist.

Das Microsoft ein Custom CPU Chiplet aber ein Standard GPU Chiplets verwendet macht mich stutzig.
stefan92x schrieb:
Yield? Power? Kann mir viele Gründe vorstellen, vor allem wo wir doch so weit vom Release entfernt sind.
Ja es gibt viele mögliche Erklärungen.

Aber ich bin mir sicher, dass da noch einige Überraschungen kommen.

stefan92x schrieb:
Ja, aber Einsteiger-GPUs mit DDR gab es aber durchaus auch früher schon (man denke an die GT1030 mit DDR4), und ebenso sind große GPUs mit LPDDR fürs Datacenter schon angekündigt (Intel Crescent Island)

Im Data Center kommt es bei Prefill vor allem auf die Speicherkapazität an und da ist GDDR keine Option.

Die Frage ist doch, kann sich eine dGPU nur durch mehr Power aber mit praktisch derselben Bandbreite wirklich entscheidet von der APU absetzen und wie steht sie dann im Vergleich zu einer dGPU mit GDDR da.

Und vor allem wie sieht eine solche GPU gegenüber den GPUs von Nvidia aus.

stefan92x schrieb:
Nicht für Gaming alleine. Aber wenn man eine große GPU hat, die man in genug Instanzen aufteilen kann, dann ist die ideal als Citrix-Host oder so nutzbar. Gibt schon einige Anwendungsfälle für solche Datacenter-GPUs. Ob sich das für AMD lohnt? Kommt sicher drauf an, was AT0 überhaupt wirklich ist (als Dual-AT1 könnte das ja günstig realisierbar sein).

AT0 ist so teuer, dass ausreichend Bedarf da sein muss um den Aufwand zu rechtfertigen. AT0 ist das exakte Gegenteil zu dem was AMD zu RDNA4 erzählt hat.

Und ausgerechnet zu dem Teil den ich AMD bei den Erklärungen glaube. Der Verzicht auf die großen Dies spart AMD bei RDNA4 jede Menge Geld und gibt AMD mehr Spielraum bei der Preisgestaltung der kleinen Dies.

stefan92x schrieb:
Wie du selbst geschrieben hast, scheint GFX125 (was vermutlich CDNA5 ist) mehr mit aktuellem RDNA als CDNA gemeinsam zu haben. Ausgehend davon frage ich mich, ob wir hier nicht wirklich schon "UDNA" sehen, wo das eigentlich schon das gleiche ist?

Ich bin mir inzwischen sicher, dass es keine UDNA Architektur geben wird. In wie weit das Konzept UDNA tatsächlich kommt kann man besser abschätzen, wenn mehr über GFX13 bekannt wird und wenn klar wird wie CDNA6 geführt wird.

Es gibt keine andere Erklärung als dass gfx125x CDNA 5 ist. Auch wenn nur zwei GPU gelistet sind und die als APU bezeichnet werden. Das sind Platzhalter. Ebenso wie bei der ersten GPu für GFX13.

GFX125x sieht so aus als sich AMD endgültig vom Erbe GFX9 verabschiedet.

Andererseits gibt es auch einiges was zu GFX125x von GFX12\RDNA5 deutlich unterscheidet.
 
ETI1120 schrieb:
Das Microsoft ein Custom CPU Chiplet aber ein Standard GPU Chiplets verwendet macht mich stutzig.
Ich kann mir allerdings gut vorstellen, dass ein Standard-GPU-Chiplet für die Xbox eine passende Größe haben kann, ein CCD mit 12 großen Zen 6 Cores (wonach es ja aktuell aussieht), sich aber für die Xbox nicht lohnt.
ETI1120 schrieb:
Aber ich bin mir sicher, dass da noch einige Überraschungen kommen.
Dito. Release ist noch so weit weg, dass derzeit alles noch sehr wolkige Gerüchte sind.
ETI1120 schrieb:
Die Frage ist doch, kann sich eine dGPU nur durch mehr Power aber mit praktisch derselben Bandbreite wirklich entscheidet von der APU absetzen und wie steht sie dann im Vergleich zu einer dGPU mit GDDR da.
Ist das denn wirklich die Frage? Muss sich eine dGPU denn überhaupt deutlich von einer großen und leistungsfähigen iGPU absetzen? Oder ist die Variante "du kannst die neue iGPU als dGPU kaufen" gut für Aufrüster mit alten CPUs zu vermarkten? Ebenso für OEMs klassischer PCs als billige Einstiegsoption für GPUs

Wenn der Chip sich die Entwicklungs- und Produktionskosten eh mit der iGPU teilt, dann kann sich das schon bei relativ geringer Stückzahl lohnen. Da könnte die Kalkulation ein bisschen anders aussehen als bei aktuellen dGPU.
ETI1120 schrieb:
Und vor allem wie sieht eine solche GPU gegenüber den GPUs von Nvidia aus.
Gegenüber welchen? Ich glaube die Frage ist gar nicht so sehr, wie das technisch aussehen wird, sondern mehr was Nvidia überhaupt produzieren will im Angesicht der Speicherkrise, die auch nächstes Jahr noch anhalten wird (sofern nicht ein Schwung großer AI-Unternehmen kollabiert).
ETI1120 schrieb:
AT0 ist so teuer, dass ausreichend Bedarf da sein muss um den Aufwand zu rechtfertigen. AT0 ist das exakte Gegenteil zu dem was AMD zu RDNA4 erzählt hat.
Stimmt. Womit wir aber zurück bei der Frage sind, warum RDNA4 das Lineup hat was es hat. Natürlich erzählt AMD uns Dinge, die dazu passen, aber wollte AMD wirklich das 1000 Dollar Limit einhalten, was sie öffentlich genannt haben? Oder ergab sich dieses Limit daraus, dass größere Chips nicht mehr so skaliert haben, wie AMD gehofft hat?

In letzterem Fall müsste AMD sich bei RDNA5 da natürlich nicht mehr dran halten (müssen sie natürlich sowieso nicht, aber vielleicht fällt halt der echte Grund weg).
ETI1120 schrieb:
Und ausgerechnet zu dem Teil den ich AMD bei den Erklärungen glaube. Der Verzicht auf die großen Dies spart AMD bei RDNA4 jede Menge Geld und gibt AMD mehr Spielraum bei der Preisgestaltung der kleinen Dies.
Gilt das nicht nur, wenn AMD mit den kleinen Dies die großen hätte mit finanzieren müssen? Also wenn wir annehmen, dass die großen kommerziell nicht sinnvoll wären? Auch hier, vielleicht gab es Gründe warum das bei RDNA4 so war, aber die müssen nicht unbedingt auch für RDNA5 gelten.
ETI1120 schrieb:
Ich bin mir inzwischen sicher, dass es keine UDNA Architektur geben wird. In wie weit das Konzept UDNA tatsächlich kommt kann man besser abschätzen, wenn mehr über GFX13 bekannt wird und wenn klar wird wie CDNA6 geführt wird.
Das sehe ich genauso. "UDNA" dürfte vor allem den Prozess beschreiben, dass AMD CDNA und RDNA wieder mehr zusammenführt. Vielleicht soweit, dass sie auch wirklich IP-Blöcke teilen, die aber dann nach wie vor zu unterschiedlichen Chips zusammengebaut werden.
 
H@rlekin schrieb:
Was ist mit der RTX 3050 6GB/8GB?
Spürbar schwächer, deswegen würde ich keine neue Grafikkarte unterhalb einer GeForce RTX 5050 oder Radeon RX 7600 kaufen.

Sondern wenn man unter 200€ bleiben will würde ich eher zu Gebrauchtware greifen, irgendwas zwischen GTX 1650 Super für ca. 69€-94€ und RTX 2070 Super für ca. 160€-189€.
 
RealMax123 schrieb:
Spürbar schwächer, deswegen würde ich keine neue Grafikkarte unterhalb einer GeForce RTX 5050 oder Radeon RX 7600 kaufen.
Ok, kann ich nachvollziehen. Da ich keine Stromstecker mag, habe ich mir eine GTX 3050 6GB als schnellste nur PCIe Karte gekauft.
Die ist schneller, aber auch stromhungriger als eine iGPU. Das ist natürlich nur meine persönliche Vorliebe.
 
  • Gefällt mir
Reaktionen: RealMax123
stefan92x schrieb:
Ich kann mir allerdings gut vorstellen, dass ein Standard-GPU-Chiplet für die Xbox eine passende Größe haben kann, ein CCD mit 12 großen Zen 6 Cores (wonach es ja aktuell aussieht), sich aber für die Xbox nicht lohnt.
Ich kann mir auch viel vorstellen. Aber ich finde eben einige Dinge komisch. Kann sein dass ich mich irre.

Wie gesagt vor allem überrascht es mich wie früh diese Daten genannt wurden.

Witziger Weise scheinen MLID und Kepler über dieselben Informationen gestolpert zu sein, interpretieren sie anders.

Ich warte mit großer Spannung bis des Memory Modells für gfx13 in AMDGPU_Usage.rst dokumentiert wird. In der Beschreibung des Memory Modells von gfx125x

stefan92x schrieb:
Ist das denn wirklich die Frage? Muss sich eine dGPU denn überhaupt deutlich von einer großen und leistungsfähigen iGPU absetzen? Oder ist die Variante "du kannst die neue iGPU als dGPU kaufen" gut für Aufrüster mit alten CPUs zu vermarkten? Ebenso für OEMs klassischer PCs als billige Einstiegsoption für GPUs
Wieso haben Sony und Microsoft APUs verbaut? Weil eine APU billiger ist als eine vergleichbare Kombination von CPU und dGPU. Dies gilt erst recht wenn man die dGPU auf eine PCIe Grafikkarte pflanzt.
stefan92x schrieb:
Gegenüber welchen?
Denen die Nvidia auf den Markt bringen wird. Nvidia wird keinen Markt, mit dem Nvidia Milliardenumsätze macht, herschenken.

Dass wohl keine Super Karten kommen, bedeutet nicht dass Nvidia 2027 keine neue Generation bringen wird. Gibt es aktuell einen Grund, warum Nvidia neue Karten bringen müsste?

stefan92x schrieb:
Ich glaube die Frage ist gar nicht so sehr, wie das technisch aussehen wird, sondern mehr was Nvidia überhaupt produzieren will im Angesicht der Speicherkrise, die auch nächstes Jahr noch anhalten wird (sofern nicht ein Schwung großer AI-Unternehmen kollabiert).
Die Speicherkrise ist IMO so schnell vorbei wie sie gekommen ist. Panikkäufe und Hamstern bedeuten kein entschieden höheren Bedarf.
stefan92x schrieb:
Stimmt. Womit wir aber zurück bei der Frage sind, warum RDNA4 das Lineup hat was es hat. Natürlich erzählt AMD uns Dinge, die dazu passen, aber wollte AMD wirklich das 1000 Dollar Limit einhalten, was sie öffentlich genannt haben?
Ich habe mir noch Mal das Interview gezogen, das David Wang und Rick Bergmann im Dezember 2022 ITmedia gegeben haben. Erschienen ist das Interview allerdings erst im März 2023.

Die 1000 USD waren die Erklärung dafür, warum AMD kein Konkurrent zur 4090 gebracht hat. Rick Bergman hat zwar erklärt, dass dieses Limit von Generation zu Generation neu gesetzt wird, aber warum sollte AMD dieses Limit für RDNA 4 so deutlich herunter setzen?

Ich halte alles was David Wang und Rick Bergman als Erklärung dafür gegen haben, warum AMD Navi 31 nicht deutlich größer gemacht hat, für stichhaltig und richtig.

Aber Navi 48 liegt deutlich unter dieser Marke, also muss es auch noch was anderes geben.

Zum Beispiel dass AMD gar nicht genug Entwicklungsressourcen gehabt hätte die Navi 44, die 3 großen Dies und die neuen CDNA Projekte zu machen. 2 Dies benötigen weniger Ressourcen zur Entwicklung als 4. Und wenn der zweite Die im Grunde eine verdopplete Version des ersten Dies ist spart es noch Mal ein bisschen.

stefan92x schrieb:
Oder ergab sich dieses Limit daraus, dass größere Chips nicht mehr so skaliert haben, wie AMD gehofft hat?
Ja, das würde erklären warum AMD die großen Dies eingestellt hat.

Allerdings hat AMD die Navi 48 mit 64 CUs neu aufgelegt. Wenn das schlechte skalieren der Architektur der Grund war, würde dies nur dann Sinn ergeben wenn die gecancelten GPUs deutlich größer als 64 CUs waren. Was ich für sehr unwahrscheinlich halte.
stefan92x schrieb:
In letzterem Fall müsste AMD sich bei RDNA5 da natürlich nicht mehr dran halten (müssen sie natürlich sowieso nicht, aber vielleicht fällt halt der echte Grund weg).
Der Grund warum ich bei der AT0 so skeptisch bin, liegt genau darin, dass ich die Einschätzung mit den 1000 USD als Obergrenze für AMD Gaming Grafikkarte für eine sehr realistische Einschätzung halte. Die Anzahl der Leute die bereit ist mehr als 1000 USD für eine AMD Gaming Grafikkarte auszugeben ist nicht sehr groß.

Es sind erheblich mehr Gamer bereit für Nvidia Grafikkarteb sehr tief in die Tasche zu greifen. Aber das ist nur die halbe Wahrheit. Nvidia kann die Top Gaming GPU auch in anderen Märkten platzieren, wo Nvidia erheblich höhere Preise erzielen kann und große Stückzahlen absetzen kann.

Diese Option hatte AMD bisher nicht. Alles was ich zu AT0 gehört habe, überzeugt mich nicht wirklich.
stefan92x schrieb:
Gilt das nicht nur, wenn AMD mit den kleinen Dies die großen hätte mit finanzieren müssen? Also wenn wir annehmen, dass die großen kommerziell nicht sinnvoll wären?
Die großen Dies haben eigentlich die höheren Margen. Aber dies trifft nur dann zu, wenn genügend Dies verkauft werden. Mehr Dies zu entwickeln kostet mehr Geld.
Mit zu wenigen Dies des kleinen Anbieter bekommt der große Anbieter der mehr Dies entwickelt die Chance, die SKUs so zu platzieren, dass die eigene Marge optimiert wird und die Marge des kleinen Anbieters gedrückt wird.

stefan92x schrieb:
Auch hier, vielleicht gab es Gründe warum das bei RDNA4 so war, aber die müssen nicht unbedingt auch für RDNA5 gelten.
Es gab wohl nicht nur einen einzigen Grund.

stefan92x schrieb:
Das sehe ich genauso. "UDNA" dürfte vor allem den Prozess beschreiben, dass AMD CDNA und RDNA wieder mehr zusammenführt. Vielleicht soweit, dass sie auch wirklich IP-Blöcke teilen, die aber dann nach wie vor zu unterschiedlichen Chips zusammengebaut werden.

Ach ja über das bin ich heute gestolpert:
https://github.com/llvm/llvm-project/blob/main/mlir/include/mlir/Dialect/LLVMIR/ROCDLOps.td
class ROCDL_WMMA_Scale_F4_IntrOp<string mnemonic, Type AB, Type CD, Type ScaleExpTy> : ROCDL_IntrOp<mnemonic,
[0], [0, 1], [], 1, 0, 0, 0, [2, 4, 5, 7, 8, 10, 11],
["modC", "scaleAType", "fmtScaleA",
"scaleBType", "fmtScaleB", "reuseA", "reuseB"]>,
Arguments<(ins
LLVM_ScalarOrVectorOf<AB>:$a,
LLVM_ScalarOrVectorOf<AB>:$b,
DefaultValuedAttr<I16Attr, "0">:$modC,
LLVM_ScalarOrVectorOf<CD>:$c,
DefaultValuedAttr<I32Attr, "0">:$scaleAType,
DefaultValuedAttr<I32Attr, "0">:$fmtScaleA,
ScaleExpTy:$scaleA,
DefaultValuedAttr<I32Attr, "0">:$scaleBType,
DefaultValuedAttr<I32Attr, "0">:$fmtScaleB,
ScaleExpTy:$scaleB,
DefaultValuedAttr<I1Attr, "0">:$reuseA,
DefaultValuedAttr<I1Attr, "0">:$reuseB)> {
let results = (outs LLVM_ScalarOrVectorOf<CD>:$res);
let assemblyFormat = [{
$a , $b , $c , $scaleA , $scaleB attr-dict : functional-type(operands, $res)
}];
}

// Available from gfx11
def ROCDL_wmma_f32_16x16x16_f16 : ROCDL_WMMA_IntrOp<"wmma.f32.16x16x16.f16", /Type AB=/F16, /Type CD=/F32>;
def ROCDL_wmma_f32_16x16x16_bf16 : ROCDL_WMMA_IntrOp<"wmma.f32.16x16x16.bf16", AnyInteger, F32>;
def ROCDL_wmma_f16_16x16x16_f16 : ROCDL_WMMA_Opsel_IntrOp<"wmma.f16.16x16x16.f16", F16, F16>;
def ROCDL_wmma_bf16_16x16x16_bf16 : ROCDL_WMMA_Opsel_IntrOp<"wmma.bf16.16x16x16.bf16", AnyInteger, AnyInteger>;
def ROCDL_wmma_i32_16x16x16_iu8 : ROCDL_WMMA_IU_IntrOp<"wmma.i32.16x16x16.iu8", AnyInteger, AnyInteger>;
def ROCDL_wmma_i32_16x16x16_iu4 : ROCDL_WMMA_IU_IntrOp<"wmma.i32.16x16x16.iu4", AnyInteger, AnyInteger>;
// Available from gfx12
def ROCDL_wmma_f32_16x16x16_fp8_fp8 : ROCDL_WMMA_IntrOp<"wmma.f32.16x16x16.fp8_fp8", AnyInteger, F32>;
def ROCDL_wmma_f32_16x16x16_fp8_bf8 : ROCDL_WMMA_IntrOp<"wmma.f32.16x16x16.fp8_bf8", AnyInteger, F32>;
def ROCDL_wmma_f32_16x16x16_bf8_bf8 : ROCDL_WMMA_IntrOp<"wmma.f32.16x16x16.bf8_bf8", AnyInteger, F32>;
def ROCDL_wmma_f32_16x16x16_bf8_fp8 : ROCDL_WMMA_IntrOp<"wmma.f32.16x16x16.bf8_fp8", AnyInteger, F32>;
def ROCDL_wmma_i32_16x16x32_iu4 : ROCDL_WMMA_IU_IntrOp<"wmma.i32.16x16x32.iu4", AnyInteger, AnyInteger>;
// Available from gfx1250
def ROCDL_wmma_f32_16x16x4_f32 : ROCDL_WMMA_ModsAll_Reuse_IntrOp<"wmma.f32.16x16x4.f32", F32, F32>;
def ROCDL_wmma_f32_16x16x32_bf16 : ROCDL_WMMA_ModsAll_Reuse_IntrOp<"wmma.f32.16x16x32.bf16", BF16, F32>;
def ROCDL_wmma_f32_16x16x32_f16 : ROCDL_WMMA_ModsAll_Reuse_IntrOp<"wmma.f32.16x16x32.f16", F16, F32>;
def ROCDL_wmma_f16_16x16x32_f16 : ROCDL_WMMA_ModsAll_Reuse_IntrOp<"wmma.f16.16x16x32.f16", F16, F16>;
def ROCDL_wmma_bf16_16x16x32_bf16 : ROCDL_WMMA_ModsAll_Reuse_IntrOp<"wmma.bf16.16x16x32.bf16", BF16, BF16>;
def ROCDL_wmma_bf16f32_16x16x32_bf16 : ROCDL_WMMA_ModsAll_Diff_IntrOp<"wmma.bf16f32.16x16x32.bf16", BF16, /Type C=/F32, /Type D=/BF16>;
def ROCDL_wmma_f32_16x16x64_fp8_fp8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f32.16x16x64.fp8_fp8", AnyInteger, F32>;
def ROCDL_wmma_f32_16x16x64_fp8_bf8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f32.16x16x64.fp8_bf8", AnyInteger, F32>;
def ROCDL_wmma_f32_16x16x64_bf8_fp8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f32.16x16x64.bf8_fp8", AnyInteger, F32>;
def ROCDL_wmma_f32_16x16x64_bf8_bf8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f32.16x16x64.bf8_bf8", AnyInteger, F32>;
def ROCDL_wmma_f16_16x16x64_fp8_fp8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f16.16x16x64.fp8_fp8", AnyInteger, F16>;
def ROCDL_wmma_f16_16x16x64_fp8_bf8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f16.16x16x64.fp8_bf8", AnyInteger, F16>;
def ROCDL_wmma_f16_16x16x64_bf8_fp8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f16.16x16x64.bf8_fp8", AnyInteger, F16>;
def ROCDL_wmma_f16_16x16x64_bf8_bf8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f16.16x16x64.bf8_bf8", AnyInteger, F16>;
def ROCDL_wmma_f32_16x16x128_fp8_fp8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f32.16x16x128.fp8_fp8", AnyInteger, F32>;
def ROCDL_wmma_f32_16x16x128_fp8_bf8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f32.16x16x128.fp8_bf8", AnyInteger, F32>;
def ROCDL_wmma_f32_16x16x128_bf8_fp8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f32.16x16x128.bf8_fp8", AnyInteger, F32>;
def ROCDL_wmma_f32_16x16x128_bf8_bf8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f32.16x16x128.bf8_bf8", AnyInteger, F32>;
def ROCDL_wmma_f16_16x16x128_fp8_fp8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f16.16x16x128.fp8_fp8", AnyInteger, F16>;
def ROCDL_wmma_f16_16x16x128_fp8_bf8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f16.16x16x128.fp8_bf8", AnyInteger, F16>;
def ROCDL_wmma_f16_16x16x128_bf8_fp8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f16.16x16x128.bf8_fp8", AnyInteger, F16>;
def ROCDL_wmma_f16_16x16x128_bf8_bf8 : ROCDL_WMMA_ModsC_IntrOp<"wmma.f16.16x16x128.bf8_bf8", AnyInteger, F16>;
def ROCDL_wmma_i32_16x16x64_iu8 : ROCDL_WMMA_ModsABClamp_IntrOp<"wmma.i32.16x16x64.iu8", AnyInteger, AnyInteger>;

// Scaled wmma intrinsics (available from gfx1250)
def ROCDL_wmma_scale_f32_16x16x128_f8f6f4 : ROCDL_WMMA_Scale_IntrOp<"wmma.scale.f32.16x16x128.f8f6f4", AnyInteger, F32, I32>;
def ROCDL_wmma_scale16_f32_16x16x128_f8f6f4 : ROCDL_WMMA_Scale_IntrOp<"wmma.scale16.f32.16x16x128.f8f6f4", AnyInteger, F32, I64>;
def ROCDL_wmma_scale_f32_32x16x128_f4 : ROCDL_WMMA_Scale_F4_IntrOp<"wmma.scale.f32.32x16x128.f4", AnyInteger, F32, I32>;
def ROCDL_wmma_scale16_f32_32x16x128_f4 : ROCDL_WMMA_Scale_F4_IntrOp<"wmma.scale16.f32.32x16x128.f4", AnyInteger, F32, I64>;
 
  • Gefällt mir
Reaktionen: stefan92x
Das macht doch voll Sinn für AMD.
Die stecken ihre Entwickler in KI-Hardware und verdienen ein Vielfaches der mageren Margen im Gamingbereich.
Auch NVIDIA wird in den nächsten Jahren kaum etwas für Gaming entwickeln.

Erst wenn dieser Hype vorbei ist werden die Firmen sich wieder an die Gamer erinnern.
Bis dahin daddeln wir halt auf der alten Hardware weiter.

Ein Beispiel ist die Veröffentlichung der Strix-Halo APUs.
Viele hier im Forum dachten schon, die wären für sie gedacht - bis sie den Preis gesehen haben.. ;-)
 
dumpfdaddel schrieb:
Das macht doch voll Sinn für AMD.
Die stecken ihre Entwickler in KI-Hardware und verdienen ein Vielfaches der mageren Margen im Gamingbereich.
Es geht hier gar nicht um Hardware für Gamer.

Die APUs für die sich die Gamer interessieren, bekommen kommen RDNA5.

Bei dem was auf RDNA3.5 bleibt kommt es entweder gar nicht auf die 3D Leistung an oder es kommt so oder so eine dGPU dazu.
 
Zurück
Oben