@lynx007 wo hast Du das her?
Ich habe bisher nur News und keine Benchmarks zur AI Pro R9700 gefunden. Deshalb wundert es mich dass diese Quelle bereits solche Ergebnise veröffentlicht. Und dass LLama 3-13B mit Int 4 bei der AI Pro R9700 am Speicher scheitern soll und die RTX3090 nicht, wundert mich erst recht.
Grundsätzlich trifft das was
@Naxtrumrar schreibt ziemlich genau das was ich so im Web mitbekomme. (Mit einer RX5500XT bin ich ein bisschen aus dem Rennen was das selbst probieren angeht).
Nvidia hat 2 Jahrzehnte kontinuierlich in den Softwarestack investiert und hat in dieser Zeit GPU Hardware und Softwarestack Hand in Hand entwickelt. AMD rennt hinterher und hat es zudem schwerer weil die Hardware nicht mit der Software im Fokus entwickelt wurde.
Wer problemlos out of der Box will nimmt Nvidia. AMD benötigt mehr Arbeit bis es läuft. Aber auch das besser sich zu stetig. Was sich eben bei den alten Karten nicht mehr bessert, ist, dass sich AMD was AI angeht mit RDNA verzockt hat.
lynx007 schrieb:
aber auch die Tensor Cores? Oder spielt Tensor praktisch nur in Datacenter eine Rolle?
Von der Hardware her war RDNA was AI und GPGPU anbelangt ein deutlicher Rückschritt. Das ist die direkte Folge aus dem Umstand dass RDNA die Hardware bei Games besser ausnützt und AMD nur kleine GPUs gemacht hat. Auch RDNA2 war was die Rohleistung anbelangt nichts besonderes. Und das sieht man auch an allen Benchmarks bei denen es auf Rechenleistung und nicht auf Gaming-Leistung ankommt: RDNA2 liegt deutlich zurück.
Witzigerweise sieht RDNA3, das bei der Gamingleistung ziemlich enttäuscht, dank Dual Issue bei GPGPU und AI erheblich besser als RDNA2 aus. Solange die Software keine Algorithmen verwendet die aus Tensor bzw. Matrixberechnungen beruht sieht RDNA3 auch gegenüber Nvidia nicht schlecht aus. Sobald aber die Software die Tensorcores bei Nvidia ausnutzen kann, sieht RDNA3 kein Land mehr. Die WMMA-Befehle von RDNA3 sind eben adäquater kein Ersatz.
Und dann kommt eben noch die leidige Geschichte mit der Software hinzu. Das besser sich momentan merklich, aber es ist eben noch nicht mit Nvidia vergleichbar.
Aber noch Mal zur Erinnerung:
https://www.computerbase.de/artikel...cyon_ai_image_generation_mit_stable_diffusion
Zusaätzlich ganz zufällig (War in meinen Twitter Booksmark die ich gerade durchgehe) ein Post mit Zahlen zur 9070XT von Anfang April
https://x.com/hjc4869/status/1908764670229626967
Performance/efficiency of 9070XT currently running llama.cpp as shown (with FA turned on and kvcache quantization using q8_0)
RDNA4 is not yet officially supported by ROCm, so we need the dev branch rocWMMA/hipBLASLt and modify llama.cpp.
You can see that although the overall efficiency has improved significantly compared to RDNA3, there is still room for improvement. Considering that the performance of hipBLASLt is not so good in the current test alone, we need to have a high emotional intelligence here: the future is promising!
Translated with DeepL.com (free version)
RTX6000 Ada ist der Vollausbau von AD102 mit 142 SM (18176 Shading Units) und 48 GB.
Die RTX3090 ist ein bisschen kleiner 82 SM (10496 Shading Units) und 24 GB.