Bericht AMD Polaris: So viel Leistung bringt die 4. Generation GCN

Krautmaster · 15. August 2016

EchoeZ schrieb:
Wenn Effizenzverbesserungen durch alles andere ausser den Shadern verursacht wird, finde ich das schon wissenswert.
Gerde wo hier so schön die einheitlichen Taktraten usw gewählt wurden, macht es das noch aussagekräftiger als die Leistungsaufnahme bei den üblichen Kartentests.)

zeedy schrieb:
Warum ein Verbrauchsvergleich fehlt, verstehe ich allerdings auch nicht. Gerade weil alle GPUs taktnormiert miteinander verglichen wurden, wäre das interessant gewesen.

das kann man aber nur bei Tonga und Tahiti anstellen, die 14nm kann man ja schlecht über die Effizienz vergleichen. Der Fertigungswechsel haut da ja viel mehr rein als irgendwelche Änderungen am Design.

Laut Folie sinds 4th Gen GCN CUs

klar, AMD spricht von Gen 4. Siehe meine Polaris Folie oben. Der Aufbau der eigentlichen Compute Unit im Ganzen ist aber quasi identisch. Da die Leistung über die Shader bei niedriger Tessellationsanforderung quasi gleich ist kann man schon von ausgehen dass die einzelne CU egal ob Gen 1 oder Gen 4 quasi identisch ist und die Mehrleistung an anderer Stelle generiert wird. Da schreib ja nicht nur ich, sondern auch CB. Flaschenhalt der ausgemerzt wurde ist in erster Linie die Tessellationsleistung.

Edit: Es ist ja nur begrüßenswert wenn AMD möglichst bei gleicher CU Anzahl über Anpassungen im Frontend und "drumrum" die Leistung erhöhen kann.

CB hätte noch gut daran getan zb Transistorzahl und weitere Specs in die Tabelle zu packen.

ca. 4,31 Mrd. -> ca. 5,0 Mrd. -> ca. 5,7 Mrd. (davon aber ein paar Mio deaktiviert da cut bei der RX 470)

EchoeZ · 15. August 2016

Unnu schrieb:
Sicher?
Ausserdem gäbe es mehr CUs (40?) anstatt derer 36 und mehr Bandbreite hilft auch noch. (Ich glaube AMD immer noch nicht so ganz, dass diese 36CUs der Vollausbau sein sollen!)
.

Da hat schon jemand von 3DCenter den DIE abgeschliffen..
http://www.pcgameshardware.de/AMD-P.../Radeon-RX-480-Polaris-10-Vollausbau-1200391/
Es sind 36!

incurable · 15. August 2016

Unnu schrieb:
Ausserdem gäbe es mehr CUs (40?) anstatt derer 36 und mehr Bandbreite hilft auch noch. (Ich glaube AMD immer noch nicht so ganz, dass diese 36CUs der Vollausbau sein sollen!)

Es gibt mittlerweile entsprechende Aufnahmen, die die 36er Konfiguration bestätigen.

THX für den Link @EchoeZ

Nitschi66 · 15. August 2016

Eine fehlende Übertaktung des Speichers liegt aber auch vllt am verwendeten Treiber. Im Test zur RX460 schreibt computerbase...

Die Polaris-11-GPU auf der Gigabyte Radeon RX 460 WindForce OC lässt sich um 87 MHz auf 1.299 MHz übertakten. Der GDDR5-Speicher lässt 100 weitere Megahertz und damit 3.600 MHz zu. Mehr lässt der Treiber nicht zu, was laut AMD ein Bug sein soll. Dieser gilt seit dem Crimson 16.7.3 übrigens für sämtliche Polaris-Grafikkarten.

Also sollen sie den Speicher um 100MHz übertakten? Das sind keine 3%... Und die Ergebnisse dadurch werden dann durch messungenauigkeiten total irrelevant

EchoeZ · 15. August 2016

Krautmaster schrieb:
das kann man aber nur bei Tonga und Tahiti anstellen, die 14nm kann man ja schlecht über die Effizienz vergleichen. Der Fertigungswechsel haut da ja viel mehr rein als irgendwelche Änderungen am Design.

Edit: Es ist ja nur begrüßenswert wenn AMD möglichst bei gleicher CU Anzahl über Anpassungen im Frontend und "drumrum" die Leistung erhöhen kann.

Naja, ob 14 oder 28nm ist mir ebenso egal. Können wir uns darauf einigen, daß eine Grafik mit 3 Leistungsaufnahmebalken bei diesem Test nicht komplett überflüssig gewesen wären?

Krautmaster · 15. August 2016

hehe ja, ich meine aber dass es diese Untersuchung bei Tonga auch schon mal gab. Genau wie bei der Maxwell GTX 750 TI wurde da die Effizienz zum Vorgänger untersucht.
Maxwell ist da total der Ausreißer da eben innerhalb der Fertigung ein mega Gain erzielt wurde.

Das hat die Jungs von Anandtech ja auch beschäftigt und deswegen finde ich deren neuen Artikel auch wirklich interessant.
Im Orginal verweisen sie ja hierauf:

http://www.realworldtech.com/tile-based-rasterization-nvidia-gpus/
http://www.anandtech.com/show/10536/nvidia-maxwell-tile-rasterization-analysis

Nvidia hat ja hier das Rendering grundlegend geändert ohne es zu kommunizieren.

As someone who analyzes GPUs for a living, one of the more vexing things in my life has been NVIDIA’s Maxwell architecture. The company’s 28nm refresh offered a huge performance-per-watt increase for only a modest die size increase, essentially allowing NVIDIA to offer a full generation’s performance improvement without a corresponding manufacturing improvement. We’ve had architectural updates on the same node before, but never anything quite like Maxwell.

Finally, at this point in time Real World Tech believes that NVIDIA is the only PC GPU manufacturer to use tile based rasterization, which also helps to explain some of NVIDIA’s current advantages over Intel’s and AMD’s GPU architectures, and gives us an idea of what we may see them do in the future.

Wenn AMD hier hier wie Nvidia bei Maxwell mal eben >30% an Effizienz rausschlagen könnte wäre das schon mal ne Ansage.

Nitschi66 · 15. August 2016

Wäre super geil^^ AMD wird wahrscheinlich auch schon seit etwas längerer Zeit wissen, weshalb Nvidia plötzlich so einen Performance/watt gain hinbekommen hat. Nun ist die Frage, wie lange AMD dafür braucht, das auch zu implementieren. Nvidia hatte ja immerhin das know-how von 3dfx, die das schon einmal gemacht haben.
Es ist auch die frage, ob AMD das überhaupt machen will oder nicht ihre (eher begrenzte) Manpower in HBM stecken. Ich hoffe es ja nicht. denn auch HBM wird irgendwann an seine/ihre grenzen stoßen.

Mome · 15. August 2016

Sehr interessanter Test.
Mich hätte noch interessiert, wie Tahiti mit normalem Speichertakt abgeschnitten hätte

Ansonsten finde ich das alles irgendwie enttäuschend was die aktuellen Karten da liefern, und das in den letzten vier Jahren keine größere Steigerung erreicht wurde.

C.J. · 15. August 2016

Die Leistungsaufnahme zu testen macht für mich wenig Sinn in dieser Konfiguration. Es sollte bekannt sein, dass sich unterschiedliche Chips unterschiedlich hoch takten lassen und je näher man dieser Grenze kommt, desto ineffizienter wird der Chip, weil man die Spannung unverhältnismäßig stark erhöhen muss (Verbrauch steigt linear mit Takt und quadratisch mit der Spannung). Die 380 wurde für den Test z.B. um 7% übertaktet, wofür sie vielleicht sogar mehr Spannung als beim Defaulttakt braucht. Die 470 kann man für läppische 1040Mhz wahrscheinlich stark undervolten, sodass sie im Vergleich super aussehen würde, aber sobald man den Takt in übliche P10-Gefilde anhebt, ist die Effizienz plötzlich weg. Dazu kommt auch noch, dass man die GPU getrennt messen müsste, weil der Stromverbrauch des Speichers sonst alles verfälscht. Gerade die 280X mit 12 statt 8 Speicherchips hätte da sicherlich große Nachteile.

Ansonsten hätte mich bei dem Test eine Sache noch interessiert: Wie gut die Chips mit mehr Speicherbandbreite skalieren. Man hat die Chips auf gleiche Flops/s und GB/s gebracht, um eine Vergleichbarkeit zu gewährleisten und die Ergebnisse sind durchaus interessant. Allerdings berücksichtigt man imho nicht, dass z.B. die 280 keine Kompression besitzt und durch den aus ihrer Sicht untertakteten Speicher womöglich stark eingebremst wird. Was würde passieren, wenn man allen Chips 20% mehr Bandbreite zur Verfügung stellt? Bei der 280 leicht machbar, die 380/470 benötigen dafür 8,1Ghz Speichertakt, was die 380 nicht mitmachen wird. Man könnte stattdessen den Chiptakt reduzieren (z.B. auf 800Mhz) um den selben Effekt zu erzielen. Meine Vermutung: Die 280 holt auf die 380 auf, weil letztere nicht an sich so viel schneller ist, sondern einfach effizienter mit der Bandbreite umgeht und die 280 in dem Test gerade daran verhungert (GPU +4% Takt, Speicher -30% Takt!).

Tomsenq · 15. August 2016

Cooler Test. Das selbe würde mich auch für die Nvidia 10x0 interessieren. Ist da was geplant?

Holzkopf · 15. August 2016

Sowas von unverständlich das keine der Custom-Design übertakteten VRAM hat...
Alleine bei den OC test der Ref-Design zeigte sich schon wie gut die 480 mit VRAM-OC geht.

OZZHI · 15. August 2016

Tomsenq schrieb:
Cooler Test. Das selbe würde mich auch für die Nvidia 10x0 interessieren. Ist da was geplant?

Bei Nvidia ist ein Vergleich ungemein schwerer, weil man keine gemeinsame Basis hat^^ AMD hat sich praktisch Shadermässig gar nicht weiterentwickelt.

tic-tac-toe-x-o · 15. August 2016

Krautmaster schrieb:
Ansonsten scheint so ne GPU Entwicklung heute eher Copy Paste zu sein

Der Unterbau von Pascal ist die G80 so viel ich weiss... Das sagt schon alles über die GPU Entwicklungen.

Volta soll ja angeblich komplett neu werden.

zeedy · 15. August 2016

Nitschi66 schrieb:
Also sollen sie den Speicher um 100MHz übertakten? Das sind keine 3%... Und die Ergebnisse dadurch werden dann durch messungenauigkeiten total irrelevant

Ist die Speicherübertaktung etwa auch im MSI AB genauso begrenzt?

Übrigens guckt euch mal den Test der 3 RX 470 an. Die Powercolor ist genauso schnell wie die Sapphire, obwohl deren Speicher 250 MHz höher getaktet ist. Spricht nicht unbedingt für eine ach so schlimme Bandbreitenlimitierung.

ODST schrieb:
Bei Nvidia ist ein Vergleich ungemein schwerer, weil man keine gemeinsame Basis hat^^ AMD hat sich praktisch Shadermässig gar nicht weiterentwickelt.

Wobei Pascal ja im Grunde leicht updatetes Maxwell in 16 nm ist. Die Leistungssteigerung wird eigentlich nur nur den viel höheren Takt erzielt. Ein Vergleich @ 1400 MHz oder so wäre vielleicht dennoch interessant.

faraday · 15. August 2016

Ich kenn mich in diesem Metier leider nicht so gut aus. Kann man die Bandbreite durch treiberseitige Verbesserungen der Kompression erhöhen?

btw: Es ist schon krass, wieviel Technologie da auf so einen kleinen Chip zusammenkommt. 14nm Transistoren! Das kann man sich gar nicht mehr vorstellen. Das ist 200x kleiner als die Wellenlänge von sichtbarem Licht! Ich finde die zuvor geposteten Bilder schon echt faszinierend.

GhostDMonkey · 15. August 2016

Wow was für ein super Test. Vielen Dank CB

Jetzt wäre noch ein Test mit Nvidia Karten Maxwell vs. Pascal interessant. Denn ich glaube dort wird es sogar noch weniger Prozente sein.

C.J. · 15. August 2016

faraday schrieb:
Ich kenn mich in diesem Metier leider nicht so gut aus. Kann man die Bandbreite durch treiberseitige Verbesserungen der Kompression erhöhen?

Unwahrscheinlich. Ich würde davon ausgehen, dass die Kompression in Hardware gemacht wird, damit es schnell und mit geringer Latenz geht. Wenn sie programmierbar wäre, müsste man ja wieder Rechenleistung dafür einsetzen, was am Ende eher Leistung kostet als einbringt.

ichkriegediekri · 15. August 2016

Das erklätr dann auch warum bei den RX480 Overclocks oft der Leistungszugewinn geringer ausfiel als es der Anstieg der Taktrate zu vermuten liess, naja HBM2 sollter das Problem mit der Bandbreite dann ja lösen können wobei AMD ja den GDDR5 auch in WattMan höhere Werte gestatten könnte.....

Nitschi66 · 15. August 2016

Holzkopf schrieb:
Sowas von unverständlich das keine der Custom-Design übertakteten VRAM hat...
Alleine bei den OC test der Ref-Design zeigte sich schon wie gut die 480 mit VRAM-OC geht.

So ein quatsch was du da erzählst...
https://www.computerbase.de/2016-06/radeon-rx-480-test/9/#abschnitt_uebertaktbarkeit
ein um 500MHz übertakteter VRAM ergaben ganze 3% Mehrleistung in den drei getesteten spielen...

zeedy · 15. August 2016

Was bei der ganzen Kompressionsgeschichte ganz wichtig ist, ob das manchmal zulasten der Bildqualität geht. Ich hoffe mal, dass die Redakteure immer darauf achten.

Bericht AMD Polaris: So viel Leistung bringt die 4. Generation GCN

Fleet Admiral

Commander

Captain

Kreisklassenmeister

Commander

Fleet Admiral

Kreisklassenmeister

Cadet 3rd Year

Lieutenant

Commander

Lieutenant

Vice Admiral

Commander

Captain

Lt. Junior Grade

Lieutenant

Lieutenant

Ensign

Kreisklassenmeister

Captain

Ähnliche Themen