News Micron GDDR5X: Start der Massenfertigung rechtzeitig zur GTX 1080

strex · 12. Mai 2016

DrToxic schrieb:
Ja, das ist aber ganz bestimmt nicht neu, das hatte Maxwell nämlich auch schon. Oder kommt jetzt bei Pascal auf einmal die "Wunderkompression", die satte 50% besser komprimiert?

Wenn es im Schnitt wieder nur 25% sind wie bei der vorherigen Generation, kompensiert es doch wieder einen großen Teil. Dann wird die Diskussion schon weiter sinnloser. Das solche Schritt möglich sind haben wir bei Maxwell gesehen.

DrToxic schrieb:
Wenn die Founder's Edition der 1080 jetzt (im Vergleich zur 980Ti) trotz fast 50% mehr Rohleistung wirklich 5% weniger Bandbreite hat und ein paar Wochen später dann neue GTX 1080 mit verbessertem GDDR5X Speicher kommen (16GBit/s statt 10GBit/s), wär das einfach zu geil

Die 16Gbit/s wird man wohl nicht so schnell sehen. Somit wird auch keine neue Revision aufgelegt. Wäre ja auch doofes Produktmanagement, denn dann kann man sie schön 1180 nennen und wieder eine neue verkaufen.

Necareor · 12. Mai 2016

Jepp, denke auch, dass das genau so jetzt durchgemolken wird.

Die 1080 kommt mit 10GB/s GDDR5X.
Die 1070 kommt mit GDDR5.

Die 1180 kommt mit 12GB/s GDDR5X.
Die 1170 kommt mit 10GB/s GDDR5X.

Die 1280 kommt mit 16GB/s GDDR5X.
Die 1270 kommt mit 12GB/s GDDR5X.

So kann man das günstige und sparsame 256bit Interface weiterhin behalten. HBM2 wird dann den Ti's und Titanen dieser Welt vorbehalten bleiben.

noxon · 12. Mai 2016

EXTREM schrieb:
Nur weil ein Speichercontroller mit 4096 Bit Struktur verbaut ist, bedeutet das nicht das Pakete nicht kleiner sein dürfen. Das ganze hier jetzt auszuführen oder zu erläutern würde den Beitrag sprengen, ich kann dir dazu aber gerne im Netz ein paar Facharbeiten raussuchen wenn du möchtest.

Das wäre nett. Meine ich jetzt im Ernst.

Und vergleich das ganze bitte nicht mehr mit der Struktur von Festplatten oder Netzwerken das ist eine ganz andere Welt und baut nicht auf das selbe System auf.

Du hast Recht das meine Beispiele nicht alle direkt miteinander vergleichbar sind. Ich wollte nur deutlich machen, dass in allen Bereichen der Datenverarbeitung immer mit gewissen Blockgrößen gearbeitet wird und welche Auswirkungen das auf die Performance haben kann.

Letztendlich kannst du aber mit einem 8 Bit Adressbus keine 4 Bit auslesen, bzw dich nur auf 4 Bit beschränken. Du musst entweder alle 8 lesen oder gar keine. Halbe Busbreiten gehen nicht und das Gleiche gilt doch hier wohl auch für den VRam oder meinst du nicht?
Das Ganze ist ohnehin deutlich komplzierter da ja nicht nur der Adressbus eine Rolle spielt sondern auch die Speicherarchitektur und den Controller. Letztendlich sind das aber auch nur wild aus der Luft gegriffene Beispiele die nur klar machen sollen, dass die Theorie nichts mit der Praxis zu tun hat. Ich sage nicht, dass die realistisch sind.

Nai · 12. Mai 2016

@ Noxon
GDDR5 und HBM haben 32 Byte Pakete. Nur GDDR5x hat afaik 64 byte Pakete.

meckswell · 12. Mai 2016

1180 können siei sie nur wegen etwas schnellerem Speicher nicht nennen, aber so ein Zwischenschritt, der wär denkbar. Sie wird 1085 heißen, GDDR5X mit 16GB/s haben und sie wird anno´16 bereits unter den Weihnachtsbäumen liegen ... abwarten.

EchoeZ · 12. Mai 2016

Faust2011 schrieb:
Ich hatte ein ähnliches Ergebnis für meine R9 290 - Speicher-OC bringt nichts, Core-OC jedoch ordentlich viel, siehe hier.

Faust2011
Hast Du mal getestet, ob der Speicher besser skaliert wenn die GPU übertaktet ist?
NUR den Speicher übertakten bringt nichts, es sei denn er drosselt schon bei GPU Basistakt und das ergibt keinen Sinn.

Necareor · 13. Mai 2016

@meckswell:
Ich bin bei meiner Aufstellung schon davon ausgegangen, dass sich da auch GPU-seitig etwas ändert. Ich wollte nur die möglichen Speicherbestückung der nächsten Generationen aufzeigen. Ich meinte nicht, dass da lediglich der Speicher geändert wird, und mehr kann die neue Generation nicht.

noxon · 13. Mai 2016

Nai schrieb:
@ Noxon
GDDR5 und HBM haben 32 Byte Pakete. Nur GDDR5x hat afaik 64 byte Pakete.

Quelle?
Es kann gut sein, dass es 32 byte Pakete sind, aber dann werden unter Umständen auch 128 Pakete pro Takt über den Bus geschoben. Das sagt rein gar nichts aus. Ich würde wirklich gern zu dem Thema wissen. Leider finde ich im Netz auch nichts genaueres.

Nai · 14. Mai 2016

Wegen quelle hier zum Beispiel unter "Data per Memory Access":
http://scr3.golem.de/screenshots/1510/Micron-GDDR5X/thumb620/2015-10-22_153226_cr.png

Wegen einer Erklärung (ich hoffe das ist in etwa das was du wissen willst) anhand von GDDR5 als Beispiel: Ein GDDR5 Interface besteht aus mehreren Kanälen. Jeder Kanal besitzt einen oder mehrere eigenständige Speicherchips, ??? eigenständige Addressleitungen und 32 eigenständige Datenleitungen zwischen den Chips und der GPU - somit hat eine GPU mit einem 256 bit Interface 8 Speicherkanäle. Die Kanäle arbeiten parallel und die GPU kann die Kanäle komplett unabhängig voneinander ansteuern, zum Beispiel kann sie mit einem Kanal an Speicherstelle A lesen, während sie im anderen Kanal an Speicherstelle B schreibt. Die Speicherzellen in einem GDDR5 Chip sind zu 32 Byte große Blöcken (heißt das so bei DRAM oder gibts da einen besseren begriff?) gruppiert. Bei einem GDDR5 Speicherzugriff kann die GPU nur komplette Blöcke über den Kanal anfordern und keine einzelne Speicherzellen. Für einen solchen Speicherzugriff muss die GPU zunächst die physikalische Addresse des Blocks innerhalb des Kanals (also den entsprechenden Chip, sowie die Bank, die Column und die Row innerhalb des Chips) über die Adressleitungen auswählen. Dieser Block wird dann über die 32 Datenleitungen übertragen. Da jede der 32 Datenleitung pro "Datentakt" nur ein einziges Bit übertragen kann benötigt der Speicherchip insgesamt 4 Datentakte um den kompletten Block über den Kanal zu übertragen, dh GDDR5 besitzt einen Prefetch von 4.

Faust2011 · 14. Mai 2016

Nai schrieb:
[... lange Erklärung zum Datenzugriff bei GDDR5X ...]

Hallo Nai,

auf was wolltest Du eigentlich genau hinaus mit Deiner Erklärung? Ging es dabei auch um die Peak-Performance? Du nennst alles Wichtige, angefangen von Row/Column-Access, Datenblöcke (als kleinste Granularität) beim Zugriff und auch den Prefetch. Kurze Frage von mir dazu: Für das sequentielle Lesen von Daten haben klassische DRAM-Chips weitergehende Verfahren wie Burst-Mode und ähnliches (oder gaaaanz früher das EDO-DRAM). Hat man das bei VRAM ebenfalls oder ist das eher überflüssig, da man gar keine Anwendungsfälle hat, die so etwas benötigen, da die Zugriffe doch immer eher chaotisch sind?

Nai · 14. Mai 2016

Ich wollte das allgemein Noxon erklären, wie Speicherzugriffe abgearbeitet werden, da er diese gewünscht hat. Und zum Burst mode: Beschreiben Burst und Prefetch nicht die selbe Technik nur aus einem anderen Gesichtspunkt aus? (Prefetching das interne Laden im DRAM, Burst die Übertragung über das Speicherinterface)

Faust2011 · 14. Mai 2016

Ich war mit meinem Gedanken des Bursts falsch gelegen (war zu früh heute morgen - und meine letzte Technische Informatik Vorlesung liegt mehr als 15 Jahre zurück

). Burst dient nicht, die Datenrate zu erhöhen, sondern man spart sich das komplette Neuanlegen der Adresse per RAS/CAS. Es ist letztlich nur eine Optimierung, wenn (viele) Daten sequentiell gelesen werden sollen. Letztlich errreicht man dadurch, dass die Datenrate nicht einbricht.

Ergänzung (14. Mai 2016)

EchoeZ schrieb:
Faust2011
Hast Du mal getestet, ob der Speicher besser skaliert wenn die GPU übertaktet ist?
NUR den Speicher übertakten bringt nichts, es sei denn er drosselt schon bei GPU Basistakt und das ergibt keinen Sinn.

Hab heute morgen extra für Dich ein paar Benchmarkläufe gemacht und hier dokumentiert.

DrToxic · 16. Mai 2016

strex schrieb:
Wenn es im Schnitt wieder nur 25% sind wie bei der vorherigen Generation, kompensiert es doch wieder einen großen Teil.

Die Kompression hat sich gegenüber Maxwell angeblich um bis 20% erhöht (laut nvidia..). Damit hätte die GTX1080 rein rechnerisch bis zu 320GB/s * 1.2 = 384GB/s Speicherbandbreite effektiv, wenn die 20% stimmen.

Gegenüber der 980Ti wurde die Speicherbandbreite (maximal +14%) im Verhältnis zur Rohleistung (+50%) also um ca. 24% reduziert, knapp ein Viertel - und da wurde noch nichts übertaktet.

Suche

News Micron GDDR5X: Start der Massenfertigung rechtzeitig zur GTX 1080

strex

Lt. Commander

Necareor

Admiral

noxon

Admiral

Nai

Lt. Commander

meckswell

Gast

EchoeZ

Commander

Necareor

Admiral

noxon

Admiral

Nai

Lt. Commander

Faust2011

HTTP 418 - I'm a teapot

Nai

Lt. Commander

Faust2011

HTTP 418 - I'm a teapot

DrToxic

Rear Admiral

Ähnliche Themen