News AMD: „Excavator“-Kerne mit „Carrizo“ schon im Dezember

Hallo32 schrieb:
Die Daten aus den globalen/shared Ram/Cache müssen jeweils in den ALU Registern der CPU/GPU kopiert werden und nach der Berechnung zurück.
Es ist wirklich mühselig jedesmal,bei Adam und Eva anzufangen. Lies dich mal in hUMA und Zerocopy ein. Was du beschreibst findet in HSA Systemen so nicht statt, da lediglich Pointer von CPU und GPU übergeben werden.
 
@Daedal

Er braucht sich nicht in hUMA und Zerocopy einlesen, was er schreibt ist korrekt und trivial. Offensichtlich verstehst du nicht, was er schreibt, obwohl er sich sehr verständlich und eindeutig ausdrückt (und was ich geschrieben habe besagt genau das gleiche).

@Krautmaster

Bereits Haswell bietet schon "Zero-Copy" für die bessere Integration der GPU.
 
Krautmaster schrieb:
klar is aber auch, dass es bei der Konkurrenz (Nvidia / Intel) was ähnliches geben wird oder schon gibt. Nur unter anderem Namen.

Das bestreitet doch niemand ^^ Klar bei NV und auch Intel gibt es für einige Dinge sogar eigene Namen zum Beispiel für das Zero Copy.
Das ist aber auch wieder ein Zeichen, dass AMD mit dem Kauf von ATI damals vllt doch nichts falsch gemacht hat. Man muss einfach abwarten wie sich das alles weiterentwickelt.

Nur was der hUMA ect angeht, ist AMD nun mal weiter. NV-Link und virtuell memory wird es bei NV zum Beispiel erst 2016 geben.

calluna
Nein das mit den Latenzen kann ich nicht beantworten, vllt deshalb, weil es noch keine Auskunft von seiten AMD gibt. (was noch irgendwie in die Richtunggeht ist das hier)
Aber es wird schon einen Grund haben, wieso AMD HSA auch in GPUs integriert.
Weiters schaut euch doch NV-Link an. Vllt auch nur Marketing ?

http://www.anandtech.com/show/7900/nvidia-updates-gpu-roadmap-unveils-pascal-architecture-for-2016
NVLink_575px.jpg

nvlink_quad_575px.png

NVLink, in a nutshell, is NVIDIA’s effort to supplant PCI-Express with a faster interconnect bus. From the perspective of NVIDIA, who is looking at what it would take to allow compute workloads to better scale across multiple GPUs, the 16GB/sec made available by PCI-Express 3.0 is hardly adequate

Also, wer weiß ob AMD und NV sogar nicht zusammen an einem neuen BUS arbeiten, dann hat sich die Fragen von euch auch mehr oder weniger erledigt. Aber nicht nur AMD hat daran zu arbeiten, sondern auch NV.
 
Zuletzt bearbeitet:
NVLink erfordert eine entsprechende CPU. Wir müssen hier immer zwischen Mainstream und HPC / Server unterscheiden.

Auf jeden Fall gibt es aus technischer Sicht einige interessante Entwicklungen. Ich persönlich glaube, dass es sich langfristig um Zwischenlösungen handelt und es irgendwann wieder hin zu "homogen Architekturen" tendiert.
Denn die bisherige Architektur der GPUs ist vor allem durch das vorherrschende Konzept der 3D Computergrafik bestimmt, was sich ab dem Punkt erledigt, wenn die Prozessoren leistungsfähig genug sind das ganze in Software zu berechnen (wie z.B. Bei Larabee) und ansonsten auf andere Verfahren wie Raytracing gesetzt werden kann.
 
Zuletzt bearbeitet:
Krautmaster schrieb:
klar is aber auch, dass es bei der Konkurrenz (Nvidia / Intel) was ähnliches geben wird oder schon gibt. Nur unter anderem Namen.
Na und? Sie sind zwar hinterher, doch je schneller Intel und Nvidia diese Technik adaptieren desto besser für alle.
calluna schrieb:
@Daedal

Er braucht sich nicht in hUMA und Zerocopy einlesen, was er schreibt ist korrekt und trivial. Offensichtlich verstehst du nicht, was er schreibt, obwohl er sich sehr verständlich und eindeutig ausdrückt (und was ich geschrieben habe besagt genau das gleiche).
Ja es ist trivial wenn man HSA einfach ignoriert. Es stimmt eben nicht was er geschrieben hat.
http://en.wikipedia.org/wiki/Zero-copy
A newer approach used by the Heterogeneous System Architecture (HSA) facilitates the passing of pointers between the CPU and the GPU and also other processors. This requires a unified address space for the CPU and the GPU.[2][3]
http://www.anandtech.com/show/5493/...ed-memory-for-cpugpu-in-2013-hsa-gpus-in-2014
In 2014 AMD plans to deliver HSA compatible GPUs that allow for true heterogeneous computing where workloads will run, seamlessly, on both CPUs and GPUs in parallel. The latter is something we've been waiting on for years now but AMD seems committed to delivering it in a major way in just two years.
Schon Llano hatte hier erste Einsparungen gehabt an Bandbreite:
http://developer.amd.com/community/...nsfers-exceed-15gbs-using-apu-zero-copy-path/
For maximum performance transfers from CPU to GPU, you can create a memory buffer using the clCreateBuffer command with the flags CL_MEM_ALLOC_HOST_PTR | CL_MEM_READ_ONLY. This buffer will be created in host accessible GPU memory and provides a true zero copy path for transferring data between CPU and GPU. As host accessible memory, this buffer may be mapped to the host CPU and then written to efficiently. To make this buffer accessible by the host CPU use the clMapBuffer command to map the buffer into host memory; control over the memory buffer is transferred logically between the devices. The CPU may now write directly to this buffer, and when done, return its contents to the GPU using the clEnqueueUnmapMemObject command. Now, when the GPU accesses this buffer, as initiated by a clEnqueueNDRangeKernel command, it is read directly by the GPU. In this way data is transferred between the CPU and the GPU substantially faster than is possible to a discrete GPU over a PCIe bus; using multiple CPU cores, transfer rates of over 15 GB/s1 have been achieved for mid-range AMD A-Series platforms. When the GPU no longer needs the buffer, it may be returned to the CPU using the clEnqueueMapBuffer command, so that additional input data can be provided to the GPU.
Hier konnte lediglich die CPU im GPU Speicher arbeiten. Ähnlich wie Sandy Bridge den GPU Buffer im L3 Cache zur Verfügung stellt. Dies hat sich nach zwei weiteren Revisionen und der Einführung von hUMA ausgeweitet. Der nächste Schritt ist die Einführung von hUMA und hQ auf diskreten GPUs. Die ersten Schritte sind getan mit dem eliminieren von Crossfirebrücken. Die direkte Kommunikation über PCIe und Vereinheitlichung der Speicherzugriffe für verschiedene Recheneinheiten ist ja eine alte Technik aus dem Serversegment. Dort gibt es NUMA und UMA Konfigurationen die auf schnellen Point-to-Point Verbindungen aufbaut (HT und QP-Link) zwischen den Recheneinheiten. Die aktuelle PCIe Version 3.0 hat nun die Voraussetzungen geschaffen das selbe leisten zu können. Dazu gehören unter anderem 20% weniger Overhead durch den Wechsel von 8bit10bit Codierung zu 128bit130bit Codierung und höhere Transferraten.

http://developer.amd.com/community/...-opencl-and-heterogeneous-compute-in-general/
HSA provides key benefits to your existing OpenCL applications without the need to re-write any code. A uniform address space makes buffer transfer between the CPU and GPU a NOP, even less overhead than zero copy on AMD’s current generation of APUs, and user mode queues enable kernels and buffers etc. to be more efficiently queued and “transferred” to/from the GPU. These benefits are delivered through the more efficient OpenCL runtime implementation that HSA enables.

But what’s really exciting about HSA is what it offers for the future of heterogeneous compute. HSA provides a basis for the coherent sharing of arbitrary data structures between the CPU and the GPU (or other accelerator) – both the CPU and the GPU can manipulate the data structure concurrently and the data structure can include pointers allowing its structure to change dynamically. The CPU and GPU work together just like two CPUs do in current multi-core devices, there is no longer a need to transfer any data. Furthermore, HSA elevates the GPU to the status of a work creator rather than merely being just a worker. With HSA the GPU can create additional work for itself or for other HSA devices as an outcome of the work that it is currently performing. This is very valuable for applications such as ray tracing where it is not possible to pre-determine all of the work needed.
Vielleicht kapieren es ja einige mal.


LESEN!!!
http://de.slideshare.net/hsafoundat...ture-hsa-architecture-and-algorithms-tutorial

isca-2014-heterogeneous-system-architecture-hsa-architecture-and-algorithms-tutorial-185-1024.jpg

isca-2014-heterogeneous-system-architecture-hsa-architecture-and-algorithms-tutorial-187-638.jpg

isca-2014-heterogeneous-system-architecture-hsa-architecture-and-algorithms-tutorial-190-638.jpg
Hier bitte beachten, dass dies Verschiedene physikalische Speicher sind. Das kann eine Kombination von HBM und DDR sein oder eben GDDR5 das über PCIe angebunden ist.
isca-2014-heterogeneous-system-architecture-hsa-architecture-and-algorithms-tutorial-191-638.jpg

isca-2014-heterogeneous-system-architecture-hsa-architecture-and-algorithms-tutorial-192-638.jpg

isca-2014-heterogeneous-system-architecture-hsa-architecture-and-algorithms-tutorial-193-638.jpg

isca-2014-heterogeneous-system-architecture-hsa-architecture-and-algorithms-tutorial-196-638.jpg

isca-2014-heterogeneous-system-architecture-hsa-architecture-and-algorithms-tutorial-198-638.jpg

isca-2014-heterogeneous-system-architecture-hsa-architecture-and-algorithms-tutorial-201-638.jpg

isca-2014-heterogeneous-system-architecture-hsa-architecture-and-algorithms-tutorial-203-638.jpg

isca-2014-heterogeneous-system-architecture-hsa-architecture-and-algorithms-tutorial-207-638.jpg

isca-2014-heterogeneous-system-architecture-hsa-architecture-and-algorithms-tutorial-208-638.jpg

isca-2014-heterogeneous-system-architecture-hsa-architecture-and-algorithms-tutorial-240-638.jpg



Noch detaillierter in den dort folgenden Folien. Dieser Abschnitt beginnt bei Folie 185.
Ergänzung ()

Übrigens sind erste AMD GPUs raus gekommen mit der Möglichkeit deren GDDR5 Speicher der CPU zugänglich zu machen - siehe die neue Firepro:
Efficiently Exchange data with your GPU with Direct Graphic Memory Access
http://developer.amd.com/community/blog/2014/09/08/amd-firepro-gpus-directgma/
DirectGMA exposes a part of the GPU memory and makes it accessible to other devices on the bus. By knowing the address of the exposed memory, any device that supports DirectGMA can write directly into GPU memory and vice versa the GPU can write into the memory of a peer device instead of transferring the data to system memory first. This mechanism can be used to exchange data between AMD FireProTM GPUs and third devices or to do peer-to-peer transfers between multiple AMD FirePro GPUs in one system. With today’s PCIE 3.0 technology, DirectGMA is a very efficient way of transferring data at very low latency.

One example of efficient use of DirectGMA is live video processing. DirectGMA is widely supported by SDI video I/O PCIe board vendors, enabling their SDI devices to stream video directly into and from GPU memory. The GPU can process the video stream and write it back into the memory of the SDI device that will finally display the processed frame.
 
Zuletzt bearbeitet:
bnoob schrieb:
2007 habe ich gedacht wir werden jetzt schon keine klassischen GPUs mehr haben, aber Larabee war ja der größte Reinfall überhaupt :/

Ja, war es, weil der Prozessor zu langsam war für eine reine Softwarelösung. Aber das ist letztendlich "nur" eine Frage der Rechenleistung.

Daedal schrieb:
Vielleicht kapieren es ja einige mal.

Du solltest dir noch einmal durchlesen, was er geschrieben hat. Was du schreibst geht vollkommen daran vorbei.

"Die Daten aus den globalen/shared Ram/Cache müssen jeweils in den ALU Registern der CPU/GPU kopiert werden und nach der Berechnung zurück."

Die Datenverarbeitung findet ja wohl kaum im Arbeitsspeicher statt... (was natürlich auch eine Möglichkeit ist, die Ende der 90iger erwogen wurde.)
 
Zuletzt bearbeitet:
@Daedal

Das eigentliche Copy findet immer noch eine Abstraktionsebene tiefer, in der Registertransferebene (RTL), statt.
Man kann sich aber das zusätzliche Copy in der "Software Ebene" sparen.
 
Simanova schrieb:
Ich glaub Intel verbaut in Ihren CPUs nur Grafikeinheiten, weil AMD das macht.
Ich bin immernoch der Meinung, dass eine CPU keine Grafikeinheit braucht.

Das dachte ich bis vor kurzem auch. Als ich meine Grafikkarte verkauft hatte, vergaß ich doch tatsächlich das ich eine IGPU besitze womit dieser Punkt ausgemerzt war und mittels HDMI der Rechner wieder da war. Ich finde es sogar sehr praktisch. Keine separate Grafikkarte mehr oder einen zweiten Rechner als Notlösung oder was auch immer. So werden auch kleinere Systeme möglich. Auch wenn das nicht primär der Sinn davon ist, man kann endlich mal unbefangener Grafikkarten kaufen und verkaufen.
 
Das konnte man schon vorher, wenn man ein Board mit onboard GPU, kaufte. Aber dagegen wurde ja oft gestänkert, das sowas ja unnütz sei. Bis dann die Leute anfangen zu jammern wenn die GPU abrauchte.
 
Wie hoch ist eigentlich der Singlecore leistungsunterschied zwischen AMD und Intel im moment? Und glaubt ihr das AMD irgendwann demnächst die IPC eines i5 2500K von 2011 erreichen kann? Oder sollte man AMD in der hinsicht abschreiben, und auf Intel setzen? Weil die meisten Spiele die ich Spiele nutzen leider nur einen 1-3 Kerne aus. Hoffe AMD arbeitet mal an der IPC
 
calluna schrieb:
"Die Daten aus den globalen/shared Ram/Cache müssen jeweils in den ALU Registern der CPU/GPU kopiert werden und nach der Berechnung zurück."

Hallo32 schrieb:
@Daedal

Das eigentliche Copy findet immer noch eine Abstraktionsebene tiefer, in der Registertransferebene (RTL), statt.
Man kann sich aber das zusätzliche Copy in der "Software Ebene" sparen.
Ihr habt recht. Ich hatte das falsch verstanden, beziehungsweise nicht aufmerksam genug gelesen. Es tut mir Leid wegen dem ausschweifenden Post. War wohl einfach ein Reflex auf diese "Copy" und HSA Kombination, wo immer wieder die selben falschen Vermutungen in Foren auftauchen.

Also nochmal@Halo
Sorry und ich nehm es zurück:)
 
Simanova schrieb:
Ich glaub Intel verbaut in Ihren CPUs nur Grafikeinheiten, weil AMD das macht.
Ich bin immernoch der Meinung, dass eine CPU keine Grafikeinheit braucht.

[...]

Genau dem Punkt würde ich entschieden widersprechen. Ich bin der Meinung, dass für die Mehrheit aller Nutzer mit einem PC/Notebook eine APU mehr als ausreichend ist. Erst recht wenn jetzt irgendwann die HBM Stacks kommen.
Nur PowerUser wie wir brauchen so etwas nicht...
 
deathscythemk2 schrieb:
Ich bin der Meinung, dass für die Mehrheit aller Nutzer mit einem PC/Notebook eine APU mehr als ausreichend ist.

Für die große Mehrheit der Nutzer war sogar schon eine mickrige Onboard-Grafik ausreichend. Nicht umsonst war Intel schon zu Zeiten der lahmen GMA-Chipsatzgrafik (trotz grottiger Treiber) lange vor APUs und iGPUs der mit Abstand größte GPU-Hersteller.

Dedizierte GPU sind schon lange eine reine Nischenlösung. Dementsprechend sind APUs mit extra viel Grafikleistung oder auch sowas wie die Iris Pro für die allermeisten Nutzer auch schon großer Overkill.

Ich selbst war überrascht, wie viel schon eine mickrige HD4400 in einer 15W-ULV-CPU leisten kann. Da ist sogar einiges an richtigen Spielen drin (z.B. Civ5 oder DOTA2 usw.), trotz 2560x1440-Display. Wie viele Leute brauchen wirklich mehr als das?

Deshalb brauchte Intel auch erst gar kein AMD als Vorbild, um iGPUs in die CPU zu intergrieren. Tatsächlich ging das ja auch kaum anders, Nachdem sie den Speichercontroller in die CPU verlagert hatten. Eine klassische Chipsatzgrafik wäre danach "auf der falschen Seite" gewesen.
 
@Herdware
Das finde ich wiederum übertriebn. Ich kenne die Intel HD4000 Leistung (i5 Notebook) und klar reicht sie aus um genannte Spiele zu starten, aber was bringt mir das, wenn alle graphischen Details und/oder Auflösung runtergedreht werden müssen? Selbst LoL sieht damit mehr als bescheiden aus und man merkt, dass da nicht viel kommt. Deshalb finde ich ja die AMD APUs gut, damit kann man nicht nur die Games starten, sondern hat zumindest noch ein paar aktivierte Grafikfeatures. Und wird noch besser werden, wenn jetzt die HBM Stacks kommen und somit die Speicheranbindung direkt erfolgt, dies war ja bisher immer der Flaschenhals bei allen APUs, der langsame DDR3 Speicher mit 1600-2133 MHz Anbindung.
 
Klar merkt man die Einschränkungen. Civ5 spiele ich mit vollen 2560x1440, allerdings deutlich runtergedrehten Qualitätseinstellungen. (Sieht trotzdem noch gut aus.) Bei DOTA hab ich die Auflösung auf 1080p runtergestellt und nur mittlere Einstellungen usw.

Trotzdem, ich bleibe dabei, dass es schon erstaunlich ist, was so eine winzige ULV-iGPU auf den Bildschirm zaubern kann.

Die GTX780Ti in meinem Gaming-PC dreht natürlich Kreise darum. Ich kann fast immer ohne Nachzudenken alles auf Maximum stellen und hab trotzdem stabile 60FPS. Aber es sind ja nicht alle PC-Nutzer ausgesprochene Gamer. Im Gegenteil. Die allermeisten werden bei einer iGPU oder erst recht einer APU nichts vermissen, bzw. die nicht mal ansatzweise ausreizen.

Ich hab heutzutage kein Problem mehr damit, Otto-Normal-Nutzern, die keine nenneswerten Spiele-Ambitionen haben, zu empfehlen, auch beim Desktoprechner komplett auf eine dedizierte Grafikkarte zu verzichten.

Dementsprechend bin ich auch sicher, dass es (um auf das Thema zurückzukommen ;) ) von AMD zukünftig gar keine neuen, reinen CPUs mehr geben wird. Nur noch die Low-End-Athlons mit deaktivierter GPU, solange vor allem OEMs sowas noch anfragen, weil es bei vielen Kunden halt noch im Kopf steckt, dass man mit integrierter Grafik überhaupt keine Spiele spielen kann.
 
Simanova schrieb:
Ich glaub Intel verbaut in Ihren CPUs nur Grafikeinheiten, weil AMD das macht.
Ich bin immernoch der Meinung, dass eine CPU keine Grafikeinheit braucht.

AMD sollte sich entscheiden, welchen Markt sie bedienen wollen (Desktop, Mobil, HTPC).
Das übrige Geld lieber in neue Technologien stecken und damit den Markt erobern, bevor es Intel tut.


Dem kann ich mich nicht Anschliessen ich habe z.b in meinem 17 zoll Laptop einen A6 5200 APU only und ich finde es klasse warum mehr Strom verbrauchen als nötig wenn alles sparsam auf einem Chip ist/passt?
 
Zurück
Oben