AMD APU in der PS4

JoeCool · 31. März 2013

Hallo Leute,

leider ist dieser Thread ja nun etwas abgedriftet.
Mich interessierten die Crossfire und/oder Dual-GPU Lösungen incl SLI eigentlich nicht.
Ich halte übrigens wegen der Mircoruckler weder von der AMD noch von der NVidia Lösung viel.
Mir ging es darum ob eine APU in der Art wie sie in der PS4 kommen soll
auch im PC Bereich kommen könnte und was die Voraussetzungen dafür wären.

Ich habe verstanden daß derzeit die mangelhafte Speicherbandbreite das Problem darstellt.
Erst wenn diese beseitigt ist kann eine potente IGP ihre Leistung entfalten.
Also gehe ich jetzt davon aus daß für die aktuellen Sockel auch keine PC Variante der PS4 APU kommen wird.
Eventuell kommt etwas in der Art ja für einen neuen Sockel. Mich würde das freuen.

Vielen Dank an Alle die hier konstruktive Beiträge zu meiner Anfrage geschrieben haben!

Gruß, JoeCool

Vietcong · 1. April 2013

@SuddenDeathStgt vielen Dank an dich für die Werbung für mich und nein ich schäme mich nicht, da ich wohl nur das Fremdschämen kenne und dies empfinde ich in deiner Nähe. Übrigens gut dass du meine PN veröffentlichst, dann wissen es zumindest die Leute wer hier der heuchlerische Fan Boy ist und ja wie du siehst kann ich auch wie in diesen Thread meine Eloquenz zeigen, bei dir dachte ich mir ist das nicht notwendig.

Ach ich bin kindisch? Dann hörten wohl lieber 3 Threadersteller bei ihrer CPU-Suche auf den einfältigen Vietcong, als auf den alten „Veteran“, ach wie schade da hast du dir wohl selbst das Messer rein gerammt. Wie ich es dir schon einmal gesagt habe, auf deiner Meinung setzen die wenigsten etwas und ich habe auch Recht mit der Einschätzung deiner Person.

Bis jetzt verhältst du dich wie immer in deinem alten Muster und dein Ansehen ist dank mir sowieso gesunken und meines ist zwar auf den Level des größten Flamers hier auf den Board gestiegen, aber ich rühme mich an diesen Titel, da die Leute mir mehr glauben oder zu mindestens meine Einschätzungen teilen.

@JoeCool gut dann zu dir, ich muss mich entschuldigen das ich den Thread benutzt habe, als Gesprächsplattform zwischen mir und den Engstirnigen.

Nein die neuen APUs falls sie in nächster Zukunft kommen sollten kein neuen Sockel benötigen, da FM2 noch ziemlich Luft oben hat. Die North Bridge ist ja im CPU ab der Trinity-Generation, also kann ich bis jetzt kein Upgrade-Grund sehen. Vielleicht optimierte Mainboards könnten folgen, aber die jetzigen werden wahrscheinlich mit UEFI bzw. BIOS Update uns noch ein wenig begleiten.

AMD hat bis jetzt noch nicht viel an freie Informationen heraus getragen, aber man kann annehmen dass die neuen APUs nicht so stark werden wie der 8-Core Jaguar mit der integrierten ATi 7850. Ich kann aber sehr gut die Situation einschätzen und sagen mal so, es wird wahrscheinlich APUs mit Hexa- und vielleicht Octacore geben, nur die GPU wird an Leistung einbüßen müssen. Ich schätze die GPU-Power auf eine 6850 oder einer 6870, somit etwa 30-40% schwächer. Natürlicherweise da sonst der Reiz an der Playstation 4 verloren ginge!

misu · 1. April 2013

Vietcong schrieb:
Nein die neuen APUs falls sie in nächster Zukunft kommen sollten kein neuen Sockel benötigen, da FM2 noch ziemlich Luft oben hat.

Naja, wie gesagt ist die Speicherbandbreite dank der aktuellen 2-Kanal-Speichercontroller und (bisher) ausschließlich DDR3 am Ende. Zumindest im Grafikbereich gibts deswegen nicht mehr allzuviel "Luft nach oben". Wie sehr schon bei einer aktuellen APU der Speicher limitiert, sieht man hier. Hätte die GPU mehr Shader, wäre das Problem noch viel größer.

Vietcong schrieb:
AMD hat bis jetzt noch nicht viel an freie Informationen heraus getragen

Korrekt.

Vietcong schrieb:
Ich kann aber sehr gut die Situation einschätzen [...]

Du hast keine Informationen, kannst das aber gut einschätzen? Wie genau machst du das?

Zumindest von der nächsten Iteration ("Richland") weiß man, dass sie wohl nur ein Taktupdate werden wird. Passieren tut also frühestens in ca. einem Jahr wieder das bei Kavari.

SuddenDeathStgt · 1. April 2013

@ Vietcong

für "deine Werbung" bist du selbst verantwortlich & welches Muster, welches Ansehen?
Wenn ich noch ~20 Jahre jünger wäre, würde mich das ggf. tangieren ... aber ich hole mir "Bestätigung" im Real-Life & nicht über Foren.^^
Ich merke schon, zwischen uns liegen Welten & ich kann mit deinem Pseudo/Psycho-Couch-Gelaber mal gar nichts anfangen.

Vato3001 · 1. April 2013

haha ps4 *lach* echt krasse hardware

Nai · 1. April 2013

Ich kann aber sehr gut die Situation einschätzen und sagen mal so, es wird wahrscheinlich APUs mit Hexa- und vielleicht Octacore geben, nur die GPU wird an Leistung einbüßen müssen. Ich schätze die GPU-Power auf eine 6850 oder einer 6870, somit etwa 30-40% schwächer.

Du schätzt "gut" ein, dass für einen DDR3 Sockel mit 128 Bit Speicheranbindung (bei DDR3 2133 sind das ganze 34 GB/s) für CPU UND GPU eine integrierte GPU auf dem Niveau einer 6870 (Speicherbandbreite 130 GB/s) veröffentlicht wird?
Das Ganze scheint mir doch schon ziemlich unwahrscheinlich, da bei dieser Speicherbandbreite in den meisten Anwendungsgebieten die Speicherbandbreite sehr stark die Performance limitieren sollte. . . . .
Man könnte zwar versuchen, die benötigte Speicherbandbreite durch grössere Caches zu senken, aber das ist bei Streaming-Anwendungen wie zB die Standard-Rasterisierer-Computergraphik auch nur eingeschränkt möglich.

Vietcong · 1. April 2013

Warum kann ich die Situation gut einschätzen, nun ja erstens informiere ich mich im Umfeld wie es aussehen könnte und was andere davon halten die im Bereich tätig sind. Genau deswegen wusste ich auch schon lange das Crytek auf Multithreading setzen wird und hatte damit auch wie man sieht Recht und auch Battelfield 4 wird darauf setzen.

Ich glaube dass es DDR 3 bis zuletzt bleiben wird, sollen sie halt die AMD Performance Series 1866 MHz RAM-Riegel benutzen im Dualchannel, somit wäre dann das Datentransferraten-Problem gelöst. Es könnten auch ein wenig Multikompatibilität, also das DDR3 oder auch mit den jeweiligen Board in der Zukunft auch DDR4 verwendet werden kann, da ja Crucial und noch ein paar Unternehmen die DDR4 für 2013 predigen.
http://www.3dcenter.org/dateien/abbildungen/Crucial-DDR-DDR2-DDR3-DDR4-Vergleich.preview.jpg

Dazu kommt der Richland (A10 M) mit seiner HD 8650G und der Trinity (A10 D) mit seiner HD 7660D immer noch mit den DDR3-Riegel auskamen natürlich haben die aber auch weniger Leistung aber die Annahme bleibt stehen dass das trotzdem so bleibt vorerst, außer sie wohlen diesmal wirklich unrentabel arbeiten, da eine neue Sockelkonstruktion erstmals teuer ist und mit Mehrkosten verbunden ist. Ich glaube da sind leistungsfähige und auch in letzter Zeit immer billigere DDR3-Riegel die man soweit ich weiß im normalen Segment bis zu Trippel-Channel und dem eher teuren Quad-Channel(Kingston) benutzt die bessere Lösung nur die Northbridge muss sich rüsten. Das wäre eine normalere Reaktion auf die Anforderungen der neuen APUs.

Ich schätze auch die Power der neuen APUs auf einer 6850, da die Karten alle in der 40µm gefertigt wurden, somit im Jahre 2013 die gleiche Karte kleiner, optimierter und mit weniger Stromverbrauch produziert werden kann und in die CPU eingefügt werden kann, aber ich erwarte ein TDP von etwa 125 Watt wie im normalen Power-Desktopbereich.

@Nai übrigens mit 30GB/s (da sind G.Skill, Corsair und Kingston weit über dieser Grenze) hat man glaube ich genug Datenvolumen um ein Spiel in ein paar Sekunde durch die RAM zu leiten auch wenn der Datendurchfluss hoch sein muss, braucht man nicht immer das Maximum und heute ist die Architektur viel wichtiger, die Grafikeinheit braucht möglichst viele Vertexshader&Pixelshadereinheiten die für die Berechnung der Bilder und weiteres ausschlaggebend sind.

Trotz allem muss ich betonen dass es mit hoher Wahrscheinlichkeit so ist, aber man kann ein Unternehmen in der Hardware-Architektur nicht alles entlocken nur beim Betrachten.

Nai · 1. April 2013

Warum kann ich die Situation gut einschätzen, nun ja erstens informiere ich mich im Umfeld wie es aussehen könnte und was andere davon halten die im Bereich tätig sind. Genau deswegen wusste ich auch schon lange das Crytek auf Multithreading setzen wird und hatte damit auch wie man sieht Recht und auch Battelfield 4 wird darauf setzen.

Es wäre sinnvoll, wenn du deine Argumentationen im Internet auf Schriftquellen aufbaust oder zumindest deine mündlichen Quellen näher beschreibst. Denn "im Bereich tätig" ist wesentlich ungenauer als "ich kenne 3 Leute in der Entwicklungsabteilung bei AMD".

Trotz allem muss ich betonen dass es mit hoher Wahrscheinlichkeit so ist, aber man kann ein Unternehmen in der Hardware-Architektur nicht alles entlocken nur beim Betrachten.

Dies lässt mich allerdings bezweifeln, dass du solche Kontakte besitzt.

Auch ist eine Aussage der Art wie "ich wusste, dass etwas so ist und habe Recht behalten, deshalb kann ich die Situation wieder gut einschätzen" keine sehr logische Folgerung. Des Weiteren wäre es sinnvoller, mündliche Aussagen von Bekannten mit Vorsicht zu geniessen, und seine eigene Wissensbasis durch Lesen von entsprechenden Herstellerdokumentationen aufzubauen.

Ich glaube dass es DDR 3 bis zuletzt bleiben wird, sollen sie halt die AMD Performance Series 1866 MHz RAM-Riegel benutzen im Dualchannel, somit wäre dann das Datentransferraten-Problem gelöst.

Wieso sollte es mit einem noch langsameren RAM als DDR3 2133 gelöst sein? Mit 1866 DDR3 @ 128 Bit lassen sich ganze 30 GB/s erzielen . . . . Das ist auf dem Niveau einer NVIDIA 7800 GTX . . . .

Es könnten auch ein wenig Multikompatibilität, also das DDR3 oder auch mit den jeweiligen Board in der Zukunft auch DDR4 verwendet werden kann, da ja Crucial und noch ein paar Unternehmen die DDR4 für 2013 predigen.

Wenn dir der Sockel aber nicht die entsprechenden PINs für den DDR4-RAM zur verfügung stellt, kannst du damit dennoch keinen DDR4-RAM verwenden.

@Nai übrigens mit 30GB/s hat man glaube ich genug Datenvolumen um ein Spiel in der Sekunde durch die RAM zuleiten und heute ist die Architektur viel wichtiger, die Grafikeinheit braucht möglichst viele Vertexshader, Pixelshader die für die Berechnung der Bilder und weiteres ausschlaggebend sind.

Man muss die graphischen Daten allerdings nicht einmal pro Sekunde abfragen sondern FPS-mal. Dadurch bleiben dir für jedes Bild bei einer guten FPS von 30 gerade einmal 1 GB.

Des Weiteren hat es schon seit mittlerweile 7(?) Jahren keine Pixelshader und Vertexshader mehr als Spezialprozessoren innerhalb einer GPU sondern nur noch Unified-Shader; sowohl bei AMD als auch bei NVIDIA. Die Tatsache, dass du nicht einmal dieses Architekturdetail weisst, lässt mich doch so etwas an deinem Fachwissen zweifeln.

Generell gilt es, dass bei einer Rasterisierungsgraphik die allermeiste Speicherbandbreite durch Texturzugriffe verbraucht wird. Die GPU hat dafür neben den Unified-Shadern dafür Spezialhardware, die sogenannten TMUs.

Die Architektur ist zwar wichtig, allerdings kann sie hierbei nicht oder nur eingeschränkt durch Caches eine zu niedrige Speicherbandbreite ausgleichen.

Ist die Speicherbandbreite zu niedrig, so bekommen die TMUs nicht ausreichend Daten, die Warps oder Wavefronts stallen, bis die TMUs die Daten bekommen haben. Sind alle Wavefronts oder Warps innerhalb einer Compute Unit gestallt, so kann sie nichts tun; die Unified-Shader bleiben ebenfalls untätig. Dadurch bringen dir eine Vielzahl von Unified-Shadern relativ wenig wenn es deiner GPU an Speicherbandbreite mangelt; es sei denn man reduziert die von den TMUs benötigte Speicherbandbreite indem man die Zahl der Texturzugriffe reduziert. Da man bei vielen Algorithmen in der Computergraphik jedoch die Texturzugriffe als Ausgangsdaten für Berechnungen durch die Unified-Shader verwendet, ist das auch nur eingeschränkt erfolgsversprechend. Zudem müsste man man in diesem Fall die Software oft anpassen, was für so wenige APUs nicht gerade lohnenswert für Entwickler ist.

misu · 1. April 2013

@Nai: Thx, hast mir ein langes Post erspart.

Vietcong · 1. April 2013

@Nai gut ich muss mich wahrscheinlich deutlicher ausdrücken, damit es auch die ganzen Genies verstehen. Gut zuerst zu deiner Frage welche Kontakte ich besitzt und wo auch, meine erste Quelle ist das Unternehmen Computerspeed in Italien, es handelt sich um ein Hardwarewartungs- und Vermarktungsunternehmen das sich mit perfekt zugeschnittene Systeme für das jeweilige Unternehmen einen Namen gemacht hat. Mein zweiter Kontakt ist ein MCTS in der Firma BrennerCOM, dabei handelt es sich um ein international agierendes Unternehmen im Bereich Cloud-Computing und Systemlösung mit AMD Opterons, Intel Xeons und die seltenen IBM PowerRechner. Mein wichtigster Kontakt ist mein Ingenieur Professor Monteverde der in vielen Unternehmen tätig war, großes Wissen über Hardwarearchitektur besitzt, Assembler, C++ und C perfekt beherrscht, er war soweit ich weiß auch einmal BIOS-Coder und ich hatte auch die Ehre Professor Orrú kennen zu lernen der auch schon in vielen Bereichen tätig war und die Supercomputersprache Fortran beherrscht!

Und wie ich schon erwähnt habe lese ich mich selbst in die Situation rein, nur nicht ins kleinste Detail, aber so dass ich mit höchster Wahrscheinlichkeit etwas Zutreffendes von mir geben kann und die Grafikeinheit hat zwar keine Module mehr die man Pixel- und Vertexshaders nennt, dies wird auch einfach von einen Modul mit anderen Namen übernommen. Dazu ist es literarisch kein Unterschied da halt jetzt die Pixel-Shader, Geometrie-Shader und Vertex-Shader in ein universales Modul namens Unified-Shader zusammengefasst wurde. Verständnismäßig ist es besser die einzelnen Bezeichnungen zu sagen, da Unified mir nicht direkt den Arbeitsbereich des Shaders sagt!

Dazu wie schon gesagt löst Quadchannel, das ganze Problem der Speichertechnologie, da durch das Vierfache zeitversetztes Zugreifen durch den Speichercontroller (die übrigens auch rapide besser werden) ein unglaublicher Datensatz passieren kann. Da ist die Grenze von 100 GB/s sogar nicht mehr das Problem, dann bekommt die Karte wie besagt ihr Datenvolumen zusammen, nur die North Bridge muss darauf optimiert werden, aber was muss das muss.

Das ist zwar die wahrscheinlichste Lösung von den Problemen in Hinsicht der APUs, ich selbst würde aber schnellere Speichermodule für den PCI.-Express vorschlagen bei den sich die APUs bedienen darf aber das werden sie nicht umsetzen, aber andere haben auch schon diskutiert ob die Speicher auch in die CPU zu integrieren sind. Die Temperatur-Grenze und der Platz (Die Fertigung - Da die Ram aus MOS-Transistor und Doppelschicht-Kondensatoren besteht) lässt dies nicht zu, bis jetzt.

Die Ram auf Quadchannel anzusprechen ist einfach für mich viel logischer und auch für die Firmen bis jetzt rentabler, aber es wird sich zeigen wer Recht hat, wie immer.

Nai · 1. April 2013

Zu den Kontakten: Du kennst also keine Leute welche sich direkt mit der Hardwarentwicklung befassen und demnach exakte Prognosen abgeben können. Bei den genannten Leuten scheint es sich nicht einmal um GPGPU-Entwicklern zu handeln, welche sich mit dem spezeillen Themenbereich auskennen.
Q.e.D.

Auch sind deine Aussagen zT. so "haarsträubend", dass ich so spontan bezweifle dass sie von einem Informatik/Matheprofessor kommen.

Dazu wie schon gesagt löst Quadchannel, das ganze Problem der Speichertechnologie, da durch das Vierfache zeitversetztes Zugreifen durch den Speichercontroller (die übrigens auch rapide besser werden) ein unglaublicher Datensatz passieren kann. Da ist die Grenze von 100 GB/s sogar nicht mehr das Problem, dann bekommt die Karte wie besagt ihr Datenvolumen zusammen, nur die North Bridge muss darauf optimiert werden, aber was muss das muss.

Dafür wäre aber wieder ein neuer Sockel nötig, wodurch es nicht die bisherigen Aussage von allen anderen hier widerlegt und deine Aussage beweist. Bei 30 GB/s Speicherbandbreite wird man keine performanten GPUs in APUs verbauen können. Wenn man auf DDR4 setzt oder auf Quadchannel, wäre ein neuer Sockel nötig, und man könnte in der Tat schnellere GPUs in der APU verbauen. Soweit herrschte auch hier bei allen Leuten im Thread Übereinkunft. Allerdings ist Quadchannel wegen der vielen zusätzlichen Leiterbahnen auf dem MB sehr sehr teuer, wodurch die APUs viel ihrer Konkurrenzfähigkeit einbüssen würden.

Das ist zwar die wahrscheinlichste Lösung von den Problemen in Hinsicht der APUs, ich selbst würde aber schnellere Speichermodule für den PCI.-Express vorschlagen bei den sich die APUs bedienen darf aber das werden sie nicht umsetzen, aber andere haben auch schon diskutiert ob die Speicher auch in die CPU zu integrieren sind.

Du willst Speichermodule über den PCI-E ansteuern? Dafür ist der PCI-E Bus nicht gedacht, und dessen Bandbreite in Version 3.0 mit 16 GB/s @ 16 Lanes viel viel zu gering . . . . Wie gut das funktioniert merkst du, wenn einer Graphikkarte der VRAM ausgeht; die Performance sinkt sehr schnell in den Keller. Von den deutlich höheren Latenzen bei den Speicherzugriffen wenn man nicht on demand swapt sondern direkt drauf zugreift ganz zu schweigen . . . . Denn diese müssen auch noch durch einen sehr grossen Registersatz der GPU kompensiert werden.

die Grafikeinheit hat zwar keine Module mehr die man Pixel- und Vertexshaders nennt, dies wird auch einfach von einen Modul mit anderen Namen übernommen. Dazu ist es literarisch kein Unterschied da halt jetzt die Pixel-Shader, Geometrie-Shader und Vertex-Shader in ein universales Modul namens Unified-Shader zusammengefasst wurde. Verständnismäßig ist es besser die einzelnen Bezeichnungen zu sagen, da Unified mir nicht direkt den Arbeitsbereich des Shaders sagt!

Doch es sagt dir direkt den Arbeitsbereich des Shaders - für alle FP-AL-Berechnungen. Die Bezeichnung macht sehr wohl einen Unterschied da keine spezielle Fragmentshaderhardware oder Vertexhaderhardware innerhalb der Unified-Shaderprozessoren mehr existiert. Deshalb verwendet man die beiden Begriffe in der Computergraphikliteratur nicht mehr um solche Rechenkerne innerhalb einer GPU zu bezeichnen, sondern nur noch die entsprechenden Programme als solches.
Und wenn du schon die Einsatzzwecke auflistest, weil du sie für wichtig hälst, so solltest du nicht nur die nennen die in der Englischsprachigen Wikipedia kursiv genannt sind und man beim Überfliegen sofort erkennt (Pixelshader, Vertexshader und Geometryshader) sondern alle heutzutagigen Einsatzzwecke:
Vertexshader, Tessellation-Control Shader, Tessellation Evaluation Shader, Geometry Shader, Fragment Shader und zu guter letzt die Compute Shader.

Die Ram auf Quadchannel anzusprechen ist einfach für mich viel logischer und auch für die Firmen bis jetzt rentabler, aber es wird sich zeigen wer Recht hat, wie immer.

Siehe oben.

Vietcong · 2. April 2013

Zu meinen Kontakten, da es sich bei den Professoren um Bildungsvermittler handelt sind sie permanent auf dem Laufenden und ja alle beide waren bereits im Hardware-Architekturbereich tätig, ob es sich dabei genau um Grafikeinheiten-Architektur handelte fällt mir nicht mehr ein. Der Herr der mein Arm zur BrennerCom ist war auch mal im ehemaligen Unternehmen Cyrix tätig, einer alten CPU-Firma die mit AMD kooperierte und er kennt sich somit bestens in der x86 Architektur aus!

Soweit ich informiert bin besitzt der FM2 das Unified Media Interface und der AM3+ bedient sich am Hypertranfer-Protokoll und beides bietet die Power an, sowie die Kompatibilität zum Quad-Channel ohne weiteres, nur eine Optimierung des Power Controllers sollte drin sein.

Zu den Leiterbahnen, bei den Llanos und restlichen APUs handelt es bei den Bahnen um einfaches 11 schichtiges Kupfer, es ist somit eine billige und effektive Lösung und bestimmt das Gegenteil von teuer. Dazu bei den APUs spart man sich viele Leiterbahnen und enorm an Platz, da die Northbridge in der CPU sich befindet und nicht auf den Board und dagegen hat AM3+ die Northbridge auf dem Mainboard mehr Leiterbahnen und einen Chipsatzteil mehr sprich die Northbridge sind aber zumeist billiger, als die FM2 Boards!

Zurzeit ist das teuerste der Speichercontroller und natürlicherweise auch das Ausschlaggebendste, aber die Kosten der Quadchannel-Boards sinkt rapide und Boards von MSI unteranderem bekommt man jetzt schon für 120€, bis jetzt natürlich sind QuadChannel-Boards aber eher im Segment der Intel Core Extrems und der Opterons anzutreffen wird sich aber ändern, da zuerst alles Neue nur dem Powersegment angehört und dann erschwinglich für den Rest wird.

Zum PCI-Express die Leitungspaare könnte man schon längst optimiert haben, da sich an dieser Schnittstelle weniger tut, es könnte leistungsmäßig um ein vielfaches schneller sein. Thermisch gesehen ist hier das meiste Potenzial für Änderungen, da man die Leitungspaare ganz einfach mit einer Siliziumoxidschicht spalten könnte und sie somit die doppelte Übertragung bewältigen. Dieses Splittung könnte man weiter führen nochmals und nochmals bis zur thermischen Grenze der Bahnen, somit könnte man nicht nur Grafikspeicher modular erweitern, sondern auch neue Generationen von SSDs ansteuern. Diese Lösung ist ein wenig kostspieliger, obwohl es nur eine kleinere Fertigungstechnik braucht mehr nicht, die ja schon vorhanden ist und man schlägt 2 Fliegen mit einer Klappe.

Übrigens nicht alle können sich etwas unter Unified-Shader was vorstellen, aber Vertex-, Geometrie-, Pixel-, Fragment-Shader usw. sind in meinen Augen mehrsagend, ich betone nach meiner Ansicht, obwohl ich Pixelshader, Geometrieshader und Vertexshader als ausreichende Informationsquelle finde, wenn man über den Themenbereich spricht, da wissen wahrscheinlich mehr Leute von was man redet.

JoeCool · 2. April 2013

Hallo Nai,

Wieso sollte es mit einem noch langsameren RAM als DDR3 2133 gelöst sein? Mit 1866 DDR3 @ 128 Bit lassen sich ganze 30 GB/s erzielen . . . . Das ist auf dem Niveau einer NVIDIA 7800 GTX . . . .

und dazu kommt noch daß die CPU Kerne konkurrierend zur GPU Speicherbandbreite brauchen.
Da beißt die Maus keinen Faden ab:
Wenn eine Graphik mit der Leistungsfähigkeit einer HD 7850 ungehemmt arbeiten können soll
braucht man einen anderen Sockel, da FM2 dies nicht leisten kann.

Wenn man auf DDR4 setzt oder auf Quadchannel, wäre ein neuer Sockel nötig, und man könnte in der Tat schnellere GPUs in der APU verbauen.

Gute N8 wünscht

JoeCool

Nai · 2. April 2013

Zu meinen Kontakten, da es sich bei den Professoren um Bildungsvermittler handelt sind sie permanent auf dem Laufenden und ja alle beide waren bereits im Hardware-Architekturbereich tätig, ob es sich dabei genau um Grafikeinheiten-Architektur handelte fällt mir nicht mehr ein. Der Herr der mein Arm zur BrennerCom ist war auch mal im ehemaligen Unternehmen Cyrix tätig, einer alten CPU-Firma die mit AMD kooperierte und er kennt sich somit bestens in der x86 Architektur aus!

Deine Aussagen sind grösstenteils extrem unglaubwürdig und hören sich sogar etwas - mit Verlaub - nach Technobabbel an. Dies weckt den Zweifel ob du wirklich so hoch qualifizierte Quellen hast und wenn ja ob du in der Lage bist sie sinngemäss wiederzugeben. Der Eindruck wird dadurch verstärkt, dass du den gesamten Thread hier den qualifizierten Aussagen von anderen Forenteilnehmern ausweichst und ständig neue unbelegte Behauptungen oder Prognosen in den Raum stellst.
Interessanterweise finde ich auch von deinen beiden Profs keinerlei Veröffentlichungen bei Google Schoolar und im restlichen Google nichts. . . . . . Deshalb wäre es wirklich besser, wenn du ein paar schriftliche Quellen für deine Aussagen in Zukunft nennen würdest.

Soweit ich informiert bin besitzt der FM2 das Unified Media Interface und der AM3+ bedient sich am Hypertranfer-Protokoll und beides bietet die Power an, sowie die Kompatibilität zum Quad-Channel ohne weiteres, nur eine Optimierung des Power Controllers sollte drin sein.

Was hat der Hypertransport (wieder das falsche Fachwort bzw Eigenname), als Protokoll für die Kommunikation zwischen mehreren Chips und nicht als entsprechende Hardware, mit dem Quad-Channel-Support des Speichercontrollers des Prozessors zu tun? Als Protokoll bietet es ersteinmal keine "Power" sondern bestimmt nur, wie die Informationen innerhalb eines Paketes kodiert werden. Zudem, da Hypertransport für die Interchip-Kommunikation dient, kann man damit direkt keinen RAM ansteuern. Falls du damit vorschlägst einen CPU-DIE-externen Speichercontroller zu verwenden: Auf diese verzichtet man schon seit Jahren aus Performancegründen . . . . .

Was hat das UMI als Verbindung zwischen APU und Southbridge mit Quad-Channel-Support zu tun?

Was hat die "Optimierung" des Power Controllers mit dem Quad-Channel-Support zu tun?

Was ändert es an der Tatsache, dass man für Quad-Channel-Support einen neuen Sockel braucht? Niemand bezweifelt hier, dass AMD eine Quad-Channel-Architektur verwirklichen könnte, wenn es sinnvoll ist . . . .

Zu den Leiterbahnen, bei den Llanos und restlichen APUs handelt es bei den Bahnen um einfaches 11 schichtiges Kupfer, es ist somit eine billige und effektive Lösung und bestimmt das Gegenteil von teuer. Dazu bei den APUs spart man sich viele Leiterbahnen und enorm an Platz, da die Northbridge in der CPU sich befindet und nicht auf den Board und dagegen hat AM3+ die Northbridge auf dem Mainboard mehr Leiterbahnen und einen Chipsatzteil mehr sprich die Northbridge sind aber zumeist billiger, als die FM2 Boards!

Was ändert dies an der Aussage, dass es ein Board verteuern würde, wenn man dank Quad-Channel mehr Leitungsbahnen und Schichten benötigen würde? Und eben dieses Verteuern könnte eine Konkurrenzfähigkeit des Produkts im unteren bis mittleren Performancebereich stark einschränken.

Zurzeit ist das teuerste der Speichercontroller und natürlicherweise auch das Ausschlaggebendste

Der Speichercontroller ist nur ein sehr kleiner Teil auf der APU-DIE und damit sehr billig in der Herstellung.

Vertex-, Geometrie-, Pixel-, Fragment-Shader

Pixelshader (HLSL, DirectX) ist nur ein anderes Wort für Fragmentshader (GLSL, OpenGL) . . . . . .

Zum PCI-Express die Leitungspaare könnte man schon längst optimiert haben, da sich an dieser Schnittstelle weniger tut, es könnte leistungsmäßig um ein vielfaches schneller sein. Thermisch gesehen ist hier das meiste Potenzial für Änderungen, da man die Leitungspaare ganz einfach mit einer Siliziumoxidschicht spalten könnte und sie somit die doppelte Übertragung bewältigen. Dieses Splittung könnte man weiter führen nochmals und nochmals bis zur thermischen Grenze der Bahnen, somit könnte man nicht nur Grafikspeicher modular erweitern, sondern auch neue Generationen von SSDs ansteuern. Diese Lösung ist ein wenig kostspieliger, obwohl es nur eine kleinere Fertigungstechnik braucht mehr nicht, die ja schon vorhanden ist und man schlägt 2 Fliegen mit einer Klappe.

Mehr Leitungsbahnen -> nicht mehr PCI-E Standard, höhere Kosten für die Steckverbindungen incl. CPU-Sockel
Dünnere Leitungsbahnen -> schlechtere Signalqualität. Dadurch kann das Splitting der Leitungsbahnen sogar schnell kontraproduktiv sein, wenn man hohe Bandbreiten erzielen will. Ich vermute sogar stark, dass dieses Problem lange vor den thermischen Problemen wegen zunehmenden Leckströmen eintreten wird.

Dieses Splittung könnte man weiter führen nochmals und nochmals bis zur thermischen Grenze der Bahnen, somit könnte man nicht nur Grafikspeicher modular erweitern, sondern auch neue Generationen von SSDs ansteuern. Diese Lösung ist ein wenig kostspieliger, obwohl es nur eine kleinere Fertigungstechnik braucht mehr nicht, die ja schon vorhanden ist und man schlägt 2 Fliegen mit einer Klappe.

Als Perepheriebus hat der PCI-E Architekturbedingt eine hohe Latenz. So kostet zB. der Zugriff einer GPU auf den Speicher der CPU über PCI-E 15 µs; der Zugriff auf den VRAM 600 ns (hier sind die NVIDIA Dokumentationen etwas ungenau).
Wie willst du die Latenzen kompensieren? GPUs kompensieren im Moment die Speicherzugriffszeiten auf ihren VRAM durch ihren bereits extrem grossen Registersatz; willst du eine so grosse Zugriffszeit kompensieren so brauchst du einen ungleich grösseren Registersatz . . . . .

misu · 2. April 2013

@Nai:
Stimmte dir voll und ganz zu. Vietcong benutzt die richtigen Wörter, aber die Sätze ergeben in meinen Augen nur sehr eingeschränkt Sinn. Und Belege bekommt man sowieso nicht von ihm.

GPUs kompensieren im Moment die Speicherzugriffszeiten auf ihren VRAM durch ihren bereits extrem grossen Registersatz; willst du eine so grosse Zugriffszeit kompensieren so brauchst du einen ungleich grösseren Registersatz . . . . .

Das stimmt so nicht ganz. Eigentlich ist es die hohe Anzahl an Warps pro Block. Solange nicht alle Warps durch Cache-misses blockiert sind, kann die GPU weiterrechnen. Für CPUs ist das aber keine Option, weil das eine sehr hohe Paralellität in der Implementierung erfordert. Sozusagen pro Warp ein Thread (genauer ein SMT mit Blocksize/Warpsize vielen Threads).
D.h. man müsste mit einem Cuda-ähnlichen Programmiermodell auf der CPU arbeiten, was aus mehreren Gründen nicht besonders attraktiv ist (Entwicklungszeit/-kosten, Parallelisierungbarkeit, Pool an Entwicklern).
Für die vielen Warps werden die ganzen Register benötigt, worauf du wahrscheinlich hinaus wolltest.

Nai · 2. April 2013

Generell stallt die GPU nicht nur bei Cache-Misses sondern allgemein bei Latenzen durch Registerabhängigkeiten. Diese können durch die Pipelines der Processing-Elemets/Cuda-Cores usw. entstehen aber auch bei Cache-Hits; die grössten Latenzen entstehen natürlich durch Cache-Misses wodurch es einen VRAM-Zugriff gibt.
Somit ist es das A und O die Latenzen bei GPU-Programmierung zu verbergen. Bei vielen Algorithmen 2 Möglichkeiten das ganze zu tun:
-Mehr Warps/Wavefronts in einem Multiprozessor/Computeunit aktiv zu haben. Dafür braucht man mehr Register, mehr local und Shared Memory und einen besseren Warpscheduler\Wavefrontscheduler, welcher so viele Warps\Wavefronts auch verwalten kann.
-Mehr Register pro Thread/Workitem (wie in http://www.cs.berkeley.edu/~volkov/volkov10-GTC.pdf beschrieben). Verwendet man diese Methode so reicht -im Optimalfall- 1 Warp pro Warpscheduler (dh 4 Warps auf der GK110) um die GPU komplett auszulasten.

Generell gibt es also mehrere Ansätze die Latenzen zu verbergen; ich habe mich in meinen Erläuterungen aus Gründen der Einfachheit auf den letzteren beschränkt, bei welchen man nur mehr Register benötigt.

D.h. man müsste mit einem Cuda-ähnlichen Programmiermodell auf der CPU arbeiten, was aus mehreren Gründen nicht besonders attraktiv ist (Entwicklungszeit/-kosten, Parallelisierungbarkeit, Pool an Entwicklern).

Das ist korrekt. Deshalb CPUs auch viele komplett andere Ansätze um die Latenzen bei Registerabhängigkeiten zu überbrücken (Out of Order Execution, komplexe Pipeline, Sprungvorhersagen, grosse Caches usw.)

Vietcong · 2. April 2013

Zu meinen Kontakten, ich bin nicht gezwungen Personalien meiner Kontakte heraus zugeben oder hätte die Verfügung dazu, du kannst es glauben oder nicht mehr ist dazu nicht zu sagen. Es ist auch nicht in meiner Interesse, dich von etwas zu überzeugen. Ich sage ganz einfach meine Meinung, wenn du dir davon etwas mitnehmen willst an Wissen, kannst du dies machen.

Ich finde auch lustig dass ich von solchen Maulhelden herab gestuft werde wie @misu und dir, die anderen vorwerfen keine Quellen zu nennen, obwohl alles von mir nachvollziehbar ist und man kann auch danach ganz einfach Suchen, wenn man wissen will ob es der Wahrheit entspricht. Lustig ist auch dass ihr beide Kritik ausübt, aber nicht mal für eure Argumente Quellen angebt, ist schon ein bisschen komisch wenn man andere Aussagen versucht zu zerpflücken und sich gleich formuliert und keine Quellen angibt.

Woher weißt du dass der Speichercontroller günstig ist, kannst ja gerne dafür deinen Wissensursprung angeben. Dazu sind neue Technologien sprich Controller die das Vierfache leisten sollen als der normale Baustein bestimmt nicht günstiger, komisches Denken hast du.

Zum Hypertransport, da habe ich mich verschrieben oder falsch gedacht, tut mir eigentlich nicht wirklich leid dafür aber als Gegenleistung sage ich dir was. Der Hypertransport ist der Nachfolger LDT und ist in der Version 3.1 auf 51,2 GB/s limitiert und da der Adressbus, Steuerbus und Datenbus damit indirekt auch limitiert werden benötigt es da ein Upgrade, wenn wir Quad-Channel benutzen wollen und man benötigt es um den Datenfluss zum VGA, DVI oder auch HDMI auf den Board schnell genug zur Verfügung zu stellen. Der Powercontroller könnte auch von Limitierungen in dieser Hinsicht betroffen sein, um dies vorzubeugen sollte man auch dabei nichts außer Acht lassen.

Und nein mehr Leiterbahnen sind nicht mit großen Mehrkosten verbunden, da wir bei den Produkten überwiegend nur Forschung und Entwicklung bezahlen und den Rest macht Foxconn mit den Scharen der chinesischen Bevölkerung. Da aber die gesamte Technologie in der jeweiligen Form schon vorhanden ist bedeutet das kaum Mehrkosten, deswegen kosten die AM3+ Boards weniger, sie besitzen hardwaremäßig mehr Bauteile und Leiterbahnen, aber da sie auf den AM3 basieren sind sie günstig im Gegensatz zu den FM1 und FM2 Boards die eine neue Entwicklung darstellen!

Zum PCI-Express, da auf Boards wie die FM2-Serie die North Bridge und Leiterbahnen fehlen, hat man ja genug Platz wieder für mehr Leiterbahnen, sprich es könnte erweitert und gesplittet werden und um die daraus resultierenden Latenzen Einhalt gebieten, könnte man den Transistoreffekt benutzen um die Ströme einfach noch schneller durch die Leiter zu schicken sprich die Informationen (Wird zwar oft genutzt aber nicht im vollen Maße). Zu den Lenkströmen Silliziumoxid ist ein todsicherer Isolator, da sollten keine Störungen auftreten.

Nai · 2. April 2013

Zu meinen Kontakten, ich bin nicht gezwungen Personalien meiner Kontakte heraus zugeben oder hätte die Verfügung dazu, du kannst es glauben oder nicht mehr ist dazu nicht zu sagen. Es ist auch nicht in meiner Interesse, dich von etwas zu überzeugen. Ich sage ganz einfach meine Meinung, wenn du dir davon etwas mitnehmen willst an Wissen, kannst du dies machen.

Ich finde auch lustig dass ich von solchen Maulhelden herab gestuft werde wie @misu und dir,

Heist es, da du nun agressiv wirst, dass ich deine Kontakte als Lüge entarnt habe und diese nicht einmal existieren?

und man kann auch danach ganz einfach Suchen, wenn man wissen will ob es der Wahrheit entsprich

Es ergibt eben keinen Sinn was du sagst; nicht einmal wenn man danach googlet. Für mich nicht und für Misu auch nicht, obwohl wir beide schon GPGPU Programmiert haben. Bei deinen Wissenstand bezweifle ich einfach einmal, dass du das ebenfalls mal getan hst.

Lustig ist auch dass ihr beide Kritik ausübt, aber nicht mal für eure Argumente Quellen angebt, ist schon ein bisschen komisch wenn man andere Aussagen versucht zu zerpflücken und sich gleich formuliert und keine Quellen angibt.

Das Problem ist die Haarsträubigkeit deiner Aussagen. Allgemein gültige Aussagen (welche man direkt durch eingeben in Google überprüfen kann) werden auch ohne Quellen akzeptiert. Bei solchen Aussagen verlangt auch niemand von dir eine Bestätigung durch Quelle.
Aber wenn du willst, kannst du jeden Teil meiner bisherigen Aussagen zitieren und eine Quelle oder Ausführlichere Erklärung verlangen und ich werde sie dir liefern.

Woher weißt du dass der Speichercontroller günstig ist, kannst ja gerne dafür deinen Wissensursprung angeben. Dazu sind neue Technologien sprich Controller die das Vierfache leisten sollen als der normale Baustein bestimmt nicht günstiger, komisches Denken hast du.

Es gilt in etwa Herstellungskosten ~ DIE-Fläche (wenn man die geringere Ausbeute bei grösserer Chipfläche vernachlässigt). Und dann schau mal wieviel DIE-Fläche so ein Speichercontroller ausmacht:
http://techreport.com/r.x/llano/die-shot.jpg
Selbst wenn man ihn für Quadchannel Interface verdoppeln würde, würde er nicht viel der APU-Fläche belegen.

Der Hypertransport ist der Nachfolger LDT und ist in der Version 3.1 auf 51,2 GB/s limitiert und da der Adressbus, Steuerbus und Datenbus damit indirekt auch limitiert werden benötigt es da ein Upgrade, wenn wir Quad-Channel benutzen wollen und man benötigt es um den .

Technobabbel? Was hat die Bandbreite über den HT mit der erzielten Speicherbandbreite zu tun ? Die Speicherzugriffe laufen gar nicht über den HT Bus. Wie man zB hier sieht:
http://upload.wikimedia.org/wikipedia/commons/e/ec/AMD_Bulldozer_block_diagram_(8_core_CPU).PNG
Der Llano besitzt laut Blockdiagrammen übrigens gar kein HT:
http://tech2.in.com/reviews/cpus/amd-llano-platform-review/233042

Der Powercontroller könnte auch von Limitierungen in dieser Hinsicht betroffen sein, um dies vorzubeugen sollte man auch dabei nichts außer Acht lassen

Was hat die Regulation der Spannung der CPU über einen Power-Controller mit Quadchannel Interface zu tun? Wieso müsste ich den upgraden?

Und nein mehr Leiterbahnen sind nicht mit großen Mehrkosten verbunden, da wir bei den Produkten überwiegend nur Forschung und Entwicklung bezahlen und den Rest macht Foxconn mit den Scharen der chinesischen Bevölkerung.

Mehr PCB-Schichten bei Konstanter Dicke = Mehr Herstellungsaufwand und mehr Rohstoffkosten bei der PCB-Herstellung = mehr Kosten. Sogar wenn hierbei die Lohnkosten bei der Herstellung nicht viel ausmachen sollten.

Datenfluss zum VGA, DVI oder auch HDMI auf den Board schnell genug zur Verfügung zu stellen.

Selbst wenn Llano HT hätte, so würden die DVI und HDMI-Daten, wenn man es aus welchen gründen auch immer über HT übertragen würde, nur ein Bruchteil dieser 52 GB/s ausmachen.

Zum PCI-Express, da auf Boards wie die FM2-Serie die North Bridge und Leiterbahnen fehlen, hat man ja genug Platz wieder für mehr Leiterbahnen

Die weniger Leitungsbahnen werden bereits ausgenutzt, damit die Llano Boards weniger PCB-Layers benötigen und dadurch günstiger sind.

könnte man den Transistoreffekt benutzen um die Ströme einfach noch schneller durch die Leiter zu schicken sprich die Informationen (Wird zwar oft genutzt aber nicht im vollen Maße

Technobabbel ?

Zu den Lenkströmen Silliziumoxid ist ein todsicherer Isolator, da sollten keine Störungen auftreten

Leckströme durch dünnere Isolierungsschichten ist aber das ALLEREINZIGE was einem durch kleinere Leiterbahnen bei konstanter Signalspannung und Takt thermische Probleme bereiten könnte. Wieso sollte es sonst thermische Probleme geben?
Deshalb ist es auch eine grosse Herausforderung bei der Hardware-Entwicklung diese Leckströme durch die Wahl geeigneter Materialien zu vermeiden.

misu · 2. April 2013

@Vietcong: Auf deine üblichen Beleidungen gehe ich mal wieder nicht ein

Vietcong schrieb:
Woher weißt du dass der Speichercontroller günstig ist, kannst ja gerne dafür deinen Wissensursprung angeben.

Weil der Speichercontroller nur einen sehr kleinen Teil des Plates eines Dies einnimmt und man in erster Linie für die Größe des Dies bezahl. Exemplarisch hier der Floorplan der Sandy- und Ivy Bridge 4C CPU. Bei Ivy sind die Speichercontroller im System Agent integriert. Wie man sieht wird dessen größere klar durch Kerne, Cache und Grafik dominiert, und keineswegs durch den Speichercontroller.

Vietcong schrieb:
Und nein mehr Leiterbahnen sind nicht mit großen Mehrkosten verbunden, da wir bei den Produkten überwiegend nur Forschung und Entwicklung bezahlen und den Rest macht Foxconn mit den Scharen der chinesischen Bevölkerung.

Das Gegenteil ist der Fall.

Vietcong schrieb:
Zum PCI-Express, da auf Boards wie die FM2-Serie die North Bridge und Leiterbahnen fehlen, hat man ja genug Platz wieder für mehr Leiterbahnen, sprich es könnte erweitert und gesplittet werden und um die daraus resultierenden Latenzen Einhalt gebieten, könnte man den Transistoreffekt benutzen um die Ströme einfach noch schneller durch die Leiter zu schicken sprich die Informationen (Wird zwar oft genutzt aber nicht im vollen Maße). Zu den Lenkströmen Silliziumoxid ist ein todsicherer Isolator, da sollten keine Störungen auftreten.

So ein Gelaber.

Ich kann Nai nur zustimme, 50% deiner Aussagen macht überhaupt keinen Sinn, die andere Hälfte ist falsch. Mir war bisher nicht klar, dass man postmoderne Schreibtechnik im technischen Bereich anwenden kann.

@nai: Gute Slides von dir

Der Herr Volkov ist ja auch so eine Art Mr Cuda-Performance

x-polo · 2. April 2013

Vietcong schrieb:
Nein die neuen APUs falls sie in nächster Zukunft kommen ...
Ich kann aber sehr gut die Situation einschätzen ...
Ich schätze die GPU-Power auf eine 6850 oder einer 6870

Die kommenden Kaveri APUs haben 512 Shader haben ,gleiche GPU wie die HD 7750.
Das ist eh schon relativ großer GPU-Kern,Leistung würd dann mit entsprechender Bandbreite (GDDR5) auch maximal eine HD 7750 erreichen.

Zum Thema Dual Graphics -> HD 6530D+HD6570 vs.HD 6570
Gibt eigentlich keine zwei Meinungen daüber.

AMD APU in der PS4

JoeCool

Gast

Vietcong

Gast

Lieutenant

Banned

Banned

Lt. Commander

Vietcong

Gast

Lt. Commander

Lieutenant

Vietcong

Gast

Lt. Commander

Vietcong

Gast

JoeCool

Gast

Lt. Commander

Lieutenant

Lt. Commander

Vietcong

Gast

Lt. Commander

Lieutenant

Lt. Commander

Ähnliche Themen

Passend zum Thema