Wie viel schneller können CPUs noch werden?

mensch183 schrieb:
Stell dir einfach vor, du hättest eine CPU, die alles 10 mal so schnell wie ein Skylake berechnen könnte. Was genau wäre dann bei deiner täglichen Arbeit fühlbar schneller? Laß mich raten: Fast nichts.

Im Desktop Betrieb würde es fast keinen Unterschied machen. Aber bei Rendering, kompilieren usw, wäre es dann tatsächlich auch 10 mal schneller. Und hier spreche ich nur von Heimanwendungen. Server und Rechern Cluster würden nochmal viel mehr, von der zusätzlichen Performance profitieren.
Ergänzung ()

unins000 schrieb:
Meines Wissens sind wir von dem Nanometerverfahren her ziemlich weit, weshalb ich denke, dass ungefähr 10nm die Grenze sein wird.

Ich habe von einem absoluten Maximum von 5nm gelesen.
 
mensch183 schrieb:
Nur schätze mal, wieviel % der Rechenlasten auf PCs solche Lasten sind, also CPU-begrenzt und "lang" dauernd, also sagen wir mal eine ganze Sekunde oder länger, damit wirklich ein Wartegefühl aufkommen kann. Sowas ist selten.

Warum sollte das selten sein?! Beim Arbeiten ist es doch wohl die CPU, die bremst. Sollte dich dein RAM beim Arbeiten ausbremsen, dann nimm einfach welches, dass höher getaktet ist, niedrigere Latenzen hat und mehr Kanäle verwendet.
Ergänzung ()

NoahFle schrieb:
Ich habe von einem absoluten Maximum von 5nm gelesen.
Dann hat derjenige, der das geschrieben hat Blödsinn geschrieben. 5nm können nicht das Maximum sein, wir haben doch schon immer Strukturen gehabt, die größer sind als 5nm.
 
Du sagst das mit einer solchen Bestimmtheit, dass ich an meiner Wahrnehmung zweifle, aber ich glaube du redest völligen Unsinn. Der RAM ist im Vergleich zum Cache bereits elend langsam, der wiederum viel langsamer ist als die Register. Benötigt die CPU frische Daten liegt sie viele Zyklen brach und wartet darauf, dass sich der lahme RAM überhaupt mal bewegt (Latenz) und dann ist die Bandbreite auch noch verhältnismäßig gering.
 
CloakingDevice schrieb:
Du sagst das mit einer solchen Bestimmtheit, dass ich an meiner Wahrnehmung zweifle, aber ich glaube du redest völligen Unsinn.
Mag sein, dass ich mich irgendwo vertue. Mein Gedanke war etwa so: wäre RAM der Flaschenhals müsste mehr Bandbreite deutliche Vorteile bringen. Quadchannel ist theoretisch doppelt so schnell wie Dualchannel, in der Praxis macht es sich kaum bemerkbar. Kannst dir ja auch gerne mal nen Benchmark dazu ansehen: http://www.pcworld.com/article/2982...e-shocking-truth-about-their-performance.html

Wenn ich also wirklich Unsinn rede: wo liegt mein Fehler und warum verhält sich die Realität trotzdem so wie ich es gesagt hab?
 
Wie sich die Speicherbandbreite und Latenz des Arbeitsspeichers auswirkt, kommt stark darauf an, welches Zugriffsmuster die Anwendung erzeugt. Bei linearen, gut vorhersehbaren Zugriffsmustern lässt sich das Ganze gut vorhersagen und entsprechend sind Zugriffe selten, die nicht durch den Cache bedient werden können. Eben auch, weil auf Verdacht Daten in den Cache geschaufelt werden. Entsprechend kommt es da nur selten wirklich darauf an, dass der RAM mit geringer Latenz und hoher Bandbreite Daten nachliefert.
Es gib jedoch auch andere Anwendungen, die eher zufällige Zugriffsmuster erzeugen, sich nicht vorhersagen lassen und entsprechend nicht aus den Caches bedient werden können. Damit tritt ein sogenannter "Cache Miss" auf. Aus Sicht der Performance ist sowas schon ein halber Weltuntergang*, da der RAM zigfach langsamer ist als jeder Cache. Bei Anwendungen die solch zufälligen Zugriffsmuster erzeugen wird entsprechend ordentlich schwarze Magie angewendet, um die Cache Misses zu reduzieren.
Ebenso ist der Bandbreitenbedarf je nach Algorithmus unterschiedlich hoch. Wenn auf einem kleinem Datensatz ewig lang herumgerechnet wird bevor das Ergebnis irgendwo gespeichert werden muss und der nächste Datensatz benötigt wird, dann macht die Bandbreite wenig aus. Wenn hingegen große Datensätze mit wenig rechenintensiven Sachen wie einer Bitverschiebung behandelt werden, dann braucht es Bandbreite ohne Ende, denn die CPU hält sich mit sowas nicht lang auf.

Entsprechend ist es sehr abhänig, welche Anwendung läuft wie relevant die Speicherbandbreite ist.


*Zugriffe auf den Festspeicher sind der ganze Weltuntergang, selbst per PCIe angebundener FlashSpeicher der aller schnellsten Sorte ist einfach so unglaublich langsam.
 
Was wäre denn ein gutes Beispiel einer normalen produktiven Arbeit, die von schnellerem RAM merklich profitiert? Würde das dann von einer schnelleren CPU wirklich nicht profitieren, oder nur etwas weniger?
 
Datenbankzugriffe und da sorgst du allein auf Computerbase für ein paar hundert bis tausende mit ein paar Minuten Aktivität, oder beim Googln, oder alle anderen Sachen die du im Web treibst.
 
NameHere schrieb:
Dann musst du dich mit den Salamischeibchen von Intel anfreunden.
Wenn man nur den Mainstream sieht, so ist schon lange bei 4 Kernen Schluss, für die Enthusiastenplattform gibt es langsam mehr, erst 6, inzwischen 8 und künfig sogar 10, wenn die Gerüchte stimmten. Man kann halt eine Xeon E5 nehmen, aber dann hat man bei so vielen Kernen noch weniger maximalen Takt und damit weniger Singlthread Performance, die aber gerade für Heimanwender sehr wichtig ist. Damit die nicht leidet und weil gleichzeitig viele SW von Heimanwendern gar nicht von mehreren bzw. mehr als 4 Kernen profitiert, sind 4 schon ein guter Kompromiss für die meisten Heinanwender. Außerdem muss man ja auch die Leistungsaufnahme und Kühlung im Auge behalten.
NameHere schrieb:
Den die servieren nur so viel wie sie müssen.
Wieso gibt es dann den Xeon E5-2699 v3 mit 18 Kernen, wenn es vorher weniger gab und AMD nicht einmal einen mit so viele Kerne, geschweigen der gleichen Performance im Angebot hat? Und für die Purley-Plattform (Skylake EX/EP) reden die Gerüchte von bis zu 28 Kernen, während für Broadwell EX/EP von 22 oder 24 Kernen als Maximalausbau die Rede ist, ohne das AMD auch nur eine CPU mit einer ähnlichen Anzahl auch nur angekündigt hat. Auch ohne einen Wettbewerber muss Intel schon deshalb mehr bieten, damit die Unternehmen eine Grund zum Aufrüsten haben und weil es eben einfach mit der neuen Technik möglich ist.
NameHere schrieb:
Bedeutet, das du in den nächsten Jahren kein 16-kerner oder 100% Leistungszuwachs sehen wirst
Mit der Purley-Plattform aber wohl 2017 einen 28 Kerner, Versionen mit 16 Kernen dürfte es aber sicher auch geben :D Das sind dann aber eben keine CPUs für Heimanwender, was sollten die auch damit anfangen? Aber wer sowas braucht, der kann sich schon heuten einen kaufen, der halt nicht für Heimanwender gedacht, kann von ihnen aber trotzdem erworben werden.
NameHere schrieb:
Es sei den AMD bringt etwas wirklich schnelleres als Intel im Angebot hat.

Es ist schon Heute möglich viel schnellere CPU's zu bauen, jedoch steht das nicht in Kosten/Nutzen relation.
Wenn es so einfach wäre und die Hersteller schon die nächsten Generation fertig entwickelt in der Schublade zurückhalten würden, wie es ja von einigen Leuten gerne behauptet wird (übrigens höre ich das seid über 20 Jahren), meinst Du nicht AMD würde in der Kriese in der sie stecken nicht mal so langsam die Schublade aufziehen und Zen auf den Markt bringen um endlich das so dringend benötigte Geld nicht nur mit dem Verkauf von Tafelsilber reinzuholen? Wenn nicht jetzt, wann dann?
NameHere schrieb:
Intel hat definitiv Luft nach oben, nur springen die nur so weit es nötig is, da AMD nicht aus den Puschen kommt
Was heißt Luft nach oben? Noch mehr Kerne auf einem noch größeren Die bringt der Xeon Phi, aber da ist die TDP auch höher, der Takt geringer und die Kerne muss man erst einmal auslasten können, dazu braucht man schon die passenden Anwendungen und selbst die skalieren meist nur eingeschränkt über noch mehr Kerne.

mensch183 schrieb:
Viel öfter bremst der Fluß der Daten eine schnellere Verarbeitung, nicht ein zu langsames Rechenwerk. Der typische modere, teure Skylake-Prozessor verbringt den Großteil seiner Lebenszeit mit dem Warten auf Arbeit.
So ist es und deswegen kommt von der Leistungssteigerung die man in den theoretischen Benchmark nachweisen kann, diese sind ja extra so gemacht nur einen Teil auszulasten um die Einflüsse des restlichen Systems möglichst gering zu halten, dann am Ende bei praktischen Anwendungen kaum etwas merkt. Ebenso ist es bei den SSDs, man schaue sich mal den Review der Samsung 950 Pro ab, die schafft im Benchmark teils über 2500MB/s lesen, aber in den Praxistest kommt davon kaum was an und sie kann sich da bei weiten nicht im den Faktor 4 bis 5 gegenüber SATA SSDs absetzen, eher muss man schon über 4 bis 5% Mehrleistung froh sein. Eben weil andere Dinge wie die CPU Performance dort eine Rolle spielen.

mensch183 schrieb:
Stell dir einfach vor, du hättest eine CPU, die alles 10 mal so schnell wie ein Skylake berechnen könnte. Was genau wäre dann bei deiner täglichen Arbeit fühlbar schneller? Laß mich raten: Fast nichts.
So ist es, die Latenzen bekommt man nicht kleiner, beim RAM hat sich zwar der Durchsatz gewaltig erhöht, aber die Latenzen sind praktisch gleich geblieben. Hier z.B. für Mehrprozessor Xeon E5 und E7, da geht unter 72ns nichts, selbst bei nur 2 GHz Prozessortakt sind das 144 Zyklen, bei 3 GHz dann 216. Hier wars zur Latenz der Cachezugriffe von Nehalem bis Haswell, für L1 Zugriffe gehen bei allen mindestens 4 Zyklen drauf, für L2 hat es sich von 10 auf 11 Zyklen erhöht.

CloakingDevice schrieb:
Eventuell kann ich das Problem anders betrachten und einen besser parallelisierbaren Ablauf finden, womöglich aber auch nicht.
Eben, es gibt gar nicht so wenige Algorithmen, die mann einfach nicht parallelisieren kann! Bei anderen lohnt sich der Programmieraufwand einfach nicht, denn das ist ja auch nicht mal eben so getan, zumal ein Rattenschwanz an Validierung und Debugging dazu gehört. Für viele Serveranwendungen ist das aber auch egal, da dort die CPUs an viele verschiedenen Problemen arbeiten, z.B. bei VM-Servern wo auf jeder VM andere Porgramme laufen und dafür aber viele virtuelle Kerne auf jedem realen Kern. Oder bei Datenbanken, Oracle 11R2 (keine Ahnung ob es bei Ora12 noch so ist) nutzt pro Connection immer nur einen Kern, aber in Produktivsystem hat man eben Hunderte oder Tausende von Verbindungen, da skaliert die Performance dann sehr gut mit mehr Kernen, aber wer hat sowas schon als Heimanwender Zuhause stehen?
CloakingDevice schrieb:
Je größer im Vorfeld getönt wird, desto skeptischer werde ich. Wie lange erzählt uns HP schon von ReRAM und Memristors, die Flashspeicher antik aussehen lassen sollen. Geplante Markteinführung 2013. :lol:
Ja ich auch. Dann kommt plötzlich Intel und kündigt das mit Micron zusammen entwickelte 3D X-Point an, von dem schon Prototypen gezeigt wurden und welches im nächsten Jahr in fertigen Produkten zu kaufen sein wird. Nicht nur die Purley-Plattform, sondern sogar die 200er Chipsätze für Kaby Lake, also der Mainstream, sollen das unterstützen! Also Vorbereitung hat Intel auch schon vor Jahren angefangen das NVMe Protokoll für PCIe SSDs zu entwerfen und erst jetzt erfährt man, wozu das gemacht wurden und es für die aktuellen NAND Fash SSD gemacht wurde. :cool_alt:
 
mensch183 schrieb:
Ist auch nicht schlimm, dass die Universal-CPUs kaum schneller werden. Schnelles Rechnen ist sowieso selten das Problem. Von den häufiger auftretenden, rechenintensiven Problemen sind die meisten sehr einfach gestrickt und prima parallelisierbar und werden deshalb mit massiv paralleler Spezialhardware erledigt.

So ist es - die CPU ist heute eigentlich noch viel mehr das, für was sie urspünglich gedacht war - nämlich die zentrale Allround-Unit die das Zusammenspiel zwischen spezielleren Processing-Elementen.

Denn: CPUs sind für allgemeine Berechnungen vieler Arten ausgelegt - viele Instruktionen aller Arten, diese aber dafür nur mäßig flott.

Deshalb kann man viele Probleme mit CPU-Leistung auch gar nicht erschlagen - GPUs können ihre spezielle Art von Arbeit um Faktoren schneller erledigen, SSDs entlasten die CPU vom I/O-Nadelöhr., etc.

Allerdings: Sinn macht ne schnelle CPU trotzem ;-) Zumindest find ich nen 8-Thread-Prozessor momentan im Alltag nicht oversized - Dropbox, Browser, Spotify etc. alles gleichzeitig starten - mit ner SSD zusammen geht das schon gut ab.
 
Zuletzt bearbeitet:
Wieso gibt es dann den Xeon E5-2699 v3 mit 18 Kernen, wenn es vorher weniger gab und AMD nicht einmal einen mit so viele Kerne, geschweigen der gleichen Performance im Angebot hat?
Intel konkurriert auf dem Sektor aber nicht mit AMD, sondern mit IBM. Und ich habe keine Zahlen, aber ich meine mal vor 1-2 Jahren gelesen zu haben, dass Intel denen bisher immer nur recht deutlich hinterher gelaufen ist in der Software, die für beide Architekturen verfügbar ist.
 
unins000 schrieb:
Meines Wissens sind wir von dem Nanometerverfahren her ziemlich weit, weshalb ich denke, dass ungefähr 10nm die Grenze sein wird. Was danach passieren wird? Weiß ziemlich niemand, ich gehe von einer höheren Taktfrequenz, mehr Kernen bzw. Threads und einen höheren Cache aus. Aber rein Physikalisch wird sich denke ich nicht mehr viel ändern.

Irgendwo hab ich gelesen Hadwareluxx das IBM 7NM chips Testweise herstellt hab mir nur das bild davon gespeichert :D
 

Anhänge

  • ibm-7nm-finfet-2.jpg
    ibm-7nm-finfet-2.jpg
    914,9 KB · Aufrufe: 202
VikingGe schrieb:
Intel konkurriert auf dem Sektor aber nicht mit AMD, sondern mit IBM. Und ich habe keine Zahlen, aber ich meine mal vor 1-2 Jahren gelesen zu haben, dass Intel denen bisher immer nur recht deutlich hinterher gelaufen ist in der Software, die für beide Architekturen verfügbar ist.
Naja, wenn man sich die SAP S&D 2-Tier Benchmarks mal anschaut, sieht das ungefähr so aus:

IBM Power Enterprise System E870, 8 Processors / 80 Cores / 640 Threads, POWER8, 4.19 Ghz, 32 KB (I) and 64 KB (D) L1 cache and 512 KB L2 cache per core, 8 MB L3 cache per core

= 436100 SAPS

Lenovo System x3950 X6, 8 Processors / 144 Cores / 288 Threads, Intel Xeon Processor E7-8890 v3, 2.5 Ghz, 64 KB L1 cache and 256 KB L2 cache per core, 45 MB L3 cache per processor

= 330930 SAPS

____

Bei der gleichen Sockel-Anzahl sind die IBM Kisten zumindest in dieser speziellen Disziplin schon rund 30% schneller als die größten Intel Maschinen (wenn man von 16-Socket Systeme wie HP Superdome X mal ausklammert).

Jetzt kommt jedoch das "aber":

- Die POWER8 mit über 4 GHz sind absolute Monster, wo es kaum offizielle Angaben zur TDP gibt. Schätzungen liegen aber im Bereich 250 Watt, was verglichen mit den CPUs aus der Series z, die auch schon mal 300 Watt TDP haben und oft wasser-gekühlt sind, auch durchaus realistisch ist. Die Xeons sind dagegen mit 145 Watt spezifiert, was schon mal ein deutlicher "Nachteil" (oder Vorteil) ist

- Ist IBM auch nicht dafür bekannt, ihre Systeme und Software zum Schäppchenpreis an den Mann (oder politisch korrekt auch an die Frau) zu bringen. Wer sich schonmal mit der PVU-Lizenzierung von so mancher IBM-Software auseinander gesetzt hat, weiß wovon ich spreche

__

Also muss man das ganze schon ein wenig differenziert betrachten. Ja, die IBMs sind äußerst harte Gegner, wenn es um die absolute Leistungsspitze geht. Aber die hohe Leistung wird sowohl durch eine ungleich höhere Leistungsaufnahme und einem nicht zuletzt auch saftigen Preisen erkauft.
 
Zurück
Oben