lalachen schrieb:
Vielleicht am Turbo? SMT? Compiler?
joa sicher auch. Sonst würde dass die CPU wohl kaum mit sich bringen.
Genau, so konnte Intel wohl auch SMT ausspielen. *lach*
und das sagt einer der SMT sicher immer verteufelt hat. Wie war das, SMT max 10% ... sicher sit es auch nur 10% - man kann sich ausrechnen wie fix die 12 Kerne ohen SMT wären.
gruffi schrieb:
Eher weniger. Es mag Einzelfälle, klar. Grundsätzlich wollen Serverbetreiber aber Energieeffizienz, Parallelisierung und hohe Bandbreiten bzw hohen Durchsatz. Frag mal AMD, die haben mit vielen Serverbetreibern und Partnern gesprochen. Und dabei ist rausgekommen, dass diese gar nicht so hohe Taktraten wollen, da viele Tasks sowieso nur mit Teillast laufen. Die wollen Kerne bzw Threads, um den aktuellen Anforderungen einer hohen Parallelisierung gerecht zu werden.
joa wer eben diese Anforderungen hat fährt mit dem 12 Kern AMD doch genau richtig, ich habe nie gegenteiliges gesagt. Je nach Anwendung gilt es abzuschätzen. Aber die kleineren Server nutzen selten diese hohe Parallelisierung. Web / Wissenschaft lassen sich zb weit besser parallelisieren als irgendwelche CAD Konvertierungen.
Dann hast du aber wenig Ahnung von Software. Die wenigsten Server Anwendungen laufen mit einem Thread pro Prozess. Viele machen auch den Fehler, dass sie glauben, es läuft nur ein Task pro Server, der sich womöglich auch noch nicht sonderlich gut parallelisieren lässt. Das ist aber genauso falsch. Da sprechen sie eigentlich von Workstations. Und selbst dort verliert das Argument mehr und mehr an Bedeutung.
die aussage bezog sich auf den Desktopbenutzer oder kleinere Firmenserver. Nicht auf Racks mit 1000 cores und irgendwelche Webgeschichten. Sorry, dass das nicht rüber kam.
Bei letzteren müssen natürlich mindestens soviele Threads wie Kerne laufen, sonst macht es wenig Sinn.
Tja, das wird aber ein Wunschtraum bleiben. Erstere Lösung wird einfach energieineffizienter arbeiten. Und das will niemand. Wie hier schon gesagt wurde, wenn du nur von wenigen Kernen profitierst und hohe Taktraten willst, dann ist Magny-Cours bzw G34 schlichtweg die falsche Wahl für dich. Dafür gibt es ja Lisbon bzw C32.
Wunschtraum mit heutiger Technik sicherlich. Aber das musst du mir nicht sagen wenn jede woche neue CB News mit Screens ala LN2 und 5 Ghz + auftauchen.
Es ging um eine Hypotese eines 10 Ghz schnellen, nicht architekturlimitierten Quad.
Nicht wirklich. Intel konzentriert sich einzig und allein auf "fette" Kerne, sonst nichts
.
so pauschal würde ich das nicht sagen. Mit fetten Kernen versucht Intel den Durchsatz zu erhöhen ohne dabei an anderen Stellen Einbrüche in Kauf nehmen zu müssen. Viel eher ein Relikt der x86 Architektur an sich.
Ein Relikt aus vergangenen Zeiten und deswegen ist Larrabee vorerst auch gescheitert. Genauso Fermi, der anstatt auf effiziente Vektorprozessoren wie ATI lieber "fette" CUDA Kerne verwenden wollte.. Da kann man sich ungefähr ausrechnen, was Bulldozer, ebenfalls in 32 nm, bieten wird.
Ich geb dir recht dass der G100 mehr zur eierlegenden Wollmilchsau wurde und nicht das was wir erwarten in schlankester und effizientester Forum umsetzt. 3D Darstellung wurde mehr und mehr zum Nebenprodukt des Chips. ATI hat hier aus unserer Sicht natürlich den richtigeren Weg gewählt.
Wenn du eine CPU mit immer schlankeren Kernen willst die immer parallelisierter arbeiten hast du irgendwann eine heutige GPU. Und genau diese Server Aufgaben die bisher von 1000 CPUs gelöst werden fokusiert Nvidia mit dem G100 und Tesla an.
Durchsatz bezieht sich auf die gesamte CPU, also das, was insgesamt hinten rauskommt. Einzelne Aspekte, wie Anzahl der Kerne oder Takt, sind dabei nebensächlich.
Kerne sind nebensächlich - aha. Wie kann sich dein Durchsatz auf die ganze CPU beziehen und dabei Kerne nebensächlich sein? Ich geb dir recht wenn du so argumentierst dass Kerne nicht mehr als solche bezeichnet werden sollten sondern eine CPU skalar und nicht in Kerne getrennt arbeiten sollte. Ein Kern der aber parallisiert arbeiten kann.
Dennoch wird Takt immer der offensichtlichste Faktor auch beim Durchsatz bleiben.
Mindestens so oft zieht Intel ebenfalls den Kürzeren. Und wenn man weiss, dass Anandtech ihre "Tests" stark zugunsten von Intel auslegt, kannst du dir vorstellen, wie die Praxis ausschaut. Schau dir besser objektiviere Reviews an. Gerade auch was HPC betrifft, dürfte Magny-Cours die Konkurrenz klar übertreffen. Aber Anandtech sagt zumindest eines richtig, man sollte sich vorher genau informieren, welche Workloads für einen wichtig sind. Je nach dem können die Systeme recht unterschiedlich performen. Insgesamt ist Magny-Cours trotzdem die potentere Plattform.
Ehrlich gesagt würde mich wundern wenn 24 gegen 12 Kerne nicht irgendwie potenter darstehen würden. Ich kenn mich mit den einzelnen Benchmarks nicht aus.
Ich halte mir nur vor Augen, das der MagnyCour nichts anderes ist als zwei L5640 auf einem Package. Intel hätte hier mit 32nm die Nase vorn. Auch klar bei einem Jahr Fertigungsvorsprung aus mMittelnd ie mehr oder minder legal erworben scheinen.
Ziemlich sicher nicht. Denn der 5768ste muss warten, bis 5767 vorher abgearbeitet wurden. Und das kann AMD aufgrund der hohen Parallelisierung einfach schneller.
sofern eine Queue ensteht ja. Aber wenn der CPU nicht rechzeitig nachkommt Prozesse abzuarbeiten stehen bei beiden CPUs die Prozesse Schlange. Ich sage auch nicht dass 0 Parallelisierung gut ist, natürlich nicht. Zb wenn ein Prozess den gesamten Kern blockiert.
Aber dein Beispiel setzt vorraus dass der 5768ste wirklich absolut unabhängig vom 5767ten ist. Und so einfach sagen dass er das schneller kann passt auch nicht, wenn die Job an sich von der einen CPU doppelt so schnell abgearbeitet wird.
Bei zwei Prozessen bleibt nur der Vergleich 1 Kern vs 2 Kern: Angenommen man braucht 2 Takte pro Job
Time t: ----- t0 ----- t1 ----- t2 ----- t3
CPU 1 -- | Takt1 | Takt2 | Takt3 | Takt4
Kern1: -- | 5767 | 5767 | 5768 | 5768
Time t: ----- t0 ----- t1 ----- t2 ----- t3
CPU 1 -- | Takt1 | ------- | Takt2 | ------- |
Kern 1: -- | 5767 | ------- | 5767 | ------- |
Kern 2: -- | 5768 | ------- | 5768 | ------- |
Was erkennt man:
CPU 1 hat Job 5767 bereits nach t1 abgearbeitet. Ergebnis von Job 5768 steht nach t3 zur Verfügung.
CPU 2 hat sowohl 5767 als auch 5768 erst nach t3 fertigberechnet.
Desweiteren kann bei CPU 1 5768 das Ergebnis von 5767 vorraussetzen, bei CPU 2 sähe das so aus:
Time t: ----- t0 ----- t1 ----- t2 ----- t3 ----- t4 ----- t5 ----- t6 ----- t7
CPU 2 -- | Takt1 | ------- | Takt2 | ------- | Takt3 | ------- |Takt4 | ------- |
Kern 1: - | 5767 | ------- | 5767 | --------------------------------------------- |
Kern 2: -- | ----------------------------------- 5768 | ------- | 5768 | ------- |
Klar sollte das bei einem parallelen System nicht die Regel sein da sonst nicht parallel
Nicht wirklich. Nehalem-EX geht eher Richtung RISC, das ist ein anderer Markt. Ausserdem wird die Plattform extrem teuer. Magny-Cours liegt genau genommen irgendwo zwischen Westmere-EP und Nehalem-EX.
Doch, genau deswegen gehen sie ihn. Für mehr und kompaktere Kerne hat man sich entscheiden, weil man hier eine effizientere Lösung sieht als Intels fette Kerne inklusive SMT. Und was AMD mit Magny-Cours beginnt, wird sich nahtlos mit Bulldozer fortsetzen, später auch als APU. Hätte AMD etwas anderes gewollt, hätte man Bulldozer auch ganz anders entwickelt.
Dennoch werden die fetten Kerne für den Homie oder den kleinen Unternehmensserver noch lange mehr Leistung bringen als diese schlanken Kerne. Wennd ie schlanken Kerne mehr leisten als ein einzelner Fetter Kern, auch Takt technisch, dann siehts anders aus.
Ich bin auch gespanntauf das was uns Bulldozer bringt. Aber noch ein weiter Weg...
Nicht wirklich. Erstmal ist das Gegenstück zum 2,2 GHz Opteron der 2,93 Xeon. Inklusive Turbo taktet der maximal auf 3,2 GHz (iirc), und das nicht garantiert. Dazu kommt ~10% mehr IPC bei Intel. Macht also maximal etwa 60%.
jop, sagt mir dass ich Minimum 60% alle 12 Kerne total auslasten muss um auf die Intel Leistung zu kommen. DIe frage ist ob ichs leichter schaffe 6 oder 12 Kerne auszulasten
Irgendwo zwischen 6 und 12 Threads kann also die Leistung zum 12 Kern kippen, kann aber nicht muss. Bis man 12 Kerne zu Hause auslastet( >60% aller Anwendungen) dürften wir (mit x86 und Windows) alt und grau sein esseiden die Games werden via Raytracing von der CPU berechnet.
Arhey schrieb:
Naja Takt ist nicht alles.
Bestes Beispiel GTA IV ein auf 3.8 GHz übertakteter E8400 kann nicht mit einem Q9400 mit 2.67 GHz mithalten alles wegen der Paralelisierung.
Also zieht das Argument mit 50% schneller zumindest in bestimmten Bereichen gar nicht, da es aus der Luft gegriffen ist und absolut keine Aussagekraft hat.
Takt ist in der Tat nicht alles. GTA4 lastet sogar den Quad gut aus. 4x 2,67 machen auch 10 Ghz + effektiv, was einem E8400 auf über 5,3 Ghz gleich kommen würde.
Effizienztechnsich fährt man eben mit 3 Ghz noch am besten. Ob da so bleibt weiß man nicht. Mit Licht könnten x Fach höhere Frequenzen drin sein was die einzelnen Kerne sehr beschleunigen könnte.
Irgendwann ist die Fertigungsgrenze erreicht, irgendwann kann ich auch nicht imme rncoh effektivere Kerne bauen und die DIE Fläche ist auchbegrenzt. Was bleibt ist Takt oder Quanten