News IDF: Intel bestätigt „Sandy Bridge“-Gerüchte

Eisenfaust schrieb:
Während man von AMDs 'Bulldozer' bisher nur hypothetische Leistungswerte erfahren konnte, kann man bereits bei Intel die ersten Vermessungen durchführen. Im Moment ist es schwer eine Prognose abzugeben. Die IPC der Sandy Bridge scheint sich gegenüber 'Westmere' nur um 10% gesteigert zu haben - für einen evolutionären Schritt sicher ausreichend. Große Erwartungen stellt man an AVX, aber hier ist ja AMD ebenfalls mit von der Partie.
Wenn man etwas mehr Verrständnis über Architekturen hat, dann kann man die Sache besser einschätzen.

Sandy-Bridge ist ein netter Sprung, der eine IPC (10)25% Steigerung bringt, falls die Werte Cinebench von xBitlab echt waren. (Wovon ich jetzt ausgehe, da ich dies von einer neuen Architektur grundsätzlich. Alles deutlich darunter wäre ein Flop)

Bulldozer könnte/wird erheblich mehr zulegen.

a) Ist schon bestätigt, dass ein von dir genannter Pseudo-Kern bei der Einführung schneller sein wird als ein aktuellen K10-Kern. (Takt wurde bewusst nicht gesagt;-))
Das ist eine klare Ansage.
Da braucht man ja keinen hübschen Bildis mit Benchmarks oder irgendwelche vorgeführten Tests die das zeigen.

b) wird die Core-Fläche eines Bulldozer-Modul mit selber Transistor-Packdichte(?) so groß sein, wie Sandy-Bridge

c) bringt Bulldozer zusätzlich noch SSE3 sowie SSE4.1 sowie SSE 4.2 sowie High-K & Metal Gates sowie Power-Gating, was AMD bisher nicht und Intel schon hat.

So ein K10 soll von so 1,0-1,5 Instraction-per-Clock (IPC) haben.
Also, die 3. ALU wird sehr selten ausgenutzt. Leute die sich besser auskennen, meinen so, dass die Auslastung der 3. ALU des K10 bei 5% liegen soll.

Also, ist es sehr viel sinnvoller pro Integer-Core von 3 ALUs auf 2 ALUs zu gehen um damit die Performance-pro-Watt-Effizienz zu erhöhen und die Verwaltung zu vereinfachen !!!! (= höhere Taktbarkeit), fast ohne die Performance-pro-Clock zu senken, die mit Techniken wie z.B. Trace-Cache den leichten Performance-Verlust-pro-Clock durch die ALU-Redukation kompensieren oder gar noch zulegen können.
Oder im schlimmsten Fall halt über den Takt, was aufgrund des geringeren Stromverbrauchs kein Problem wäre.

Der Hauptgrund warum ein 2. Integer-Core bei Bulldozer möglich ist, weil dieser nur 12,5% groß ist. Beim K10 macht dieser noch 33%. Also, eine Erhebliche Reduktion.
IMO dürfte das aufgrund der L1-Data-Cache sein, die von 64 kb (1,6mm² bei K10-32nm) auf 16 kb (0,4mm²??) mit höherer Assoziation gesenkt wahrscheinlich erheblich gesenkt werden konnte.

8 oder 10-Kern Sandy-Bridge sind zwar nett, aber brauchen sehr lange bis sie eingeführt werden. Siehe 8-Kern-Westmere-EX.

Es sagt ja keiner, dass AMD auch CPUs mit 6 oder 8 Bulldozer-Kerne einführen kann.
Auf solchen Fragen, betont AMD immer nur, was es zur Bulldozer-Einführun geben wird.

Aber so wichtig finde ich es nicht. Wenn ein Bulldozer-Integer-Core bei der Einführung schneller als ein aktuelle K10-Core ist, dann ist es auch schon bei ein guter Schritt bei Servern von aktuell 12-Kernen auf 16-Kernen bzw. im Desktop-Bereich von 6 auf 8-Kernen zu gehen und das mit erheblich geringen Die-Größe. (Ein K10.5-Kern @ 45nm hat mit 15mm² genau die selbe Fläche wie ein Bulldozer-Modul @ 32nm (=50% größer als K10.5@32nm) vermutet wird.

Eisenfaust schrieb:
Ach ja, da gerade das Stichwort OpenCL fällt. Die so vielbeschworene 'Wunderwaffe' wird sicher noch eine Weile gären müssen, bis sie softwaretechnisch mit der Hardware mit ausreichender geschwindigkeit konvergiert. Im Moment gibt es keine wirklich
Nur damit du es weißt.

OpenCL ist verbreiteter als du glaubst.
Im Smartphone-Markt ist OpenCL sehr verbreitet.
Größter Unterstützer & Pusher ist Apple, die OpenCL in iOS 4.0 und OS 10.6 schon integriert haben. Apple ist im Smartphone-&-Tablet-Markt nicht unwichtig, da sie den Takt vorgeben.

Interessant ist, dass Apple erste AMD-Produkte einführt.
Im neuem Workstation hat sich Apple statt Fermi (C++) & Cuda 3.0 lieber für AMD entschieden.
Interessant deshalb, weil Apple üblich sich nur von einem Hersteller beliefern lässt.
Da beide (Apple & AMD) OpenCL favorisieren und AMD der einzige Anbieter von CPUs & DX11-GPUs ist, wäre eine Zusammenarbeit keine Überraschung.

OpenCL wird sowieso erst ab Fusion-Einführung viel mehr Präsent sein.
Und gerade jetzt werden einige Browser (IE 9, Firefox 4.0,...) mit GPU-Beschleunigung geschrieben.

Auch im Smartphone bereich setzt man gerade verstärkt auf GPU-Beschleunigungen.

Also, momentan laufen die ganzen Vorbereitung ordentlich an und die ersten!!! Ergebnisse werden wir erst ab der Fusion-Einführung sehen.

Sandy-Bridge ist eine gute CPU, aber Intel wird halt momentan überschätzt und das sieht man wie Atom im Smartphone-Markt versagt. Also, ein Markt wo Intel die Mitbewerber nicht illigale beschränken können.

Intel hat jetzt das Problem, dass der Hauptkonkurrent AMD jetzt auch 2-3 Architektur-Entwickler-Teams hat statt früher nur einen (Bis Ende 2005) der den K8-entwickelte.

Früher konnte sich es Intel leisten, wenn neue Architekturen sich nicht durchsetzten/wegstarben (Netburst, Itanium, Larrabee 1. Gen), weil AMD ja nur den Hauptprozessor entwickeln konnte und nicht mehr.

In Naher Zukunft hat das größe Auswirkunge, da AMD überhall einen Konlurrenten entgegensetzten kann. Onatrio vs. Atom ist das beste beispiel.

Übrigend. Das Atom eine nicht so gute Architektur bzw. eher schlecht ist, hatte ich schon vor 1,5 Jahren spekuliert und mit Bobcat & Smartphone-Versagen zeichnet sich das eben ab. Atom war nur deshalb erfolgreich, weil sie einen Monopol hatten.

Wenn Larrabee wieder floppt, dann hat Intel ein Problem, weil nur eine gute CPU alleine wird in den nächsten paar Jahren schon zu wenig sein, da sich der Markt momentan stark wandelt.
Und da Bulldozer primäre auf Multi-Core aufgrund der hohen Integer-Core-Anzahl ausgelegt ist, wird auch der CPU-Only-Markt für Intel in den nächsten Jahren sehr hart werden.
 
Zuletzt bearbeitet:
Holt schrieb:
Von den Bandbreite ist es das gleiche, sofern die Karte auch PCIe 3.0 ist.
Gewiß, allerdings gibt es ein unauflösbares Dilemma, was die Konfiguration der nutzbaren PCIe-Slots und deren 'Lanes' betrifft.

Der dann wieder Latenzen hinzufügt. Heute Grakas verlieren nur wenige % an Leistung, wenn sie mit 8 Lanes angeschlossen werden, da sollte jetzt keiner graue Haare deswegen bekommen.

Ja, die ganz besonders bei TESLA-basierten Clustern eine signifikante Rolle spielen, leider. Oftmals torpedieren die Einbrüche bei Speichertransfers aus oder vom RAM des Rechners auf oder von der GraKa/TESLA Karte den Rechenvorteil, insbesondere dann, wenn die GPGPU-Kernel nicht in den Speicher der GraKa passen. Dazu gibts auch bereits Untersuchungen und Veröffentlichungen.

Soviel Unterschied bringt 1600 gegenüber 1333 auch nicht und außerdem habe ich noch keine Daten bzgl. RAM Unterstützung von Bulldozer gesehen. Da man ja den Sockel AM3+ eingeführt hat, wird es dort aber sicher Verbesserungen geben. Wenn man bedenkt, daß die heutigen AM3 CPUs 2x2 DIMMs ansteuern können und noch im AM3+ laufen werden, könnte es doch sein, daß diese 4 DIMMs bei Bulldozer dann als Quadchannel angesprochen werden.

Das hat man beim Vergleich DDR3-1066 und DDR3-1333 (ECC) auch gesagt und dies konnten wir NICHT bestätigen. Rechner mit DDR3-1333 RAM sind definitiv schneller. Für Spielzeug- oder Büroanwendungen mag das irrelevant sein, wenn der Rechner/die Rechner aber teilweise monatelang an einer Simulation rechnen, macht das sogar Stunden, wenn nicht Tage aus. Ich bin um jeden halben Tag dankbar, den ich geschenkt bekomme!

Ich fände es schon besservon 4 Modulen mit 8 Kernen zu reden, denn Intel HT ist viel mehr Pseudo als Kern im Vergleich zur Bulldozer Architektur.

Das mit der halben FPU gilt nur, wenn keine Kerne gleichzeitig ein DOUBLE Operation ausführen wollen.

Mein Rechner rechnet! Das heißt, die Software benutzt ausschließlich DOUBLE oder QUADROUPLE Datentypen. 'Module' ist ein netter PR Gag, letztlich bleibt es ein kastrierter Dal-Core, nur hat AMD noch etwas vom Gemächt gelassen, während Intel etwas mehr abgeschnippelt hat. Letztlich wird sich zeigen müssen wie sich beide schlagen. Dennoch, factum est, Intel kommt mit 8 nativen Sandy-Bridge-Kernen (UND FPUs!) daher, auf denen ich ohne Handbremsung auch uneingeschränkt doppelt oder gar mit long double rechnen kann. Bei AMD habe ich dann wiederum nur 4 Kerne/4 FPUs.

Es ist schön dazu eine Meinung zu haben, aber sehr gefährlich dabei falsch zu liegen, solange es keine neutralen Vergleichtests gibt und darauf werden wir alle noch eine Weile warten müssen, leider.
... und Du weißt natürlich auch schon was richtig und was falsch ist, nicht wahr. Dann wähne Dich glücklich.

Man solle nicht vergessen, daß AMD sich gerade personellen Zuwachs in diesem Bereich besorgt hat, was zeigt wie ernst man das Thema nimmt.

AMD hat sich, ich glaube im Jahre 2005 oder 2006, einen Ingenieur der (T)Itanium-Truppe aus Intels Lager zugelegt, der sich, wenn mich mein Erinnerungsvermögen nicht täuscht, um FPU Angelegeneiten kümmern soll. Das 'Barcelona-Wunder' konnten wir allesamt beobachten - und belächeln. Es ist nicht zu erwarten, daß hochkarätige personelle Zukäufe instantan eine Wirkung zeigen. Wir vergleichen Bulldozer mit Sandy-Bridge. Und wie wir schon festgestellt haben, wir wissen leider relativ wenig. Getrieben von Hoffnung und gesundem Menschenverstand (für die, die es brauchen) ...


aylano schrieb:
Wenn man etwas mehr Verrständnis über Architekturen hat, dann kann man die Sache besser einschätzen.
...

Bulldozer könnte/wird erheblich mehr zulegen.

Es soll ja noch echte Auguren geben, die dann doch nicht ganz an Delphi oder Delos heranreichen. Aber wenn ich in Zukunft konkrete Fragen habe, erfreue ich mich wieder einer 'wird erheblich'-Aussage.

a) Ist schon bestätigt, dass ein von dir genannter Pseudo-Kern bei der Einführung schneller sein wird als ein aktuellen K10-Kern. (Takt wurde bewusst nicht gesagt;-))
Das ist eine klare Ansage.
Da braucht man ja keinen hübschen Bildis mit Benchmarks oder irgendwelche vorgeführten Tests die das zeigen.
... Aha, ich bin erschrocken! Soviel Klarheit.

c) bringt Bulldozer zusätzlich noch SSE3 sowie SSE4.1 sowie SSE 4.2 sowie High-K & Metal Gates sowie Power-Gating, was AMD bisher nicht und Intel schon hat.

So ein K10 soll von so 1,0-1,5 Instraction-per-Clock (IPC) haben.
Also, die 3. ALU wird sehr selten ausgenutzt. Leute die sich besser auskennen, meinen so, dass die Auslastung der 3. ALU des K10 bei 5% liegen soll.

Intel hat obengenannte Fähigkeiten bereits in der Vorgängergeneration, kann also in der Folgegeneration schon wieder optimieren, wo AMD Neuland betritt.

Du machst das schon richtig, ich frage auch lieber Leute, die sich besser auskennen, wenn ich etwas nicht weiß. Löblich. Manchmal zitiere ich diese Leute sogar, nur verlangt man von mir, daß ich eine nachvollziehbare Referenz angebe, wenn ich etwas behaupte und mich auf diese Behauptung stützen möchte.

Also, ist es sehr viel sinnvoller pro Integer-Core von 3 ALUs auf 2 ALUs zu gehen um damit die Performance-pro-Watt-Effizienz zu erhöhen und die Verwaltung zu vereinfachen !!!! (= höhere Taktbarkeit), fast ohne die Performance-pro-Clock zu senken, die mit Techniken wie z.B. Trace-Cache den leichten Performance-Verlust-pro-Clock durch die ALU-Redukation kompensieren oder gar noch zulegen können.
Oder im schlimmsten Fall halt über den Takt, was aufgrund des geringeren Stromverbrauchs kein Problem wäre.

Der Hauptgrund warum ein 2. Integer-Core bei Bulldozer möglich ist, weil dieser nur 12,5% groß ist. Beim K10 macht dieser noch 33%. Also, eine Erhebliche Reduktion.
IMO dürfte das aufgrund der L1-Data-Cache sein, die von 64 kb (1,6mm² bei K10-32nm) auf 16 kb (0,4mm²??) mit höherer Assoziation gesenkt wahrscheinlich erheblich gesenkt werden konnte.

12,5 % von was? Von der Masse, der Pinlänge, der Chipfläche, der Transistoren? Wenn ich dies ins Spiel geworfene Zahl 12,5 als die gemutmaßten 'Mehraufwand an Fläche' interpretiere, so halte ich das für untertrieben, wenn nicht gar haltlos, da man nicht weiß, was hier verglichen wurde. Über den Takt hat AMD nichts verlautbart, also kann man auf dieser Basis nur phantasieren ...

Und wenn AMD dachte, da sei noch etwas Platz neben einem Kern und einer FPU für eine zweite Integer Einheit, dann bleibt es immer noch dabei: wenn gerechnet wird, stehen 8-Intel-Vollwertkerne gegen 4-AMD-Vollwert-Kerne (SMT und AMDs 'Modulo' einmal außen vor gelassen).

8 oder 10-Kern Sandy-Bridge sind zwar nett, aber brauchen sehr lange bis sie eingeführt werden. Siehe 8-Kern-Westmere-EX.

Und wo liegt das Problem? Gut DIng braucht Weil, das Spielzeug fürs Kinderzimmer brauch ich nicht ...

Nur damit du es weißt.

Wunderbar, nun kann ich mich aufgeklärt schimpfen?

OpenCL ist verbreiteter als du glaubst.
[...]

Woher weißt Du, was ich glaube? Ich tausche mich mit Fachkollegen auf Konferenzen aus und dort werden in aller Regel keine Modelle auf einem 'Smartphone' gerechnet oder sonstige Spielsachen gemacht. Wir haben ein wirkliches Interesse an der Portierung einiger mathematischer Bibliotheken in eine plattformübergreifende 'Metasprache', die man auf einer GPU ebenso wie auf einer CPU rechnen lassen kann. Chris Lattners LLVM Ansatz ist das beste, was ich bisher gesehen habe, nur wird es leider nur halbherzig unterstützt. Die Compilerbauer können auch mit solchen Mitteln an der Hand wenig machen, wenn der GPU-Hersteller kein ABI und API und/oder offengelegte Interna der GPU bereitstellt. Ob Graphik oder Netzwerk, Intel war bislang in dieser Sache stets Klassenprimus, auch was die Offenlegung und Opensource-Unterstützung betraf, von AMD kann man das nicht immer behaupten, auch wenn, krisengeschüttelt und notgedrungenermaßen dies bezüglich älterer GPUs auch schon mal passierte. Von nVidia ganz zu schweigen! Mein Budget ist einfach zu klein, um mir einen schweineteuren TESLA Cluster leisten zu können, um auf diesem dann Modellsoftware entwickeln und laufen zu lassen, die Kollegen nicht benutzen können, weil sie auf IBM Power-Systemen rechnen können (diese CPUs sind etwas Feines ...) und müssen. Meine Erfahrung zeigt, daß gerade in Fragen der GPGPU-Nutzung für den wissenschaftlichen Sektor (doppelt genaue Arithmetik ist Pflicht!) kaum nutzbar sind. Es gibt viele Spezialisten, die sich auf CUDA oder Brook+ einshießen oder eingeschossen haben, aber das produziert Insellösungen.
 
Zuletzt bearbeitet:
Tomahawk schrieb:
Hä? Ist doch in bestimmten Preissegmenten der Fall. Oder befürchtest du, dass Einstigsprozessoren 1000 Euro kosten werden?

Klar, wieso sollte Intel diese bei Monopol billiger hergeben? Dumm wären sie :D.

Ich sehe AMD überhaupt nicht an der Wand. Bulldozer wird die AMD-Situation bestimmt verbessern und stellt auch einen neuen, nicht ausgelutschten Architekturstand dar. Da hat man wieder eine gute Evolutionsbasis.

MfG
 
Eisenfaust schrieb:
Und wenn AMD dachte, da sei noch etwas Platz neben einem Kern und einer FPU für eine zweite Integer Einheit, dann bleibt es immer noch dabei: wenn gerechnet wird, stehen 8-Intel-Vollwertkerne gegen 4-AMD-Vollwert-Kerne (SMT und AMDs 'Modulo' einmal außen vor gelassen).

Die gängige Definition eines Kerns ist die, das es sich um eine Integer-Einheit handelt. Alles andere ist Zugabe.

Also, wenn überhaupt stehen hier 8 Kerne + 8 FPU-Einheiten, alle jeweils mit einem Front/Backend (INTEL) gegen 8 Kerne + 4 FPU Einheiten, wobei sich jeweils 2 Kerne ein Front/Backend teilen.

Die 12,5% waren die zusätzliche Core-Fläche auf dem Die, die umgerechnet auf die Gesamtchipfläche (also mit Cache usw). sogar auf nur 5% zusätzliche Die-Fläche schrumpft.

Also statt mit 200% Fläche 200% Leistung zu erreichen (Dualcore), will AMD mit 105% Fläche 180% Leistung erreichen. So gesehen dann mit 210% Fläche 360% Leistung.

Wobei das alles Milchmädchenrechnung ist, aber es sollte klar sein, was das Prinzip ist.

Die "fehlenden" FPU-Einheiten fallen dabei kaum ins Gewicht, da (hatte ich mal wo gelesen) ca. 80% aller anfallenden Rechenaufgaben Integerberechnungen sind.

Insofern ein logischer Schritt, den INTEL auch noch gehen wird. Genau wie beim integrierten SC und AMD64.

Bis jetzt wurden nämlich nur "alte" Technologien mit immer mehr Kernen versehen, "ohne Sinn und Verstand". Aber je mehr Kerne man hat, desto mehr machen sich "überdimensionierte" und zuviel vorhandene Einheiten negativ bemerkbar.

AMD schmeißt also nur (zuviel) unnützen Kram raus.
 
Die "fehlenden" FPU-Einheiten fallen dabei kaum ins Gewicht, da (hatte ich mal wo gelesen) ca. 80% aller anfallenden Rechenaufgaben Integerberechnungen sind.

Ach ja? Und bei mir sind 80% aller Rechnungen Fließkommaarithmetik ...

... und nebenbei: Intel wie auch AMD verwerten 'Konzepte', so auch den IMC, die bereits 15 Jahre alt sind. Wenn es DEC noch gäbe, würden Intel und AMd heute mit ihren 'Prozessoren' Fernseher bauen ...
 
Eisenfaust schrieb:
Ach ja? Und bei mir sind 80% aller Rechnungen Fließkommaarithmetik ...

... und nebenbei: Intel wie auch AMD verwerten 'Konzepte', so auch den IMC, die bereits 15 Jahre alt sind. Wenn es DEC noch gäbe, würden Intel und AMd heute mit ihren 'Prozessoren' Fernseher bauen ...

Neue Ideen werden leider immer seltener erscheinen, seid die Anzahl der Wettbewerber im CPU Markt ist überschaub geworden und nicht die beste Architektur hat sich am Ende durchgesetzt. War bei den Videorecordern ja auch so, daß das eigentlich schlechteste System, VHS, sich gegenüber den technisch besseren Video2000 und Betamax durchsetzen konnte.
 
Hmmm...
weiß nicht so recht wo ich das hinpacken soll und ein neues Thema öffnen...
Lieber nicht :D

Heute auf 3dcenter.org:

"...was Intel mit den ungeheuren Taktreserven anfängt, die man sich mittlerweile aufgebaut hat: Schon die Nehalem-QuadCores in 45nm schaffen schließlich oftmals aus dem Stand 4 GHz und mehr, obwohl die offiziellen Taktraten der Mainstream-Modelle (Sockel 1156) immer noch nicht die 3-GHz-Marke erreicht haben. Mittels Sandy Bridge wird Intel dann im QuadCore-Bereich offiziell bis zu 3.4 GHz Takt bieten, durch die bessere 32nm-Fertigung werden aber auch die Taktspielräume wachsen – nicht zuletzt kürzlich durch die erreichten 4.9 GHz bei einem Sandy-Bridge-Sample bewiesen. Wenn Ivy Bridge dann wenige Änderungen, aber eine kleinere Fertigung mit sich bringt, dürften die Taktspielräume nochmals weiter in den Himmel wachsen – und Intel irgendwann vor der Frage stehen, was man damit anfängt.

Sicherlich könnte Intel diese Taktraten von vielleicht 5 GHz auch auf den Markt werfen – aber wenn AMD dann nicht mit Bulldozer einen wirklich guten Chip hinbekommt, würde man AMD innerhalb kurzer Zeit komplett totkonkurrieren. Diesen Zustand muß Intel allerdings fürchten, weil man dann (wegen eines faktischen Monopols) schnell unter die Aufsicht der US-Wettbewerbshüter kommen würde. Somit benötigt Intel AMD als wettbewerbsrechtliches Feigenblatt und kann daher bei seinen CPUs nicht so viel Leistung bieten, wie man technologisch gesehen bieten könnte – wobei die Situation ganz ohne Wettbewerb natürlich noch schlechter aussehen dürfte (vor allem viel höhere Preislagen). Intel dürfte derzeit wohl sogar regelrecht darauf hoffen, daß die Bulldozer-Architektur etwas halbwegs konkurrenzfähiges (aber natürlich nichts zu gutes) ergibt, damit man selber nicht noch mehr bremsen muß als derzeit schon der Fall."



Ganz schön harte Worte wie ich finde - Aber irgendwo stimmt das schon!

Ich meine, wann kommt denn der Bulldozer? Soweit ich weiß erst nach dem SandyBridge...

Abwarten und Tee trinken.
 
Zuletzt bearbeitet:
Wobei das mit dem, Intel hat angst alleine auf dem Markt zu sein, nicht mit der über 10 Jahre andauernden Marktsperre gegenüber AMD zusammen passt. Metrogruppe mit Werbegelder überschütten, damit keine AMD verkauft werden. Dell hatte Angst vor Intel und deren Marktmacht, geschenkte AMD CPUs zu nehmen usw.
 
Zurück
Oben