News Xeon Phi: Intel bestätigt 72 Kerne für Knights Landing

Cool Master schrieb:
Wie ich schon schrieb man muss abwarten was für ein OS darauf laufen wird. Linux ist klar da die HW das eh schon kann bzw. Linux die HW kennt. Ich denke aber nicht das man in naher Zeit ein Winodws 7, 8, 9 oder 10 darauf sehen wird. Einfach weil mal man unter Windows damit nichts anfangen kann.

Da braucht man nicht abwarten, Links lesen. Linux und Windows. Läuft ja auch schon.

Cool Master schrieb:
Dazu kommt was für eine Version an BS wird kommen? Ich denke mal das OS wird so speziell wie ein Embedded OS so das die Programme dafür angepasst werden müssen.

Egal, Standard Windows Server reicht.

Kapier es endlich, Knights Landing sind modifizierte Silvermount Kerne und sind binär kompatibel zu den Xeons. Wenn Windows von den Xeon boot, boot das auch dort. Es werden halt dann nicht alle Features wie etwa AVX-512 unterstützt, wenn das OS den Support dafür nicht zur Verfügung stellt.
 
Mr.Seymour Buds schrieb:
Aber ganz sicher nutzt kein Spiel 72 Kerne oder gar 72 Kerne * 4 Threads. Spiele brauchen auch heute noch vor allem einen hohen Takt.

Das könnte sehr sehr sehr interessant für FSX werden der kann bis zu 256 Kerne seit dem FSX SP2.
 
"Bis zu 256 Threads" sind nicht die vollen 288 Threads von Knights Landing ;)

Außerdem sind *realitätsnahe* Simulatoren nicht gerade die meistverkauften Spiele. Physikalische Effekte (Objektzerstörung, Partikeleffekt, usw) laufen auch heute schon mit CUDA, parallel zum sonstigen Rendering Gedöns.
 
Zuletzt bearbeitet:
Ist doch gut, kann immerhin noch etwas parallel zu FSX laufen ;)

Ja Simulator sind tatsächlich eher eine Randerscheinung heutzutage aber dafür geben viele Leute extrem viel Geld dafür aus. Wenn man sich schon ein A320 oder A340 Cockpit baut spielt die Knights Landing Karte auch keine Rolle mehr was den preis angeht ;)

Bzgl. CUDA muss man leider sagen das FSX ein CPU only Sim ist. Da spielt es effektiv keine Rolle ob da eine 960, 970 oder eine 980 Titan X mit 10 fach SLI drin steckt. Wobei sich dies auf die Stand Alone Version bezieht wie es aktuell mit der Steam Edition aussieht müsste man mal testen.
 
So oder so, Knights Landing wird genial. Ein Quantensprung bei Intel. Nvidia wird nun nachziehen müssen. Warum sollte ich CUDA programmieren, wenn ich auch massiv parallel auf Knights Landing arbeiten kann? Ohne den ganzen CUDA Rattenschwanz? Die Ansätze per Compiler Direktive (OpenMP) gehen in die Richtung (für NV, klar sie bemühen sich, ja, Unified Memory ist nett, andere Sachen auch). Bin ziemlich gespannt auf Pascal, wir werden sehen. Die letzten Nvidia GTC Keynotes haben schon heiss gemacht...
 
Zuletzt bearbeitet:
Was ich gerne von Intel sehen würde wären bessere iGPUs ;) Mein Traum wäre es immer noch in naher Zukunft etwas auf dem Level einer GTX 660 Ti oder 960/970 zu haben welches in der CPU steckt das wäre Fortschritt.
 
Das wirst Du nicht sehen . Weil es die Physik nicht hergibt. Wie soll so viel Wärme abgeleitet werden? Das ist halt nicht möglich auf der kleinen Chipfläche (im Moment, mit kleiner Fertigung ist vieles möglich. Aber eben nicht jetzt gleich).
 
Das ist mit klar. Ich würde gerne eine größere CPU DIE bzw. Fläche in kauf nehmen und auf 1-2 PCIe Slots verzichten :)
 
Dr. MaRV schrieb:
Mittels HT sollte er bei 72 Kernen eigentlich 288 Operationen pro Takt ausführen können, oder nicht?
Nein, Du kannst darauf 72*2 512Bit-AVX Befehle pro Takt ausführen lassen. Ein AVX Befehl ist dann 8 DP Ops oder 16 SP Ops. Die 4 HT Threads pro Kern erlauben dir nur aus mehreren unabhängigen Instruktionsströmen Instruktionen auswählen zu könne, damit du keinen Leerkauf der Pipeline wenn möglich hast.

Keine Ahnung, ob die Silvermont Kerne jetzt superskalar sind. Wahrscheinlich schon, aber wenn dann wohl so 3-fach superskalar. Das sind dann aber eben Integer Ops, und keine FP-Ops, und genau darum gings ja hier.

DunklerRabe schrieb:
Im Gegensatz zu einem regulären Xeon ist der Xeon Phi kein Hauptprozessor, keine CPU.
Falsch.... KNL ist eine vollwertige CPU, wenn man die Sockel-Variante kauft. Das Ding kann booten, hat jedweden IO und kann sogar als PCI-E Rootport fungieren, man kann also auch z.B. ne GPU dazu stecken, und das Ding frisst das.

Es ist ein Coprozessor, an den man Rechenaufgaben auslagert damit das nicht die CPU erledigen muss. Kann man sich vorstellen wie bei einer Grafikkarte, dahin werden ja auch die 3D Berechnungen ausgelagert, damit die CPU sich damit nicht befassen muss.
Jaein. Bereits KNC konnte man selbstständig laufen lassen, also extern booten. Dazu hat man zwar noch ein andere System gebraucht, aber an sich läuft bereits KNC wie ein eigenständiger Server. Man kan per NFS auch lustig Plattenspeicher einhängen. KNC ist aber eben nicht binär-kompatibel zu den normalen Xeons. Man muss extra dafür compilieren, und es gibt auch einige Funktionen nicht, die nicht ganz unwesentlich sind. Daher läuft auch kein normales OS darauf. Mehr darf ich dazu aber nicht sagen.

Im Fall des Xeon Phi geht es da aber natürlich vorrangig um den HPC/Supercomputing Bereich, wo man jedem Node einen, oder mehrere, Xeon Phi mitgibt, um energieeffizient mehr Rechenleistung zu bekommen. Auch der Einsatz von tatsächlichen Grafikkarten (GPGPU, General Purpose GPU) ist da ja auch nicht so weit hergeholt, weil die sich auf Grund ihrer Architektur auch gut für stark parallele Workloads eignen. Man könnte das auch mit klassischen CPU nach dem Motto "Viel hilft viel" totschlagen, allerdings wäre das nicht so effizient.
Der Vorteil des Xeon Phi gegenüber, auch speziellen, Grafikkarten ist, laut Intel, die x86 Kompatibilität, sodass man existierende und vertraute Tools weiterverwenden kann.
Na muss nicht sein. Du kannst die Dinger auch "ohne" Node laufen lassen im Prinzip. Man muss Sie "nur" zum booten bewegen. Wenn man geschafft hat, dass das OS auf den KNCs landet, und der Bootprozess gestartet wird, dann läuft das Ding an sich so ziemlich ohne Hilfe des Hosts. Son bischen Live-check rechne ich jetzt mal nicht.

gaym0r schrieb:
Stromsparend? Wenn ich mir die Supercomputer anschaue: Nein.
Stromverbrauch ist DER! leistungsbegrenzende Faktor für Supercomputer! Die werden atm nur nicht noch deutlich schneller gebaut, weil man die Stromrechnung einfach nicht mehr zahlen kann.

Tesla ist richtig. Aber FirePro? Nein.
Ähm doch.. Das Ding ist absolut vergleichbar mit Tesla und FirePro. Tesla und FirePro decken die gleichen Anforderungen ab, nur dass die FirePro eben AUCH! noch dazu! die Aufgaben einer Quadro erledigen kann.


DaChicken schrieb:
Ist sicher auch was für Börsengeschäfte von Banken?
Nein, bei Börsengeschäften ist es wichtig, das man möglichst niedrige Latenzen hat. KNC/KNL/XeonPhi sind auf Durchsatz und nicht auf Latenzen optimierte Architekturen. Daher taugen die für solche Sachen nichts. Wenn man schon zehntausende Euro dafür hinblättert, um die Server nur wenige hundert Meter von den Börsenservern hinstellen zu können, dann nimmt man so etwas nicht.

die Highfrequency trader verwenden sogar mit Kompressorkühler übertacktete CPUs, um die latenzen niedrig zu halten. Die werden halt alle paar Monate mal ersetzt und gut ist.


MusicJunkie666 schrieb:
Nur blöd, dass dir die "Kerne" nicht im Task-Manager angezeigt werden...
Klar kann man das. Konnte man schon mit KNC. Zwar nur unter Linux aber gut. Sieht btw lustig aus ;)

Mit KNL kann man sogar den Windows Task-Manager sich anzeigen lassen. Das Ding bootet nämlich auch ein Windows. Sollte sogar ohne Anpassungen gehen, sofern man eben auf einige Funktionen verzichten kann.


Cool Master schrieb:
@Mr.Seymour Buds

Klar müssen die Spiele darauf programmiert werden... Es ist ja nicht so das man die Karte einfach rein steckt und Spiele sehen oh ja, da ist eine Zusatz HW die nehme ich jetzt...
Nein müssten Sie nicht... Das einzige Problem könnte SSE/MMX Code sein. Keine Ahnung, inwieweit KNL das jetzt verarbeiten kann. Ansonsten sollte eigentlich alles funktionieren. WEnn sind es irgendwelche ziemlich exotischen und dreckigen Hacks, bei denen es Probleme geben könnte. Aber man sollte nicht davon ausgehen. Das Ding ist ja binär kompatibel. Also sollte auch alles an sich laufen ohne jedwede Anpassung. Die Frage ist halt nur wie schnell ;)


QDOS schrieb:
Was nach den Erfahrungen mit der Knights Corner Generation erst noch zu beweisen wäre…
Bla bla

DunklerRabe schrieb:
Das würde ich auch eher bezweifeln, weil diese Kerne zwar normale x86 Kerne sind, aber nicht nativ vorliegen. Die sind ja nur über PCIe über die CPU angebunden. Ich kenn mich nicht gut genug aus um da eine exakte Beschreibung zu liefern, aber ich würde sagen, dass man mindestens mal an der Adressierung der Kerne bzw. eben der Zuweisung der Threads arbeiten muss.
...

Natürlich sind das "native Kerne" was sollen es denn sosnt sein? Gemalte?

Nochmals...Die STandalone KNLs verhalten sich komplett wie jede stink normale CPU, und die die über PCI-E angebunden sind haben auch ein EIGENES! OS am laufen, "nur" eben nicht die Funktionalität eines PCI-E Rootports. Da kann man aber auch ziemlich dreckige Hacks machen, zumindest unter Linux. Ich habe selbst schon KNC dazu bewegt/überredet, eine PCI-E Netzwerkkarte zu verwenden :p


Madman1209 schrieb:
Hi,

im Grunde kann man sich stark vereinfacht vorstellen, diese zusätzlichen Kerne verhalten sich wie ein entfernter Server, der über IP angebunden ist. Einfach einstecken und schwupps hat man 60 Threads im Taskmanager oder Programme können die so einfach nutzen ist nicht.

VG,
Mad
Kommt drauf an, wie du ihn verwendest. Wenn du dich auf KNL einloggst, dann verhält es sich wie jedweder andere Server auch. Du merkst im Prinzip übers Terminal keinen Unterschied. Bei der PCI-E Version haste halt kein PCI-E. Das wars dann aber auch schon.


strex schrieb:
@Mr.Seymour Buds

Korrekt, steht aber auch so in der News. Verfügbar als Co-Prozessor und als eigenständige CPU.




Scheinbar lesen alle die News nicht richtig:
Tja so ist das leider viel zu oft -.-

Knights Landing ist nicht wie alle Vorgänger nur als Co-Prozessor zu haben, sondern kommt auch als selbst startbare Plattform ala CPU im Sockel. Damit lassen sich dann auch die bis zu 384GB DDR4 über den 6 Channel Speichercontroller ansprechen.
Naja, "nur" ist auch bereits bei KNC nicht richtig. Auch den konnte man außerhalb des Hosts schon booten.

Cool Master schrieb:
@strex

Ok... "Bootbaren Prozessoren" Und mit welchem OS? Ich nehme mal stark an, dass es nicht Windows sein wird. Aber warten wir mal ab evtl. gibt es da ein Update für Windows damit diese auch hals CPU nutzbar sind, ich glaube aber eher weniger daran.
Doch es IST auch Windows......

Die Einschränkungen die KNC noch hatte sind wohl alle rausgeflogen. Wenn es noch Unterschiede gibt, was ich nicht komplett ausschließen will, wenn auch SEHR! unwahrscheinlich, dann muss man die wohl wie die Stecknadel im Heuhaufen suchen.

Madman1209 schrieb:
Hi,

Entschuldige mal, aber du bist sicher nicht der einzige, der sich damit auskennt. Du sagst es ja selbst, es war bis zur aktuellen Generation eben noch anders - reichlich unverschämt und arrogant dein Ton!

Ist ja schön wenn Intel es diesmal so geschafft hat!

VG,
Mad
Nein, das war auch schon mit KNC nicht großartig anders. Was halt anders ist, ist dass das Ding jetzt auch KOMPLETT! selbstständig booten kann, und als PCI-E Rootport fungieren kann. Das macht halt extrem viel einfacher, aber auch vorher ging shcon ziemlich viel.


Cool Master schrieb:
Geh doch mal bitte auf das hier ein:



Und erkläre uns wie dies ohne Anpassung der Software (programmierung) möglich ist und weiche der Frage nicht aus.
Das Ding ist Binär kompatibel wie oft denn noch.....


Cool Master schrieb:
Wie ich schon schrieb man muss abwarten was für ein OS darauf laufen wird. Linux ist klar da die HW das eh schon kann bzw. Linux die HW kennt. Ich denke aber nicht das man in naher Zeit ein Winodws 7, 8, 9 oder 10 darauf sehen wird. Einfach weil mal man unter Windows damit nichts anfangen kann.

Dazu kommt was für eine Version an BS wird kommen? Ich denke mal das OS wird so speziell wie ein Embedded OS so das die Programme dafür angepasst werden müssen.



Glaube ich nicht dran ;) Es gibt Leute die kaufen sich Hexa oder Octa Cores bzw. SLI/CF bis hin zu Quad SLI/CF zum spielen. Warum sollte also auch nicht jemand ein Xeon Phi kaufen? Klar der wird nicht nur 500 € kosten aber für einige ist es ja egal.

Es wird Windows darauf laufen..... KNL erfordert nichts großartiges Spezielles mehr. Nicht mehr, als für die Transactional Memory Unterstützung von den neuen Intel CPUs...
 
Yay! Endlich die 72 Jungfrauen von Intel!

Nun wird ja hoffendlich jedem klar warum die alten Karten so verramscht wurden...
 
Interessanter Beitrag Skysnake! Darf man fragen, wo du arbeitest bzw. was du studiert hast?

@ Haldi: Das kann man problemlos machen, so superviel Rechenleistung braucht das gar nicht. Dein Beispiel wäre ein vergleichsweise kleines Modell.
 
Mr.Seymour Buds schrieb:
Natürlich sind die näher an den Atom Kernen, als an den Server Xeons. So fette Kerne würde man gar nicht auf eine so kleine Fläche bekommen (in der Zahl). Außerdem könnte die Wärme der Server Xeons nicht abtransportiert werden, die Dinger würden regelrecht zerfließen und vergehen.
Naja, ganz so weit her geholt ist das nicht.

Man darf nicht vergessen, dass die Top-SKU mit 72 Kernen wohl wieder bei 300 Watt TDP landen wird. Der aktuelle Xeon E5-2698 v3 mit 16 Kernen liegt bei 135 Watt TDP. Also könnte man ohne die Berücksichtigung von anderen Parametern (wie z.B. der Uncore-Bereich) die Kernanzahl verdoppeln, was dann immerhin schon 32 Kerne bei 270 Watt TDP ergeben würde. Dazu kommt noch, dass der Xeon E5 im Turbo-Modus auf allen Kernen rund doppelt so hoch taktet, wie der Xeon Phi KNL, der etwa bei 1,3-1,4 GHz betrieben wird, was natürlich deutlich niedrigere Spannungen erlaubt.

Vielleicht sind es am Ende keine 72 Kerne, aber ~ 50 Kerne dürften auch mit der "fetten" Architektur im einem 300 Watt TDP Budget kein völlig unrealistisches Szenario sein. Und natürlich kann sowas auch gekühlt werden.
 
Cool Master schrieb:
Das ist mit klar. Ich würde gerne eine größere CPU DIE bzw. Fläche in kauf nehmen und auf 1-2 PCIe Slots verzichten :)

Das Du das würdest, glaube ich gerne ;) Nur INTEL will das nicht. Das wäre teuer....zu teuer...
Ergänzung ()

Müs Lee schrieb:
Interessanter Beitrag Skysnake! Darf man fragen, wo du arbeitest bzw. was du studiert hast?

@ Haldi: Das kann man problemlos machen, so superviel Rechenleistung braucht das gar nicht. Dein Beispiel wäre ein vergleichsweise kleines Modell.

Genau. Völlig problemlos. So eine Art physikalisch korrektes 3D Pong bräuchte IRRE viel Rechenleistung. Wie groß soll der 3D Raum denn sein? So wie eine gängige Ping-Pong Platte? Alles modelliert mit Luft, Flugbahn, Materialien, Verformung des Balls, der Schläger und Stoß? Ich kann mir auch gut vorstellen, dass der Ball sehr schnell sein wird, was bedeutet, dass man im CFD Teil des Lösers auf vereinfachte Navier-Stokes-Gleichungen zurückgreifen muss. Dann bräuchtest Du dafür ein kleines Rechenzentrum oder viel (viel) Zeit ;) Wenn Du dann noch die OMG-ich-bin-verrückt-Stufe aktivierst und Turbulenz modellieren möchtest, darfst Du dir auch gerne ein großes Rechenzentrum nehmen...wenn das noch nicht reicht, Druckstöße und Wärme mit reinbauen. Spätestens jetzt bist Du nahe am Wahnsinn...

Allein die Progammieraufgabe wär genug Arbeit für 2-3 Doktoranden (eher mehr).
 
Zuletzt bearbeitet:
Naja, zumindest die Verformungen stellen keine riesige Herausforderung dar. Mit CFD habe ich zugegebenermaßen noch keine echte Erfahrung sammeln können, eine Echtzeitsimulation wird wohl eher nicht drin sein ;).
 
Aber es wäre sicher ein schönes Projekt für 2030 oder so :p
 
Ich habe in meiner master Arbeit auf einer Knights Corner Karte mit 57 Kernen programmiert.

Es ist nicht si einfach das hohe maß an Parallelität zu erreichen.
Mein code skalierte auf ca. 70 threads, dann gab es keine Änderung mehr.
Auch beim gddr5 Speicher mit theoretisch 240 GByte/s war bei 100gbyte/s Schluss.

Nur mit threads reisst man nicht viel.
Die vektoreinheiten geben der Karte die Leistung.
Wenn der code gescheit mit vektoroperationen parallelisiert ist gibts nen super speedup.

Mein code eignete sich leider nicht so gut dafür weswegen ich nur mit threads gearbeitet habe
 
Mal eine Zwischenfrage - wie gut skalieren CFD/FEM-Simulationen denn mit den Kernen und dem RAM? Mein kleiner FEM-Heimtest mit Abaqus braucht zB bei einer statischen Analyse mit explizitem Solver bei gut 980.000 Nodes mit einem i5 2500k 4GHz und 8GB RAM 39 Minuten, mit einem i7 2600k 4.2GHz und 16GB RAM 19 Minuten - was eine erhebliche Verbesserung ist. Aber irgendwo ist doch bestimmt Schluß. Und was bringt mehr: Viel Speicher, viel Durchsatz, viele Kerne? Alles zusammen ist natürlich am besten, aber wann hat man das schon.
 
elomanias schrieb:
Es ist nicht si einfach das hohe maß an Parallelität zu erreichen.

Das hat auch niemand behauptet. Im Gegenteil, es ist harte Arbeit. Mein Lieblingsstichwort ist Speicherzugriffsmuster (über die gesamte Speicherhierachie). Da kann man viel rausholen.
Ergänzung ()

Müs Lee schrieb:
Mal eine Zwischenfrage - ...

Was bringt am meisten? Kann man so nicht sagen. Alles zusammen gibbet nicht, das wäre Schlaraffenland. I.A. muss eine GPU oder halt Xeon Phi gut abgestimmt sein. So wie ein gute Gemüsepfanne nicht nur aus Gemüse, sondern eben auch aus Soße und Gewürzen besteht. Nur, wenn man das richtig mischt, schmeckt die gut.

Ist bei der Skalierung irgendwo Schluss? Ja, google Amdahls Law und Gustafsons Law.

Die Kurzversion geht so: Immer mehr Kerne bringen irgendwann keine weitere Zeitverkürzung bei der Berechnung eines gegebenen Problems. Dann ist der maximale SpeedUp erreicht.
 
Zuletzt bearbeitet:
Zurück
Oben