News Intel Xeon Phi: Knights Landing in vier Modellen ab 2.438 US-Dollar

strex schrieb:
Wenn man natürlich nur auf die Rohperformance reinfällt und vergisst das sämtliche GPUs einen Host mit in der Regel 200 bis 400W benötigen, sieht die Rechnung ganz anders aus. Von den Vorteilen das man einfach bestehende x86 Software betreiben kann, ohne Anpassung oder das der Algo komplett umgeschrieben werden muss einmal ganz abgesehen. Denn nicht alle Probleme lassen sich so einfach auf GPUs verteilen wie viele hier annehmen oder ein Benchmark.


nicht in allen Problemen spielt die CPU ein Rolle aber man kann nicht einfach sagen mehr CPUs sind immer besser und einfach sagen man lässt diese einfach weg, das Problem muss auch dafür geschaffen sein es gibt sicherlich genug Probleme wo eine höhere Frequenz vor mehr CPUs besser ist weil sich das Problem hier nicht mehr so einfach parallelisieren lässt


strex schrieb:
Nicht umsonst hat Intel in wenigen Jahren NV ordentlich Butter vom Brot genommen und das mit reinen Beschleunigern und deutlich weniger Rohleistung. Auch AMD, trotz massiver Rohleistung (als die anderen beiden), kommt hier kein Meter weit. Dürfte nach deiner Angabe ja nicht so sein. Intel hat hier mit einer langsamen Phi innerhalb weniger Jahre 1/3 vom Markt erobert. Das hat AMD in der gesamten Zeit nicht geschafft mit stärkerer Hardware. Gäbe es keine guten Gründe hier wieder auf x86 zu setzen, hätte sich die CUDA Dominanz weiter durchgesetzt. Das sehen die Betreiber aber ganz anders.

man munkelt aber dass Intel sehr viel am Preis herum basteln musste damit sich diese wirklich Verkauften sprich einfach unter Verlust wurde dieser Marktanteil erkauft nicht wegen der besseren Hardware hat aber sich auch mit bestehen Tools zu tun, die betreffende Abteilung hat über eine Milliarde Verlust geschrieben

strex schrieb:
Schau mal deine Benches an, die sind von der alten Generation. Dort teilen sie sich wie alle anderen nur GDDR5 und somit die gleiche/ähnliche Bandbreiten je nach Modell. Von höhere Bandbreite kann hier also keine Rede sein.

man vergleicht aber gleiche Generationen untereinander, die Hardware war hier sicher nicht das Verkaufsargument weil alles GPUs nun mal schneller waren als GPUs


strex schrieb:
Doch, die GPU braucht immer einen Host egal welche Applikation, die Phi im Host-Mode braucht in keinerlei Applikation einen extra Host. Wer kommt denn auf solche eine Idee.

Deswegen haben wir bei Desktop Anwendungen sprich Spiele noch immer einen 4 Kerner als Standard und nicht 8 Kerner, es hat sicherlich mehrere Gründe ein Grund ist sicher dass bei vielen Probleme noch immer gilt höhere Takt vor mehr CPUs
Ergänzung ()

dgschrei schrieb:
Ja und Benchmarks sind halt nunmal komplett fürn Arsch. Da wird ein utopischer Usecase hochoptimiert gefahren und am Ende kommt raus wer den höheren Durchsatz schafft.

Mit der Performance in einem echten HPC Use-Case hat das nur halt leider so gut wie gar nix zu tun. GPUs sind extrem gut darin genau die gleiche Operation extrem oft parallel abzuarbeiten. In dem Moment wo die Applikation komplexer wird und mehr verschiedene Berechnungen gleichzeitig machen will, fällt diese theoretische Rechenleistung aber in sich zusammen und es bleibt nur noch ein Bruchteil der theoretischen Leistung über. Das Problem haben x86 Kerne nicht. Ist ja im Endeffekt eine normale CPU mit allen Features und verhält sich auch genau so.

Außerdem ignorierst du immer noch geflissentlich dass PCIe-basierte Teslas eben eine CPU brauchen die sie ansteuert und die müßig Strom verballert. Das kann man bei Knights Landing komplett weglassen. Der Chip ist eine "normale" x86 CPU also läuft auch das OS darauf problemlos. Und wenn man das OS drauf zum laufen kriegt, dann kriegt man auch alle Anwendungen drauf zum Laufen.

hier wird Intel wohl gerne in den Himmel gehoben, man bedenke die Matrix mal Matrix Multiplikation ist einer der häufigsten Operationen für wissenschaftliche Berechnungen ist ja eh klar dass diese dann optimiert wird aber keinen Bezug stimmt ja nicht, bei vielen Problemen wird nun mal ein Gleichungssystem gelöst und dort spielen solche Operationen eine wichtige Rolle, daher keinen Bezug stimmt einfach nicht
 
burnbabyburn2 schrieb:
nicht in allen Problemen spielt die CPU ein Rolle aber man kann nicht einfach sagen mehr CPUs sind immer besser und einfach sagen man lässt diese einfach weg, das Problem muss auch dafür geschaffen sein es gibt sicherlich genug Probleme wo eine höhere Frequenz vor mehr CPUs besser ist weil sich das Problem hier nicht mehr so einfach parallelisieren lässt


Erstens hat das gar nichts damit zu tun, denn eine GPU kann ohne CPU gar nicht befeuert werden. Egal welche Applikation oder Problem, es braucht zum laufen eine CPU, um nur zu starten und natürlich muss die CPU dann auch noch die GPU mit Daten und Jobs beliefern. Dafür entfällt Energie, immer! Die verbrauchte Leistung muss man der GPU zurechnen.

-> Das sollte man aber wissen wenn man darüber diskutiert.

burnbabyburn2 schrieb:
man munkelt aber dass Intel sehr viel am Preis herum basteln musste damit sich diese wirklich Verkauften sprich einfach unter Verlust wurde dieser Marktanteil erkauft nicht wegen der besseren Hardware hat aber sich auch mit bestehen Tools zu tun, die betreffende Abteilung hat über eine Milliarde Verlust geschrieben

Das bestätigen aber nicht die guten Zahlen in der Data Center Group und dazu gehört auch die Phi Sparte. Zusätzlich hat nicht einmal die Presse davon erfahren, dass es dort Verlust gab. So viel dazu über das Gemunkel. Was du hier versucht zusammen zu reimen, ist der Abverkauf der alten Karten zu günstigen Preisen. Da sollte man aber Wissen, dass Intel ein Wechselprogramm hat, die nehmen die alten wieder zurück und bieten Rabatt für die neuen. Wenn man über CPUs, Interconnect bis zum Beschleuniger alles liefern kann, gibt es sehr gute Angebote.

Die Rückläufer landen dann wieder bei anderen. Ist mit dem E5-2670 v0 gerade auch nichts anderes.

burnbabyburn2 schrieb:
man vergleicht aber gleiche Generationen untereinander, die Hardware war hier sicher nicht das Verkaufsargument weil alles GPUs nun mal schneller waren als GPUs

Deutsch? Im HPC zählt immer Perf/Watt und somit Perf/Geld und danach die Software Tools. Das rundere Gesamtpaket hat hier NV mal schnell 1/3 vom Markt (Stand heute) geklaut und das noch ganz ohne KNL. Mit einem alten (langsamen) Produkt aus 2012 bis 2014.

burnbabyburn2 schrieb:
Deswegen haben wir bei Desktop Anwendungen sprich Spiele noch immer einen 4 Kerner als Standard und nicht 8 Kerner, es hat sicherlich mehrere Gründe ein Grund ist sicher dass bei vielen Probleme noch immer gilt höhere Takt vor mehr CPUs

Relevanz, zu Host-Mode der Phi? Keiner, irgendwie fehlt mir hier das technische Wissen zu Phi für eine ernsthafte Diskussion.

burnbabyburn2 schrieb:
hier wird Intel wohl gerne in den Himmel gehoben, man bedenke die Matrix mal Matrix Multiplikation ist einer der häufigsten Operationen für wissenschaftliche Berechnungen ist ja eh klar dass diese dann optimiert wird aber keinen Bezug stimmt ja nicht, bei vielen Problemen wird nun mal ein Gleichungssystem gelöst und dort spielen solche Operationen eine wichtige Rolle, daher keinen Bezug stimmt einfach nicht

Und wird in vielen realen Anwendungen dann doch von der Phi geschlagen. Nicht umsonst haben GPUs für bestimmte Matrixgrößen ein deutlichen Performance Verlust. Berichte und Analysen dazu gibt es genug im Web. Die Phi hat das nur in sehr kleinen Umfang.
 
Zuletzt bearbeitet:
strex schrieb:
Erstens hat das gar nichts damit zu tun, denn eine GPU kann ohne CPU gar nicht befeuert werden. Egal welche Applikation oder Problem, es braucht zum laufen eine CPU, um nur zu starten und natürlich muss die CPU dann auch noch die GPU mit Daten und Jobs beliefern. Dafür entfällt Energie, immer! Die verbrauchte Leistung muss man der GPU zurechnen.

aso, dann würde ich gerne mal eine Anwendung sehen die für einen 4 Kerner bzw. 8 Kerner bei 4 GHz ausgelegt ist und dann auf Xeon Phi schneller läuft bei 1,5 GHz

strex schrieb:
Das bestätigen aber nicht die guten Zahlen in der Data Center Group und dazu gehört auch die Phi Sparte. Zusätzlich hat nicht einmal die Presse davon erfahren, dass es dort Verlust gab. So viel dazu über das Gemunkel. Was du hier versucht zusammen zu reimen, ist der Abverkauf der alten Karten zu günstigen Preisen. Da sollte man aber Wissen, dass Intel ein Wechselprogramm hat, die nehmen die alten wieder zurück und bieten Rabatt für die neuen. Wenn man über CPUs, Interconnect bis zum Beschleuniger alles liefern kann, gibt es sehr gute Angebote.

Die Rückläufer landen dann wieder bei anderen. Ist mit dem E5-2670 v0 gerade auch nichts anderes.

Ich weiss es dass Intel damals die Xeon Phis unter Wert verkaufen musste selbst auf Unis wusste niemanden wozu man diese Dinger wirklich braucht, dazu würde ich gerne mal einen Benchmark sehen wo denn bitte Xeon Phi schneller ist als eine Radeon oder Nvidia Karte, ausserdem vergisst du gerne nur weil man eine CPU für den PCI Express braucht läuft die CPU doch nicht unter Vollast

strex schrieb:
Deutsch? Im HPC zählt immer Perf/Watt und somit Perf/Geld und danach die Software Tools. Das rundere Gesamtpaket hat hier NV mal schnell 1/3 vom Markt (Stand heute) geklaut und das noch ganz ohne KNL. Mit einem alten (langsamen) Produkt aus 2012 bis 2014.

ja wenn wenn eine GPU 10 TFlop hat bei 250 Watt gegenüber einer Xeon Phi Karten mit 7.5 TFlop bei 250 Watt welche Karte ist dann effizienter ? die CPU läuft ja auch nicht Vollast, außerdem vergisst du dabei gerne dass selbst Xeon Phi in Idle ca. 100 Watt braucht

strex schrieb:
Relevanz, zu Host-Mode der Phi? Keiner, irgendwie fehlt mir hier das technische Wissen zu Phi für eine ernsthafte Diskussion.

der Punkt es gibt Problem die man besser auf einen Quadcore laufen lässt anstatt auf einer Xeon Phi Karte

strex schrieb:
Und wird in vielen realen Anwendungen dann doch von der Phi geschlagen. Nicht umsonst haben GPUs für bestimmte Matrixgrößen ein deutlichen Performance Verlust. Berichte und Analysen dazu gibt es genug im Web. Die Phi hat das nur in sehr kleinen Umfang.
zeig mir einen Benchmark oder Anwendung wo Xeon Phi jemals schneller war als eine GPU, das mit der Matrix Matrix Multiplikation stimmt so auch nicht weil diese Ineffizienz hauptsächlich durch den zu geringen Speicher kommt das betrifft aber auch Xeon Phis wenn dort der Speicher ausgeht, eine GPU erreicht ca. 90% an Peak Performance bei der Matrix Matrix Multiplikation und wie viel erreicht ein Xeon Phi Karten ca. 80 %

https://hpcforge.org/plugins/mediawiki/wiki/pfarm/index.php/Work-program

http://www.hpctoday.com/news/new-record-breaking-amd-firepro-w9100/
"the W9100 scored 2.35 Tflops (i.e. 90% efficiency)"

und da schon wieder Standard Karten sind schneller als eine Xeon Phi kein reale Anwendung ? siehe S.11
http://www.asc.tuwien.ac.at/~juengel/publications/pdf/Rupp-Multigrid-2015-submission.pdf
 
Zuletzt bearbeitet:
burnbabyburn2 schrieb:
aso, dann würde ich gerne mal eine Anwendung sehen die für einen 4 Kerner bzw. 8 Kerner bei 4 GHz ausgelegt ist und dann auf Xeon Phi schneller läuft bei 1,5 GHz

Und was hat das mit Phi vs. GPU zu tun? Die GPU ist bei maxi 4 parallelen Jobs deutlich langsamer. So eine Application könnte man sich sogar bauen, eine die massive Speicherbandbreite benötigt für die Berechnung und die Zwischenergebnisse dazu ständig zwischen speichern muss. Dann verhungert dein QuadCore komplett.

Hat damit aber nichts zu tun, dass die Phi keinen Host braucht, denn der würde in deinem Szenario die GPU nur füttern und Verwaltungsaufgaben übernehmen. Da laufen so gut wie nie Jobs nur auf den CPUs, denn dann sind die GPUs unnütz und ich hätte mir die schon längst eingespart und nicht eingebaut. Die Dinger werden schon für einen bestimmten Workload geplant, da packt keiner auf gut Glück irgendeine Hardware zusammen.

burnbabyburn2 schrieb:
Ich weiss es dass Intel damals die Xeon Phis unter Wert verkaufen musste selbst auf Unis wusste niemanden wozu man diese Dinger wirklich braucht, dazu würde ich gerne mal einen Benchmark sehen wo denn bitte Xeon Phi schneller ist als eine Radeon oder Nvidia Karte, ausserdem vergisst du gerne nur weil man eine CPU für den PCI Express braucht läuft die CPU doch nicht unter Vollast

Belastbare Quelle, außer Hörensagen von irgendjemand? Die Bilanz weißt das etwas anderes aus.
Schlechtes Personal?

Die CPU braucht man hier für mehr, dass sollte dir aber bekannt sein, wer sich "scheinbar" so auskennt. Denn die sammelt die Ergebnisse der GPU und führt diese zusammen. Die EDR Verbindungen müssen auch gefüttert werden. Kümmert sich das die Daten vom Storage kommen, für die Netzkommunikation ala MPI und leitet die fertigen Ergebnisse an den Supernode weiter.

burnbabyburn2 schrieb:
ja wenn wenn eine GPU 10 TFlop hat bei 250 Watt gegenüber einer Xeon Phi Karten mit 7.5 TFlop bei 250 Watt welche Karte ist dann effizienter ?

Fangen wir wieder an die Rohleistung zu vergleichen? Das klappt ja schon nicht bei NV vs. AMD. Das sollte man schon wissen..Hier lässt du auch wieder völlig außer acht, dass die Phi alleine rennt, die GPU zwingend ein Host und der braucht locker 200 Watt und im Betrieb beim Dual Socket oder Quad Socket 400 Watt sind überhaupt nichts. Schon ist die Effizienz bei der GPU wieder dahin.

burnbabyburn2 schrieb:
die CPU läuft ja auch nicht Vollast, außerdem vergisst du dabei gerne dass selbst Xeon Phi in Idle ca. 100 Watt braucht

Ich dachte wir wären im HPC, die Dinger sind für Monate bereits ausgebucht und laufen immer unter Vollast. Reicht ein Job nicht aus, mangels Parallelität, wird bereits der nächste verarbeitet. Das sollte man aber schon wissen, wenn man mit Fachbegriffen um sich wirft.

burnbabyburn2 schrieb:
der Punkt es gibt Problem die man besser auf einen Quadcore laufen lässt anstatt auf einer Xeon Phi Karte

Dann sind wir aber wieder bei einer Workstation und nicht bei HPC..Kinderzimmer sind wir jedenfalls nicht.

burnbabyburn2 schrieb:
zeig mir einen Benchmark oder Anwendung wo Xeon Phi jemals schneller war als eine GPU, das mit der Matrix Matrix Multiplikation stimmt so auch nicht weil diese Ineffizienz hauptsächlich durch den zu geringen Speicher kommt das betrifft aber auch Xeon Phis wenn dort der Speicher ausgeht, eine GPU erreicht ca. 90% an Peak Performance bei der Matrix Matrix Multiplikation und wie viel erreicht ein Xeon Phi Karten ca. 80 %

Bitte:

Intel’s Xeon Phi SE10P (red) beat Nvidia’s Tesla C2050 and K20 GPUs (light and dark green, respectively) in 18 out of 22 tests. The Xeon Phi also beat dual Xeon X5680s (each with six cores for 12 cores total, light blue) and dual Xeon E5-2670s (each with eight cores for 16 total, dark blue) in 15 out of 22 tests. Source: Ohio State

https://goparallel.sourceforge.net/independent-test-xeon-phi-shocks-tesla-gpu/

Jetzt schauen wir mal etwas tiefer in die real world applications im HPC:

Xeon Phi often outperforms Nvidia when running software that has not already been painfully hand-recoded to optimize them to run as many processes as possible in parallel on general-purpose GPUs, according to Anselm Busse and Jan Richling in Admin Network and Security magazine last year.

Da kannst du dir überlegen warum der Tianhe-2 auf Phi setzt statt auf GPUs. 6 Monate für die perfekte Optimierung ist viel zu lange für einen Job. Händische Optimierung bei Intel, braucht man kaum. Tools anwerfen, x86 Code rein, compile und schon läuft's ohne das ich mir 6 Monate lang sorgen machen muss wie ich das perfekt optimiere. Mach ich das nicht, verliert die GPU zu viel Performance und zack schlechter als die Phi. Deshalb hat Intel innerhalb von knapp 4 Jahren 1/3 der System mit Beschleuniger erobert. Die sind ja deiner Meinung ja völlig inkompetent denn die könnten viel mehr Performance liefern wenn sie denn GPUs verbauen würden. In der Realität sieht es aber ganz anders aus.

https://goparallel.sourceforge.net/next-gen-xeon-phi-supercomputer-gpu-killer/

Der Markt beweist dir genau das Gegenteil zu deinen Aussagen, sehr komisch. Alle dumm, lass dich einstellen.
 
Zuletzt bearbeitet:
strex schrieb:
Und was hat das mit Phi vs. GPU zu tun? Die GPU ist bei maxi 4 parallelen Jobs deutlich langsamer. So eine Application könnte man sich sogar bauen, eine die massive Speicherbandbreite benötigt für die Berechnung und die Zwischenergebnisse dazu ständig zwischen speichern muss. Dann verhungert dein QuadCore komplett.

du solltest mal sinnerfassend lesen, du sagst Xeon Phi ersetzt so ziemlich alles, also im Grunde CPU und GPU was einfach blödsinn ist, es gibt Anwendungen die von mehr Speed einer CPU profitieren und Anwendungen von mehr Threads aber ist selten dass es Anwendungen gibt die von beiden profitieren

strex schrieb:
Hat damit aber nichts zu tun, dass die Phi keinen Host braucht, denn der würde in deinem Szenario die GPU nur füttern und Verwaltungsaufgaben übernehmen. Da laufen so gut wie nie Jobs nur auf den CPUs, denn dann sind die GPUs unnütz und ich hätte mir die schon längst eingespart und nicht eingebaut. Die Dinger werden schon für einen bestimmten Workload geplant, da packt keiner auf gut Glück irgendeine Hardware zusammen.

eben und weiter ? aber sicher nicht unter Vollast


strex schrieb:
Belastbare Quelle, außer Hörensagen von irgendjemand? Die Bilanz weißt das etwas anderes aus.
Schlechtes Personal?

ne ich hab es mal gelesen

strex schrieb:
Die CPU braucht man hier für mehr, dass sollte dir aber bekannt sein, wer sich "scheinbar" so auskennt. Denn die sammelt die Ergebnisse der GPU und führt diese zusammen. Die EDR Verbindungen müssen auch gefüttert werden. Kümmert sich das die Daten vom Storage kommen, für die Netzkommunikation ala MPI und leitet die fertigen Ergebnisse an den Supernode weiter.

ändert aber nichts daran dass die CPU nicht in jedem Fall unter Vollast laufen muss


strex schrieb:
Fangen wir wieder an die Rohleistung zu vergleichen? Das klappt ja schon nicht bei NV vs. AMD. Das sollte man schon wissen..Hier lässt du auch wieder völlig außer acht, dass die Phi alleine rennt, die GPU zwingend ein Host und der braucht locker 200 Watt und im Betrieb beim Dual Socket oder Quad Socket 400 Watt sind überhaupt nichts. Schon ist die Effizienz bei der GPU wieder dahin.

das sind keine Spiele sondern Programme die sehr Hardware nahe laufen, da gibt es keine Treiber Probleme sondern nur fehlende Optimierungen, der stärkste i7 hat nicht einmal 150 Watt als TDP also was soll das

strex schrieb:
Ich dachte wir wären im HPC, die Dinger sind für Monate bereits ausgebucht und laufen immer unter Vollast. Reicht ein Job nicht aus, mangels Parallelität, wird bereits der nächste verarbeitet. Das sollte man aber schon wissen, wenn man mit Fachbegriffen um sich wirft.

was hat das mit dem zu was ich geschrieben hab ? woher weißt du wie es um die anderen Xeon Phis ausschaut weltweit ? woher weißt du wie diese ausgelastet sind weltweit ? einfach nur dummes Geschwätz


strex schrieb:

geht's vielleicht unabhängiger und nicht von einer Intel Webseite und einer Seite die von Intel gesponsert wird, jeden unabhängigen Test den ich gesehen hab ist Intel nicht unbedingt gut davon gekommen

Jetzt schauen wir mal etwas tiefer in die real world applications im HPC:
strex schrieb:
Da kannst du dir überlegen warum der Tianhe-2 auf Phi setzt statt auf GPUs. 6 Monate für die perfekte Optimierung ist viel zu lange für einen Job. Händische Optimierung bei Intel, braucht man kaum. Tools anwerfen, x86 Code rein, compile und schon läuft's ohne das ich mir 6 Monate lang sorgen machen muss wie ich das perfekt optimiere. Mach ich das nicht, verliert die GPU zu viel Performance und zack schlechter als die Phi. Deshalb hat Intel innerhalb von knapp 4 Jahren 1/3 der System mit Beschleuniger erobert. Die sind ja deiner Meinung ja völlig inkompetent denn die könnten viel mehr Performance liefern wenn sie denn GPUs verbauen würden. In der Realität sieht es aber ganz anders aus.

https://goparallel.sourceforge.net/next-gen-xeon-phi-supercomputer-gpu-killer/

Der Markt beweist dir genau das Gegenteil zu deinen Aussagen, sehr komisch. Alle dumm, lass dich einstellen.

aha nur habe ich das schon selbst gemacht und ja es ist von Vorteil wenn man schon Code für CPUs hat bedeutet nicht, dass man von heute auf morgen einfach mit den Compiler drüber fährt und gut ist um wirklich die besten Performance rauszuholen muss man hin und wieder auch Assembler Code schreiben und dann ist der Vorteil einfach wieder vorbei gegenüber OpenCL, Tianhe-2 ist einer der wenigen Server von Intel mit Xeon Phis und warum wohl ?
 
Mal ne andere Frage.

Was für ein Mainboard und welchen Chipsatz benötige ich damit der Xeon Phi auf dem Rechner läuft?

Die Infos sind schwierig zu bekommen.
 
Zurück
Oben