News Intel „Knights Ferry“ inklusive Chip untersucht

Volker

Ost 1
Teammitglied
Registriert
Juni 2001
Beiträge
18.361
Eine Station des Showcases anlässlich des 10. Geburtstages von Intel Braunschweig widmete sich auch den Erben von Intels Grafikprojekt „Larrabee“. Damit hatte man eine lauffähige Station mit der „Knights Ferry“-Karte aufgebaut, die einer der Nachfolger des „Larrabee“-Projekts ist. Und auch der Blick in die Zukunft wird gewagt.

Zur News: Intel „Knights Ferry“ inklusive Chip untersucht
 
na da freut sich das CERN und andere große Rechencluster ja glatt nen Ast ab, wenn die Teile da sind ;)
 
Mal weis in wie weit da auch für CPUs zu gute kommt. 4 Threads pro Kern und 50 und Core pro CPU^^ Der Servermarkt wird sich freuen^^
 
Die Softwareindustrie wird es hassen ... da sie jetz echt anfangen müssen Software dafür zu programmieren.
 
Interessant wird es zu sehen, ob Intel den Rückstand zu Nvidia einholen kann. Ein Pluspunkt ist sicher die X86 Architektur, die wenig Anpassungen der Software benötigt, im Gegensatz zu CUDA.
 
Wehrwolf schrieb:
Interessant wird es zu sehen, ob Intel den Rückstand zu Nvidia...
Welcher Rückstand? ;) Gab nen interessanten CT-Artikel über CUDA und wie gut die wirklich sind. ;) Ab irgend wie bei Matritzen 1000 * 1000 ist selbst ne GeForce GTX480 mit 76GFlops/s unmerklich schneller als ein 6-Core Xeon. ;) Aber günstiger. Nettes Zitat am Ende: Es lohnt sich wohl mit spitzem Bleistift zurechnen, was am meisten Leistung bringt und am wenigsten Kostet. (sofern man nicht ECC braucht.)
 
GameRsT schrieb:
Welcher Rückstand? ;) Gab nen interessanten CT-Artikel über CUDA und wie gut die wirklich sind. ;) Ab irgend wie bei Matritzen 1000 * 1000 ist selbst ne GeForce GTX480 mit 76GFlops/s unmerklich schneller als ein 6-Core Xeon. ;) Aber günstiger. Nettes Zitat am Ende: Es lohnt sich wohl mit spitzem Bleistift zurechnen, was am meisten Leistung bringt und am wenigsten Kostet. (sofern man nicht ECC braucht.)

... in besagtem Artikel konntest Du aber auch lesen - wenn Du weitergelesen hast, daß eine nVidia GPU bei Matrizen, die eine Größe von 1248x1248 oder sowas ÜBERSCHRITTEN, ganz deutlich in Sachen doppelt genaue Gleitkommaarithmetik schlagen. Da schafft eine TELSA C2050 222 GFlops, zwei XEON Westmere 130 GFlops. Wird die Matrizengröße, die offenbar eine architekturbedingte Größe haben müssen, um schnell bearbeitet werden zu können, so gewählt, daß eben die Karte rechnen kann, liegt die Leistung der doppelt genauen Gleitpunktarithmetik 5 bis 6 Mal besser als beim schnellesten derzeit verfügbaren XEON oder Core i7-980X.

Was nützt mir aber die größte Rechenleistung, wenn die software, die ich bauen müßte, nicht universell einsetzbar ist? OpenCL ist nach wie vor ein 'Fremdwort', CUDA ist allerorten. Compiler, die Bytecode im Sinne einer VM erzeugen könnten - so wie das mit LLVM angedacht war, sucht man vergebens. Die Specs der GraKa Chips sind nicht offen genug, um hier Opensourcetreiber bieten zu können und viele in der Wissenschaft wichtige Architekturen werden von nVidia oder AMD gar nicht mit proprietären Treibern bedient - also nichts mit GPGPU. Und Windoof ... Nun ja, wenn man 'Flash' vermittels GPGPU beschleunigen muß ...
 
Es wird nichts nützen, schon wieder auf CPU Technik zu setzen. Intel muss lernen, wirkliche Grafikchips zu bauen. Ohne Unterstützung gängiger Standards und grottigen Treibern wird Intel sowieso nicht auf den Mainstream oder gar High End Bereich zielen können. Grafikchips arbeiten einfach deutlich schneller.
 
@Eisenfaust: OpenCL gabs auch erst lange Zeit nach CUDA, das ist der Grund warum man es nirgends findet. btw: nVidia hat seine OpenCL implementation in CUDA geschrieben.


Das mit der Matrixgröße ist so ne Sache, die mit der Cachegröße zu tun hat, da passt eine 1000x1000 Matrix grade noch rein. Wird es größer, liegt die Matrix im RAM rum, welcher rund 10x langsamer angesprochen werden kann. Deswegen gibts durchaus so Sprünge in der Geschwindigkeit.

Allerdings kann ich euch verraten: mit ner 1000x1000 Matrix will in der Andwendung niemand rechnen, das schafft ne CPU auch ausreichend schnell. Da wo Power gebraucht wird läuft es auf andere Matrixgrößen hinaus, in Jülich auf dem BlueGene wird durchaus (von mir^^) mit ~50Miox50Mio gerechnet.
Die Floating Point Leistung ist immer das Steckenpferd von Grafikkarten, für Wissenschaftliche oder Indiustrielle Andwendung zählt allerdings nur Double precision Leistung. Und die bricht bei Ati/nVidia sehr stark ein.
 
@panopticum
Wieso wird sie es hassen :D
Die Serverprogramme und Programme die wissenschaftliche Berechnungen machen, sind extremst auf Multicore ausgelegt.

Oder denkst du wirklich die Karte kannst du zum zocken, photoshoppen, rendern mit C4D nutzen?^^
 
Tja bis das Ding kommt ist der Zug leider abgefahren...
 
Naja der Ansatz ist wirklich gut - und könnte auch für den Gaming-markt interessant sein. Stichwort Ray-Tracing. Für die Technik sind derzeitige Grafikkarten nicht zu brauchen - aber sie ist sehr gut auf mehrere Einheiten skalierbar. Das könnte dem GPU-Wahnsinn der letzten Jahre ein Ende setzen - denn dann wird Multi-GPU sinnvoll einsetzbar. Und man könnte endlich so einiges an veralterten Methoden über Bord werfen. Betrachtet man die notwendigen Transistoren, so könnte man mit dem Aufwand der in einer GPU steckt eine ganze Prozessorfarm aufbauen. Der RV870 oder GF104 haben etwa 2 Milliarden Transistoren - aktuelle Prozessoren sind je nach Cachegröße bei etwa einem achtel bis ein drittel davon. Wobei man den Cache für solche Multi-Prozessor-Systeme deutlich verkleinern könnte.

Omega64, Grafikchips und CPUs sind grundverschieden in ihrer Auslegung, und GPUs sind sehr schnell bei gewissen, sehr einfachen, Operationen. Alles was komplizierter wird kann eine GPU nicht in vernünftig abhandeln. CPUs sind hingegen auf genau diese komplizierten Aufgaben optimiert, und haben daher sehr umfangreiche Instruktionen, mit denen komplexe Operationen in wenigen Takten erledigt werden können. GPUs erledigen viele stupide Operationen zugleich.
Das Intel auf eine CPU-ähnliche Struktur setzt ist nichts schlechtes, es kommt halt auf das Einsatzgebiet an. Für Crysis: Warhead wird Knights Ferry oder Knights Corner nicht zu brauchen sein, weil sie schlicht und ergreifend nicht dafür gedacht sind. Aber diese Prozessoren sollten dann in der Lage sein, einige komplizierte Operationen in hoher Geschwindigkeit zugleich ab zu arbeiten.

mfg
 
klar können aktuelle Grafikkarten Ray-Tracing und das sogar halbwegs flüssig und nicht mit X Systeme mit X CPUs wie es Intel immer vorführt...

Intels weg wird immer eine sackgasse sein, da CPUs für so was schlicht nicht geeignet sind.

und für Ray-Tracing braucht man noch viel viel mehr Leistung und genau deswegen wird es in naher zukunft auch keine bedeutung haben, da einfach die hardware noch nicht so weit ist.
 
Zuletzt bearbeitet:
GameRsT schrieb:
Welcher Rückstand? ;) Gab nen interessanten CT-Artikel über CUDA und wie gut die wirklich sind. ;)
Ja und den solltest du noch einmal aufmerksam lesen.

GameRsT schrieb:
Ab irgend wie bei Matritzen 1000 * 1000 ist selbst ne GeForce GTX480 mit 76GFlops/s unmerklich schneller als ein 6-Core Xeon. ;)

Eine 1000x1000 Matrix ist für fast jede GPGPU Anwendung viel zu klein, die könntest du locker mit einem underclockten Office PC mit einem Pups Algorithmus ohne Caching Optimierung im Debug Modus von Visual Studio in kurzer Zeit lösen. Somit ist dein Beispiel nicht real. In der Praxis hat man bspw. einen 1024x1024x1024 Voxel Raum den man ausgleichen muss.

GameRsT schrieb:
Es lohnt sich wohl mit spitzem Bleistift zurechnen, was am meisten Leistung bringt und am wenigsten Kostet. (sofern man nicht ECC braucht.)
Somit die Grafikkarte. Den Meisten ist es außerdem total egal ob in einer 10Mx10M Matrix ein Bit kippt.
 
für den servermarkt könnte intels ansatz durchaus interessant sein, da sie die vorteile von cpu (x86-architektur) und gpu (massenparallelisierung) vereint. wie lange es noch dauern wird, bis sie damit das leistungsniveau der gpus (die sich bekannter maßen ja auch weiterentwickeln) eingeholt haben, bleibt abzuwarten.

eine konkurrenz zu den desktopgrafikchips dürfte man aber imho auf diesem wege nicht erreichen. nicht ohne grundsätzliche veränderungen in der grafikerstellung durchzusetzen. die vorteile der larrabee-architektur liegen vor allem in den bereichen, in denen sich die aufgaben von gpu und cpu überschneiden. in letzter konsequenz würde intel mit durchsetzung der larrabee-architektur sogar ihren eigenen cpu-markt bombadieren, da jede cpu-aufgabe auf dem larrabee um ein vielfaches schneller erledigt werden könnte und somit die cpu nur noch ein weiterer chip wie northbridge und southbridge auf dem board darstellen würde. zudem liefe der larrabee auch auf den günstigeren amd-systemen.
daher denke ich nicht, dass wir larrabee-grafikkarten in der jetzigen form jemals im desktop-bereichen finden werden.
 
Warum bauen nicht alle hersteller das Slotblech so wie Intel?
Da geht wenigstens Luft durch!

muss der Lüfter nich so viel drücken, hat nur Vorteile!
Das nenn ich mal innovativ -.-

Ansonsten darf man gespannt sein, wann das marktfertig wird
 
darkfate schrieb:

Eisenfaust schrieb:
Sagt mal Jungs, einfach eine Aussage, die so sogar richtig ist, stehen lassen könnt ihr nicht, sondern müsst dann eines auf "Besserwisser" machen?

@Eisenfaust, ich glaube du hättest den Artikel genauer lesen sollen, aber für dich gerne als Zitat: "So schafft die Tesla C2050 mit eingeschaltetem ECC die doppeltgenaue Matrixmultiplikation (CuBLAS DGEMM) von zwei 1248 * 1248-Matrizen mit 222GFlops, mit 1246 x 1246 oder 1250 x 1250 sinkt die Rechenleistung auf 79GFlops - nahezu soviel schafft der Core i7 980X auch (71,5 GFlops) und das Xeon-Pärchen mit 12 Trheads kommt durchgängig auf 130 bis 138 GFlops.!"

So bald die Matrizen die 1000 x 1000 überschreiten muss man also die Formate an die Hardware optimieren, ist das getan, gewinnt die Tesla-Karte. Das allgemeine Fazit, was eigentlich die Kernaussage meines Beitrags war ist aber immer noch folgendes: Man sollte die Hardware nach der Aufgabe kaufen und nicht die Aufgabe nach der Hardware richten, wenn man Geld sparen will. Und die Intel Technik könnte den Fermi auch in die Schranken verweisen, da er mal eben nicht von der gewählten Dimension abhängig ist.

Vorteil GPU => Richtige Dimension und das Teil geht ab wie eine Rakete.
Vorteil CPU => Egal welche Dimension, die CPU machts immer gleich schnell. ;)

Am Ende wird sich hier zeigen müssen, was wie seine Vorteile ausspielen kann.
 
Auch hier wieder passt es gut, warum nicht einfach auch PCIe Karten auf den Markt kommen wo zusätzlich 1 oder 2 normale Sockel für CPUs verbaut werden so könnte man ganz simpel Rechner MultiCPUmäßig ausstatten!
 
Man darf sich da nicht beirren lassen. Zwar wird das Teil als Multi-CPU gebaut, aber dank den kleinen Fertigungsprozess kann man das trotzdem hinbekommen. Sollte man es hinbekommen, wirds echt eng für NV.
Ob der Servermarkt das Teil gut aufnehmen wird, hängt davon ab, ob es bis dahin ordentliche Schnittstellen gibt, mit denen man GPUs effektiver verwenden kann. Ich würde sagen, dass es eigentlich nur auf die Leistung ankommt. NVs derzeitige Prozessoren sind von der Rohpower her relativ schwachbrüstig - NV muss wieder weg von diesen blöden Skalarprozessoren, das ist ne Sackgasse. Mal sehen, wie das in der nächsten Generation wird. Sollte man nächste Generation immernoch auf die G80-Technik setzen, wird man wohl nicht mehr konkurrenzfähig sein.
 
Zuletzt bearbeitet:
Zurück
Oben