News Exascale-Supercomputer: Tianhe-3 wird von CPU bis OS in China gebaut

Marcel55 schrieb:
Außerdem haben die meisten Chiphersteller (TSMC, GloFo) auch Fabriken in China.

meine rede, denke die herstellung ist in china. aber chinesischer chiphersteller der die 10 fache leistung bringt unterm stroch wenn das steht wäre einfach mal nett gewesen zu wissen wer das sein sollte. es gibt sicher auch chinesische chiphersteller, aber dachte eben keine big player die das sehr optimischte vorhaben dann umsetzen. ich bin mal gespannt
 
@Chesterfield

Sowas geht grundsätzlich auch ohne Beschleuniger. Die Vorlagen dafür existieren schon sehr lange:

https://www.computerbase.de/2007-02/intel-polaris-80-kerne-1-teraflop-bei-62-watt/

Das Ding hatte 2007(!) bereits ein 1 TFLOP/s bei 62 Watt, diente aber in erster Linie der Grundlagenforschung.

Es sind im Prinzip ein paar Management-Cores, die einfach nur mit massiv FPU-Einheiten erweitert werden, die stumpf mit einem einfachen Befehlssatz die Berechnungen ausführen. IBM hatte mit dem Cell Prozessor (SPEs) auch mal ein ähnliches Konzept verfolgt (u.a. ja auch in der PlayStation 3), hat das Design aber sterben lassen.

Diese Art von CPUs können natürlich eine massive Rohleistung erzeugen, die aber nur unter optimalen Bedingungen / Anwendungsmuster erreicht wird. Bei General-Purpose-Anwendungen in realen Szenarien wird oft nur ein Bruchteil der maximalen theoretischen Performance erreicht. (siehe dazu auch die HPCG-Liste von November 2016)

Der oben aufgeführte Sunway-Prozessor fällt in eine ähnliche Kategorie und der ist sogar noch in uralten 28 nm gefertigt. Die Chinesen werden für das Exascale-Projekt nix anderes machen, als sich diesem Prinzip bedienen, ein wenig zu erweitern und auf eine aktuellere Fertigung zu bringen.
 
Lustig finde ich hier wie oft sie belächelt werden.
Ursprünglich gab es ein Embargo für Intel von Seiten der US Regierung ihre Leistungsfähigsten Prozessoren nach China zu verkaufen, also hat China gleich die Chance genutzt sich von US Prozessoren, die im Grunde ja eine Blackbox für sich sind unabhängig zu machen. Objektiv war das ganz sicher keine dumme Entscheidung und dazu auch noch souverän umgesetzt wenn man sich anguckt wo sie mit ihren Prozessoren stehen.
Natürlich sind die Teile mit xxx Kernen nichts für den Heimpc, aber das müssen sie ja auch nicht sein. Das wofür sie entwickelt wurden können sie ganz offensichtlich gut.

http://www.theregister.co.uk/2015/04/10/us_intel_china_ban/
 
Zuletzt bearbeitet:
Schon beeindruckend was die Chinesen können, das machen andere Staaten auch, ist ein logischer schritt wenn man autonom sei will, sie wollen einfach keine eingebauten US Lücken oder Trojaner.
 
Wikipedia zum Sunway TaihuLight schrieb:
Insgesamt ergibt die Konfiguration 10.649.600 Kerne. Der Energiebedarf ist mit 15.370 kW geringer als beim Supercomputer Tianhe-2, obwohl die Rechenleistung beinahe verdreifacht wurde.

Wie schafft man eigentl. die Parallelisierung von so unglaublich vielen Rechenkernen?

Rechnen die tatsächlich alle an einer Formel oder berechnet jeder eine Variabel einer (dementsprechend auch äußerst) komplexen Gleichung?
 
AMD hat doch kürzlich erst nen hunderte Millionen großen Deal an Land gezogen. Die lizenzisieren doch ihre CPUs nach China (ausschlißelich für den CH-Markt). Könnte sich als doch um AMD-CPUs handeln zumindest Architekturtechnisch.
 
frkazid schrieb:
Wie schafft man eigentl. die Parallelisierung von so unglaublich vielen Rechenkernen?

Das wird dir keiner hier so allgemein in einem Forenbeitrag umfassend erklären können, da das komplett vom zu berechnenden Problem abhängt.
Ein paar Anhaltspunkte:

-Man kann nicht jedes Problem sinnvoll parallelisieren. z.B.: Fibonacci-Folge

-Wenn es aber zu parallelisieren geht, dann zumindest theoretisch meist für unendlich viele Prozessoren. D.h. ein Problem, das du nach einem bestimmten Schema auf z.B. 4 Kerne aufteilen kannst, kannst du meist auch problemlos auf 260 oder 2 Millionen Kerne aufteilen. Ob das dann noch performant läuft, kann eine ganz andere Frage sein und auch vom Zielsystem abhängen. Die Grenze setzt dann meistens die Problemgröße. Irgendwann verteilt man das Problem, wenn es zu klein ist, auf so viele Prozessoren, dass der Overhead fürs Verteilen und wieder zusammen sammeln viel größer ist als das, was die Prozessoren letztlich rechnen. Oder man kann das Problem bei der aktuellen größe nicht in so viele Teilprobleme zerlegen, wie man Prozessoren hat.

-Der erste Schritt ist immer das Zerlegen des Problems. Dein "Rechnen alle an einer Formel oder jeder eine Variable einer Formel?" legt nahe, dass du dich mit Mathetik und Algorithmen nicht so gut auskennst. Daher sei nur gesagt: Nicht jedes Problem besteht einfach nur aus "einer Formel", die es zu lösen gilt. Deshalb spreche ich auch von "Problemen" und nicht von Formeln o.Ä.. Zum Lösen des Problems gibt es einen Algorithmus (wenn es keinen gibt, kannst du es mit einem Computer nicht berechnen). Ob und wie sich ein Problem parallelisieren lässt, ist eine Frage des verwendeten Algorithmus. Beispiel aus der Welt der Formeln und Variablen: Man kann z.B. ein zweidimensionales Feld berechnen wollen, für das eine Formel für jeden Punkt vorliegt, sodass für jeden Punkt ein Wert aus bestimmten Variablen berechnet wird. Da liegt dann nahe, dass einfach je ein Prozessor oder Kern einen Anteil der Punkte bekommt und für diese Punkte die Ergebnisse berechnet. Schwieriger wird es, wenn man dann noch die Ergebnisse der Berechnungen der benachbarten Punkte miteinbeziehen muss. Insbesondere, wenn diese ein anderer Kern/Prozessor berechnet hat. Aber das geht auch noch (sorry, zu komplex um es hier zu erklären).
Auch kann man durchaus Teile von Variablen berechnen. Ein Variable, die z.B. eine Summe von Produkten sei, kann auch aufgeteilt werden.

-Wenn das Problem dann zerlegt und die Teilergebnisse berechnet wurden, dann geht es an das Zusammenfügen der Teilergebnisse. Mal ist das simpel, mal sehr komplex. Je nach Problem kann es auch durchaus mit einmal "zerlegen, rechnen, zusammenführen" noch lange nicht getan sein. Das kann sich auch beinahe beliebig oft widerholen.


Jetzt hab ich dir einiges erzählt und du weißt immer noch nicht viel mehr. Wie gesagt, es ist extrem vom Problem abhängig und wenn man die mathematischen Grundlagen der Probleme, die auf hochparallelen Systemen berechnet werden nicht kennt, kann man es sich auch sehr schwer vorstellen.
 
Auch das Betriebssystem soll eine Eigenentwicklung sein.

Aber bestimmt nicht von Grund auf neu. Der Kern ist doch bestimmt ein Linux-Kernel ;)

Edit: Andererseits, wenn bereits die CPU eine Eigenentwicklung ist und damit ihren eigenen Befehlssatz hat, dann könnte (bzw. sogar müsste) es vielleicht doch etwas komplett Eigenentwickeltes sein. Zumindest müssen die hardwarenahen Routinen an die CPU und die restliche Hardware angepasst sein. Der Rest des Betriebssystems kann dann letztlich doch wieder auf GNU/Linux basieren.
 
Zuletzt bearbeitet:
Ach so nen bisschen ist schon noch hängen geblieben^^

Also kann man durch mehr Prozessoren die, ich nenns jetzt mal laienhaft, Rastergröße verkleinern und dadurch die Genauigkeit erhöhen (um bei deinem zweidimensionalen Feld zu bleiben).

Gibts denn Probleme die aufgrund fehlender Rechenkapazität nicht bzw. nur bruchstückhaft berechnet werden können?
 
Ich denke man sollte bei den chinesischen Angaben sehr vorsichtig sein. So ein SW26010 mag zwar mit seinen 260 Kernen und 8 Double-Precision Operationen pro Zyklus massig Performance haben, ob die auch genützt werden können bezweifle ich aber stark. Vor allem da jeweils 64 Kerne nur an eine DDR3 Speicherbank angebunden sind. Das sind geschätzte 10-15Gbit auf 64 Kerne. Das sind grob etwa 200Mbit pro Kern.
Ein Xeon Phi mit 72 Kernen kann dagegen auf den angebundenen HMC mit 400GBit zugreifen. Das sind 5.55Gbit pro Kern und damit ca. Faktor 28 mehr.
Entsprechend eignen sich nur Aufgaben für den SW26010 die sich sehr stark parallelisieren lassen und fast keine Speicherbandbreite benötigen. Das schränkt die Anzahl natürlich sehr stark ein und ist für sehr viele Aufgaben nicht mehr geeignet.
Am Ende ist das Teil ein Prestigeobjekt und nicht mehr.
 
frkazid schrieb:
Wie schafft man eigentl. die Parallelisierung von so unglaublich vielen Rechenkernen?
Für die meisten Anwendungen vermutlich gar nicht. ;)
Das Teil muss ja nicht unbedingt eine einzige Aufgabe berechnen, evtl. laufen da schlichtweg 100 Sachen gleichzeitig und nutzen trotzdem nur einen Teil der möglichen Kapazität.
 
Es geht immer darum wer den Größeren hat;)
Aber ich wage es stark zu bezweifeln ob jetzt der neue Supercomputer wirklich einer der Schnellsten sein wird, weil ich bin mir nicht so sicher was für Rechenpower bei den Amis in den Behörden im Keller stehen haben oder andere Regierungen, wo die Existenz dieser Supercomputer geschweige die Leistungen bekannt sind.
Schon komisch in der Vergangenheit waren die Computer riesen Groß für ein bisschen Leistung und heute bauen wir immer noch riesige Computer mit einer exorbitant hohen Rechenleistung als Früher. Die Dimensionen sind gleich oder Größer zu früher nur die Technik ist eine etwas andere!
Mal schauen was es für Leistungssprünge sein wird, wenn es mal echte Quantencomputer geben wird, die auch zum Einsatz kommen.
 
frkazid schrieb:
Wie schafft man eigentl. die Parallelisierung von so unglaublich vielen Rechenkernen?
Man sucht sich ein "Problem", was sich in weitgehend unabhängige Unterprobleme zerlegen läßt und beschäftigt damit die vielen Rechenkerne. Der Linpack-Benchmark, mit dem die Supercomputerhelden ihre Systeme """gern""" vermessen, ist so ein Problem. Für den brauch man fast nur rohe FP-Rechenpower. Andere für Supercomputer wichtige Parameter (schnelle Verbindung zwischen den Knoten, kurze Latenzzeiten CPU<-->CPU und CPU<-->Speicher, viel Speicher, schneller Speicher usw.) sind für gute Linpack-Ergebnisse wenig wichtig. Selbst mit vielen über Ethernet vernetzten Standard-PCs lassen sich hohe Linpack-Zahlen erreichen. Es handelt sich also um einen Schwanzvergleich mit wenig Aussagekraft zur Leistung der Computer bei Problemen anderer Art.


Vergleiche es mit Bauen: Den Bau einer langen Strasse kannst du quasi beliebig beschleunigen, indem du sie in viele kleine Abschnitte teilst und an allen Abschnitten zugleich baust. Alles prima parallelisierbar. Du schaffst irre viele Meter/Tag. Wenn du dann allerdings mal statt einer langen Strasse einen hohen Turm bauen sollst, greift deine Methode zum schnelleren Bauen nicht mehr ... die Leistung in Meter/Tag wird winzig sein.
 
Zuletzt bearbeitet:
Bogeyman schrieb:
In Deutschland geht man genau die andere Richtung, wechselt von Linux wieder zurück nach Microsoft.
Und warum? Weil Windows funktioniert und jeder damit umgehen kann.
Von Backend-Servern und Maschinensteuerung abgesehen ist Linux anwenderseitig im produktiven Betrieb uninteressant, da funktioniert bis heute die Formatierung von Libre Office und Co. nicht mal anständig. Wer Dokumente bearbeiten und verwalten muss, und das muss so gut wie jedes Büro dieser Welt, nutzt besser kein Linux denn Linux ist was für Leute die gern AN dem OS und nicht MIT dem OS arbeiten wollen. Und Behörden sind nun mal Ansammlungen von Büros. Der Marktanteil von Linux liegt nicht umsonst bei 2% wenn ich mich nicht irre.

Zur Topic: Beeindruckend in den Zahlen aber wahrscheinlich mit sehr begrenztem Einsatzgebiet, analog einem Bugatti Veyron.
 
Chesterfield schrieb:
mit "stammen" glaube ich eher dort produziert werden. was anderes kann ich mir nicht erklären. bzw vor allem welcher "bekannte" chiphersteller ist "chinese" ?? daher glaube ich eher dort "hergestellt"

hier mal google dazu befragt und tatsächlich gibt es wohl "welche!


ES gibt chinesiche CHIPHERSTELLER (sme oder so in shanghai) ja sogar in 28 nm.... und TAIWAIN ist auch China. China = Taiwan
 
Liebe Leute, mein erster eigener PC war ein 400 MHz schneller Pentium 2. Heute werde ich 30 Jahre alt, wir leben in einer echt interessanten Zeit.
 
Zurück
Oben