News Hot Chips 33: IBMs Telum-Architektur setzt auf 32 MB L2-Cache – pro Kern

textract schrieb:
Gerade Nvidia-GPU basierende Systeme wurden die letzten Jahre sehr häufig mit IBM-Hardware gebaut, was ganz einfach daran liegt, dass Nvidia häufig für ihre High-End Modelle die Treiber nur für Power entwickelt hatte. Das hatte auch einen bestimmten Grund: Power 8 und Power 9 haben NVLink mittels integriertem Protokoll nativ unterstützt und die Karten haben keine PCI-e Lanes verwendet. Damit konnte man viele Grafikkarten und trotzdem gleichzeitig noch Netzwerk-/FC-/Interconnect- und andere Erweiterungskarten, wie bspw. mit P4 kompatiblen Chips ausgestattete Karten betreiben.

Ja gab mal eine Zeit vor ein paar Jahren als Power9 mit NVLink ganz beliebt war, vor allem wegen ein paar großen HPC design wins. IBM hat damals groß "Large Model Support" für Deep Learning Modelle angekündigt, mit der Idee über den Interconnect schnell Daten on Demand auf VRAM zu kopieren. Wirklich durchgesetzt hat sich das aber nicht, der Tensorflow Fork von IBM mit der Unterstützung ist mittlerweile seit einem Jahr nicht geupdated und 4 Versionen behind und auch in Pytorch ist die Funktionalität nicht Upstream. Die Power9 Systeme sind immer noch nicht updated mit A100 Karten, es gibt keine HPC wins und Nvidia Referenz Designs setzen alle auf reine PCIe Architekturen zwischen GPUs und Host / Netzwerk mit teilweise vielen PCIe Switches.

Gegenüber modernen A100 + Epyc Rome Systemen sind die 'alten' Power9 Systeme leider eher langsam und aufgrund der anderen Architektur halt auch echt nervig mit zu arbeiten.
 
@Calaphos laber doch nicht so viel über Design Wins. Geh im Kinderzimmer mit deiner Daddelkiste spielen. In der Sparte gibt es eigentlich nur IBM. Die Software ist 30 Jahre oder älter.

Mainframe zXX adressiert kein HPC. Power ist genau für diesem Markt gebaut. Bei HPC handelt es sich in der Regel tausende „billige“ Nodes mit einfacher Architektur. Jeder Node bearbeitet nur einen ganz kleinen Teil des Problems und bei einem Ausfall wird der Node ausgeblendet. Keine Business-Critical Applikation die ein 24x7 Anspruch haben. Mainframes bzw. Jeweils deren Hälfte laufen immer durch.

Ein DAX Konzern hat 2, 4 oder 6 Systeme weltweit. In der Regel für EMEA, NAFTA und China. Darüber laufen so gut wie alle kritischen Prozesse: Börse, Teilelisten, Gehälter, Zahlungen, Buchungen,.. Das hat mir HPC nichts zu tun.

Ist die Kiste länger als ein paar Tage down muss man nach Kapitalmarktrecht der Konkurs angemeldet werden.

Ganz anderer Markt. Kein Kinderzimmer.
 
Volker schrieb:
... 40 Prozent mehr Leistung pro Sockel.
... der Vorgänger ... hatte nämlich zwölf Kerne pro Sockel, nun sind es 16 ...

So bleibt pro Kern nur eine Leistungssteigerung von rund sieben fünf Prozent übrig.

Der Hauptteil der gesamten Leistungssteigerung (140%) erfolgt durch die Erhöhung der Kernanzahl:
16/12 ~ 133%

Die Differenz 140%-133% = 7% liefert eine Kunstgröße der Form "Anteil der IPC-Steigerung der Kerne an der Leistungssteigerung pro Sockel".

Die Division liefert die Leistungssteigerung pro Kern: 140/133 ~ 5%.
 
Reuter schrieb:
Weil im Step-and-Repeat Prozess immer mehrere Dies gleichzeitig belichtet werden. Die Anordnung auf den Belichtungsmasken ist dann natürlich rechteckig, wie hier zu sehen bei einer Maske für 20 Dies:

Anhang anzeigen 1115725


Rechteckige Maske und runde Wafer ergeben dann einfach den Ausschuss am Rand.
Ja, die Masken sind rechteckig sind ja wenn das Design klein ist, hat man mehrere Chips auf einer Maske. Wenn das design aber so groß wird, das es dem rectangle limit nahe näher kommt, hat man am Ende nur noch genau einen Chip auf der Maske. In dem Fall hat man dann aber noch immer auch am Rand teilbelichtete Chips. Und das obwohl damit weniger Wafer/Stunde durch die Maschine laufen. Begründung siehe unten.

Multivac schrieb:
Warum werden eigentlich die Wafer am Rand mit Teilweisen cpus belichtet?
Man macht das, damit die Uniformität auf dem Wafer besser ist. Man verhindert damit das dishing Problem durch ununiformity zu reduzieren.

https://www.researchgate.net/figure/Two-common-Cu-CMP-problems_fig12_3284025

Klar soweit?
 
  • Gefällt mir
Reaktionen: 4nanai
Das hier ist IBM z/Architecture, das Z steht für zero-downtime, es ist eine CISC Architektur wie x86 auch, aber mit ziemlich vielen Unterschieden.
IBM Power Archtiktur ist RISC, ähnlich wie ARM

Wo SMT4 oder SMT8 in RISC Sinn machen kann, ist es in CISC so, dass mehr als SMT2 quasi keine Vorteile mehr bringt.
Sonst hätte IBM Z oder Intel x86 das schonmal in kaufbaren Produkten probiert.
 
Zurück
Oben