ARM: Cortex-A78, Cortex-X1 und Mali-G78 für SoCs in 2021

Nicolas La Rocco
35 Kommentare
ARM: Cortex-A78, Cortex-X1 und Mali-G78 für SoCs in 2021
Bild: ARM

ARM hat neue IP aus den Bereichen CPU, GPU und NPU vorgestellt, mit der SoC-Anbieter in das kommende Jahr gehen werden. Dazu zählen Cortex-A78 (Hercules) und die davon abgeleitete Custom-Variante Cortex-X1 mit mehr Leistung. Mali-G78 und Mali-G68 sind die neuen GPUs, während die Ethos-N78 als neue NPU an den Start geht.

Der Cortex-A78 baut auf dem Cortex-A77 auf und ist in Sachen Effizienz und Fläche optimiert worden, liefert aber dennoch mehr Leistung. Ein Kern auf Basis des Cortex-A78 soll im 1-Watt-Korsett gemessen an SPECint2006 eine 20 Prozent höhere, kontinuierlich (sustained) abrufbare Leistung als der Cortex-A77 liefern.

5 Prozent mehr Leistung bei gleichem Takt

ARM bezieht in den Leistungsvergleich aber auch Verbesserungen mit ein, die sich aus einem erwarteten Wechsel des Fertigungsprozesses ergeben. Die 20 Prozent mehr Leistung bei 1 Watt Verbrauch entstehen neben den architekturbedingten Verbesserungen aus 15 Prozent höherem Takt, den wiederum der erwartete Wechsel von 7 nm FinFET auf 5 nm FinFET bei den SoC-Anbietern beziehungsweise deren Fertigern ermöglicht. Auf den Cortex-A78 alleine entfallen bei gleichem Takt demnach rund 5 Prozent mehr Leistung.

Ein Cortex-A78 soll bei 2,1 GHz die gleiche Leistung wie ein Cortex-A77 mit 2,3 GHz liefern und dafür 50 Prozent weniger Energie benötigen. Auch in diesen Vergleich fließt der Wechsel von 7 nm FinFET auf 5 nm FinFET ein. L1-Caches und L2-Cache hat ARM halbiert und spart damit 5 Prozent Fläche pro Quadratmillimeter im Vergleich zum Cortex-A77 ein. Architekturelle Optimierungen wiegen den Verlust aber mehr als auf.

Cortex-X1 als Custom-Variante mit mehr Leistung

Der Cortex-X1 ist auf maximale Leistung von ARM getrimmt worden und basiert auf dem Cortex-A78. Er ist das erste Ergebnis des neuen Cortex-X Custom (CXC) Programms, mit dem Partner wie Qualcomm oder Samsung einen Kern nach eigenen Vorgaben konzipieren können. Mit dem Cortex-X1 bietet ARM ein entsprechendes Design als Grundlage an, das bei 3,0 GHz 22 Prozent mehr Leistung als der Cortex-A78 liefert. Dafür ist der Cortex-X1 mit doppelt so großem L1- und L2-Cache ausgestattet und befindet sich in einem DynamIQ-Cluster mit 4 MB L3-Cache. Der Cortex-X1 wird als noch schnellerer Prime-Core erwartet, wie ihn Qualcomm zum Beispiel im Snapdragon 865 in Form eines höher getakteten Cortex-A77 mit mehr Cache nutzt.

Effizienz und Fläche stehen beim Cortex-X1 hinten an. Ein normales DynamIQ-Cluster auf Basis von vier Cortex-A78 und vier Cortex-A55 benötigt bezogen auf die größeren Kerne 15 Prozent weniger Fläche und liefert 20 Prozent mehr Leistung als das gleiche Cluster mit vier Cortex-A77. Wird einer der Cortex-A78 aber gegen den Cortex-X1 getauscht und der L3-Cache des gesamten Clusters von 4 MB auf 8 MB verdoppelt, wächst die benötigte Fläche um 15 Prozent gegenüber dem alten Cluster mit vier Cortex-A77, liefert aber auch 30 Prozent mehr Leistung in der Spitze. Es liegt im Ermessen der Partner, wie ein Custom-Core auf Basis des Cortex-X1 am besten in das eigene SoC-Design passt, um Leistung, Effizienz und Fläche im Lot zu halten.

Mali-G78 hat bis zu 50 Prozent mehr Kerne

Mehr GPU-Leistung gibt es mit der Mali-G78 auf Basis der Valhall-Architektur der Mali-G77. Mit jetzt 24 statt maximal 16 Recheneinheiten lassen sich größere und stärkere Grafikeinheiten in ein SoC integrieren. Mit „Asynchronous Top Level“ teilt ARM die GPU in unterschiedliche Takt- und Spannungs-Domänen für das Top Level mit Caches, Scheduler und Tiler sowie die Shader auf. In Benchmarks und Spielen soll eine 18-Core-Variante der Mali-G78 damit 8 bis 14 Prozent schneller laufen, eine 24-Core-Version 9 bis 15 Prozent. Im Balkendiagramm der zweiten Folie bezieht sich der von ARM genannte Leistungszuwachs ausschließlich auf die Mali-G78 MP18. Das untere Segment bedient ARM mit der kleineren Mali-G68, die von der Valhall-Architektur her den Verbesserungen der Mali-G78 entspricht, aber auf sechs Shader-Cluster limitiert ist.

Ethos-N78 liefert bis zu doppelte ML-Leistung

Speziell für das Machine Learning geht die Ethos-N78 als neue NPU (Neural Processing Unit) an den Start. Zwar können diese Aufgaben auch auf der CPU ausgeführt werden, die NPU liefert aber mehr Leistung und Effizienz. Partner können die benötigte Rechenleistung, SRAM und Vector-Engines nach eigenen Bedürfnissen gestalten, sodass Leistungsstufen von 1 bis 10 TeraOPS möglich sind. Über 90 Konfigurationen aus den genannten Variablen seien möglich, erklärt ARM. In der Spitze steigt die Leistung damit um 100 Prozent gegenüber den 5 TeraOPS der Ethos-N77.