Vision

AI-Beschleuniger Gaudi3: Der nächste Herausforderer für Nvidia H100/H200 und B200

Volker Rißka
58 Kommentare
AI-Beschleuniger Gaudi3: Der nächste Herausforderer für Nvidia H100/H200 und B200
Bild: Intel

Intel HPC-Beschleuniger Gaudi2 feierte Achtungserfolge, Gaudi3 soll als erster echter AI-Beschleuniger von Intel noch einen deutlichen Schritt weitergehen und Nvidia ärgern statt kitzeln. Dafür verbessert Intel nahezu jeden Punkt. Einige Überraschungen hält Gaudi3 ebenfalls parat – zum Beispiel beim Speicher.

Gaudi – ein Glücksfall für Intel

Gaudi ist ein Produkt von Habana Labs, ein israelisches Unternehmen. Intel hatte das Potenzial dieses Startups früh erkannt und über Intel Capital Finanzierungshilfe für den Aufbau geleistet. Vor fünf Jahren entschied sich Intel, das Unternehmen komplett zu schlucken. 2 Milliarden US-Dollar sahen damals nach sehr viel Geld aus, könnten sich nun aber als wahre Goldgrube erweisen. Denn selbst wenn Optimisten mit einem AI-Boom gerechnet hatten, die Ausmaße, die er aktuell annimmt, hatten sicherlich die wenigsten auf dem Schirm.

Gaudi3 im Überblick

Gaudi3 heißt das jetzt von Intel im Rahmen der Vision vorgestellt dritte Produkt der Familie und es kommt für Intel genau zur richtigen Zeit.

Mehrfach betonte der Hersteller, dass Gaudi3 ein Produkt nur für diesen einen Einsatzzweck sei: AI. Gaudi3 sei von Grund auf für AI entworfen worden, der Chip bringe keine Überreste einer GPU-Architektur mit – ein kleiner Seitenhieb in Richtung Nvidia, wo die GPU auch immer noch ein wenig in den neuen AI-Beschleunigern steckt.

Intel Gaudi 3 Pre-Brief Deck
Intel Gaudi 3 Pre-Brief Deck (Bild: Intel)

In Anbetracht der Preise, die Nvidia effektiv für aktuelle HPC-Beschleuniger aufruft, lechzt der Markt aktuell nach einer Alternative zu Nvidia, deren Produkte zwar die besten, aber auch sehr teuer und mitunter kaum verfügbar sind – erst recht nicht für kleine Unternehmen. Zum Start kann Intel sicherlich auch deshalb mit Dell, Lenovo, HPE und Supermicro direkt vier große OEMs nennen, die Systeme mit Gaudi3 anbieten werden, weil sie wiederum einen Markt sehen.

Gaudi3 im Detail

Gaudi3 setzt auf die gleiche Architekturbasis wie Gaudi2. Der Chip ist gegenüber dem Vorgänger aber deutlich gewachsen, das in der Regel verwendete OAM-Format bleibt aber das gleiche. Es gibt aber auch andere Lösungen, doch dazu später mehr.

Intel Gaudi 3 Pre-Brief Deck
Intel Gaudi 3 Pre-Brief Deck (Bild: Intel)

Zwei Dies und acht HBM-Chips

Bei Gaudi3 sitzen zwei Dies aus TSMC 5-nm-Fertigung gemeinsam mit acht Speicherchips nach HBM-Standard auf einem Package. Die Kapazität beträgt 128 GByte und bietet nach HBM2e-Standard bis zu 3,7 TByte/s an Bandbreite. Dass Intel nicht auf HBM3(e) setzt, überrascht, der Hersteller erklärt aber, dass das Design explizit für den älteren Standard ausgelegt wurde und damit viel effizienter arbeitet. Nvidia B200 „Blackwell“ erreicht mit HBM3e 8 TB/s.

Das klassische Prinzip „viel hilft viel“ greift laut Intel schon heute im Markt nur noch bedingt und verweist hinter vorgehaltener Hand darauf, dass selbst HBM3e beispielsweise bei Nvidias H200 seine Möglichkeiten nicht voll ausspielen kann und auf gleichem TDP-Niveau in bereits passenden Szenarien „nur“ 28 Prozent gegenüber H100 gewinnt. Einige der dafür verantwortlichen Flaschenhälse löst Nvidia voraussichtlich mit Blackwell auf – Endergebnis unbekannt.

Scaling über Ethernet

Ein AI-Beschleuniger ist nichts ohne Skalierbarkeit. Gaudi3 setzt dabei wie die Vorgänger auf einen in dieser Branche ziemlich einzigartigen Ansatz der Ethernet-Ports, die sowohl für Scale-up als auch Scale-out genutzt werden. Mit 24 × 200 Gb/s steigt die Bandbreite effektiv um den Faktor 2 gegenüber Gaudi2 an. Acht AI-Beschleuniger sind typischerweise in einem Server verbaut, sie sind über Ethernet miteinander verbunden. Genau diese Ethernet-Ports werden nun aber auch für das Scale-out genutzt, erst in den Rack oder Server-Schrank, dann in einen kleinen Cluster oder auch einen sehr großen. Nvidia setzt zu diesem Zweck auf NVlink mit bis zu 1,8 TB/s.

Intel Gaudi 3 Pre-Brief Deck
Intel Gaudi 3 Pre-Brief Deck (Bild: Intel)

Bei Intel werden die kleinen Nodes über Ethernet-Switches verbunden und zusammen geschaltet; beispielsweise über einen 64-Port-Switch mit 800 Gb/s auf Basis von Broadcoms Tomahawk 5, wie ihn Intel im Pressebriefing vorab erwähnte. Diese sind ziemlich neu, der Preis auch entsprechend hoch, wie Vorab-Listungen mit baldiger Verfügbarkeit für beispielsweise 76.250 US-Dollar zeigen.

Intel Gaudi 3 Pre-Brief Deck (Bild: Intel)

Doch diese Switches braucht Gaudi3 letztlich auch, um keine Leistung zu verlieren. Die Hälfte der Ports eines für den Server passenden Switches wird für die Karten im darunter liegenden Server genutzt, die andere Hälfte für den Uplink nach oben. Durch die Verwendung der klassischen Ethernet-Switches kann Gaudi3 theoretisch in jede denkbare Größe skaliert werden.

Drei Varianten für den Markt – mit bis zu 900+ Watt

Intel wird Gaudi3 in drei Varianten auf den Markt bringen. Die wichtigste ist das OAM-Modul nach OCP-Standard, HL325L getauft. Diese ist mit 900 Watt TDP spezifiziert, was für die „passiv“ durch die Server-Lüfter gekühlte Variante gilt. Optionen auf eine höhere TDP gibt es auch, diese setzen dann eine direkte Flüssigkeitskühlung voraus.

Intel Gaudi 3 Pre-Brief Deck
Intel Gaudi 3 Pre-Brief Deck (Bild: Intel)

Intel bietet auch die Referenz für ein Universal Baseboard, auf diesem sind acht OEM-Module verbaut. Die Leistung skaliert entsprechend um den Faktor 8 nach oben. Pro OAM-Modul werden 21 der 24 Ethernet-Ports lokal verwendet umd die Kommunikation mit den sieben anderen Module zu gewährleisten. Die restlichen jeweils drei sind dann zusammen geschaltet für den Uplink verfügbar.

Intel Gaudi 3 Pre-Brief Deck
Intel Gaudi 3 Pre-Brief Deck (Bild: Intel)

Auch eine PCIe-Karte hat Intel im Programm, HL-338 getauft. Diese arbeitet nach Standard-PCIe-Spezifikation, über eine sogenanntes „top board“, quasi eine SLI-Brücke, können bis zu vier Karten miteinander verbunden werden. 18 der Ethernet-Ports pro Karte werden dann für die Verschaltung untereinander genutzt.

Intel Gaudi 3 Pre-Brief Deck
Intel Gaudi 3 Pre-Brief Deck (Bild: Intel)

Performance von Intel Gaudi3 vs. Nvidia H100/H200

Für AI-Beschleungier die passenden Tests auszuwählen ist eine Wissenschaft für sich, auch weil der Benchmark darüber entscheiden kann, welcher Beschleuniger vorne liegt – vor diesem Hintergrund sind auch die Herstellerbenchmarks zu werten. Sie zeigen gern die Filetstücke des Produkts, das ist bei jedem Hersteller das gleiche, ob bei Inference oder auch Training. Intel stellt Gaudi3 in den eigenen Benchmarks gegen im Markt verfügbare Modelle, vor allem Nvidia H100 aber auch H200, wie sie Nvidia erst Ende März selbst publiziert hat.

Intel Gaudi 3 Pre-Brief Deck (Bild: Intel)

Gegenüber H100 stellt Intel Gaudi3 als den Gewinner dar, gegenüber H200 wird es komplizierter. In kleineren Szenarien liegt Gaudi3 nun nämlich zurück, gewinnt erst bei LLMs mit sehr viel mehr Parametern oder viel mehr genutzten Tokens. Im Schnitt sieht Intel einen Vorsprung, ohne beispielsweise Falcon-180B mit 2.048 Tokens liegt Gaudi3 zurück. Es kommt eben extrem auf die Testreihen und Parameter an.

Intel Gaudi 3 Pre-Brief Deck (Bild: Intel)

Auch in puncto Effizienz sieht Intel Gaudi3 gut aufgestellt. Die Lösungen verbrauchen zwar gleich viel oder gar noch mehr als Nvidia, liefern aber in den entsprechenden Bereichen auch die passende Leistung.

Auf Nachfrage bei Intel, wie sich Gaudi3 denn gegen Nvidia Blackwell stellen dürfte, gab das Unternehmen keine direkte Antwort. Es gebe einfach noch zu viele Unbekannte, Nvidias eigene Tests können nur schwer oder nicht nachvollzogen werden. Hier wird es erst mit verfügbaren Lösungen zu einem Test kommen.

Partner haben Muster, der Markt wird im Q3 bedient

Der Start von Gaudi3 erfolgt in Wellen, so sieht auch die Sampling-Phase aus. Das klassische luftgekühlte OAM-Modul ist das erste, es ist als Muster bereits bei Partnern im Einsatz. Es folgt die wassergekühlte Variante. Diese beiden Lösungen sollen ab Q3 respektive Q4 verfügbar sein. Im vierten Quartal soll auch die PCIe-Karte erscheinen.

Intel Gaudi 3 Pre-Brief Deck (Bild: Intel)

Intel will dabei wie bei Gaudi2 die Karten „Preis/Leistung“ sowie „Verfügbarkeit“ spielen. Auch das Ökosystem soll leicht zugänglich sein, über die Intel Dev Clound kann mit Gaudi2 bereits heute etwas programmiert werden, was sich dann auf Gaudi3 portieren lässt. Gaudi3 wird in der Entwicklerumgebung ab demzweiten Halbjahr zur Verfügung stehen.

Up next: Falcon Shores kombiniert IP von Gaudi und Intel Xe

Falcon Shores hatte Intel bereits vor zwei Jahren in Roadmaps dargelegt. Für den HPC-Bereich soll hier eine GPU geschaffen werden, die auf IP von Gaudi und Intel Xe zurückgreift. Im Jahr 2025 soll es so weit sein.

Intel Gaudi3 Press Briefing

ComputerBase hat Informationen zu diesem Artikel von Intel unter NDA erhalten. Die einzige Vorgabe war der frühestmögliche Veröffentlichungszeitpunkt.

Intel Vision 2024 (8.–9. April 2024): Alle News auf der Themenseite!
  • Intel Lunar Lake: Vierfache NPU- für in Summe über 100 TOPS AI-Leistung
  • AI-Beschleuniger Gaudi3: Der nächste Herausforderer für Nvidia H100/H200 und B200
  • Xeon 6, Gaudi3, NIC & Co: Alles wird auch bei Intel zu AI – oder muss es werden