AI-Rechenleistung: Metas neue AI-Cluster nutzen jeweils 24.576 Nvidia H100

13.3.2024 10:43 Uhr

Bild: Nvidia

Um bei AI führend zu sein, will Meta auch bei der Hardware führend sein: Allein 350.000 Nvidia H100 im Portfolio sind bis Ende 2024 das Ziel. Die gesamte Rechenleistung für AI-Zwecke werde sogar 600.000 dieser Beschleuniger entsprechen, erklärte Zuckerberg im Januar. Zu zwei H100-Clustern hat Meta jetzt Details genannt.

Zwei neue AI-Cluster mit 49.152 Nvidia H100

Zwei Mal 24.576 Nvidia H100 kommen in den zwei neuen „AI Clustern“ zum Einsatz, die für die Entwicklung zukünftiger AI-Modelle wie Llama 3 zum Einsatz kommen. Das große, langfristige Ziel ist allerdings auch bei Meta, eine Künstliche allgemeine Intelligenz (AGI) zu entwickeln, die jede intellektuelle Aufgabe verstehen oder erlernen kann.

Schaubild eines 24.000-GPU-Clusters für Metas AI-Training (Bild: Meta)

Beide Cluster setzen zwar auf die gleichen GPUs, unterscheiden sich aber deutlich voneinander. Cluster 1 setzt auf Remote Direct Memory Access (RDMA) over Converged Ethernet (RoCE) basierend auf den Komponenten Arista 7800, Wedge400 und Minipack2 OCP, das andere auf Nvidias Lösung Quantum-2 InfiniBand. Beide Cluster kommunizieren über 400 Gbps schnelle Schnittstellen.

Große Cluster mit Optimierungsbedarf

Dass derart große Cluster trotz fortschrittlichster Technologien nicht direkt nach der Installation die gewünschte Leistung bereitstellen, auch darüber spricht Meta. Die Auslastung hätte je nach Last zum Start im besten Fall nur bei über 90 Prozent gelegen, oftmals lag sie weit darunter – im schlechtesten Fall bei nur knapp über 10 Prozent. Durch Optimierungen am Scheduler, der die Aufgaben verteilt, und an dem Netzwerk-Routing würden die Cluster inzwischen aber bei 90 bis 100 Prozent Auslastung gefahren werden können, so wie das bei kleineren Clustern direkt zum Start der Fall sei.

Je größer das Cluster, desto mehr Optimierung ist notwendig (Bild: Meta)