Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsMLPerf Training Benchmarks: Cloud-Anbieter übernehmen mit bis zu 8.192 GPUs
Hunderte AMD Instinct, aber sogar tausende Nvidia-GPUs: Die Skalierung übernimmt bei den MLPerf-Training-Benchmarks samt neuen Testreihen. Die dominante Figur bleibt natürlich Nvidia, 19 Firmen nutzen Nvidia-Lösungen für eigene Testwerte. Aber auch AMD mausert sich deutlich.
@7H0M45 Der Benchmark misst letztlich, wie lange es dauert, einen vorgegebenen Datensatz zu verarbeiten. Aber reales Training findet natürlich mit viel größeren Datensätzen statt. Vielleicht ein guter Vergleich: Das hier ist, als ob man benchmarken würde, wie lange es dauert, ein einzelnes Bild für einen Animationsfilm zu rendern. Den ganzen Film rendern entspricht dem kompletten Training des Modells, das Benchmarkergebnis erlaubt dir vorherzusagen, wie lange das dauern wird.
Mit stetiger Verdoppelung von 2.048 auf 4.096 auf 8.192 GPUs, verringerte sich die Trainingszeit von 5:54 auf 3:09 auf 2:02 Minuten und demonstrierte dabei, dass CoreWeaves Optimierungen durch den ganzen Aufbau mit nahezu perfekter Skalierung extrem gut umgesetzt sind.
Das ist ne bescheidene Skalierung. Skalierung rechnet man ausgehend von 1! Und selbst von 2048 sind das nur noch 72% bei 4096. Aus wissenschaftlichen Systemen sagt man eigentlich alles unter <80% lohnt nicht mehr und wird nicht gemacht.
Auf kommerziellen geht man teils bis aug 60% runter aber das ist für mich schon Richtung Brechstange.
Von nahezu perfekter Skalierung sind wir da weit weit weg. Wer das für Werte <90% sagt kann ich leider nicht ernst nehmen.
Bitte weniger Marketingbullshit von den Herstellern nachplappern.