News MLPerf Training Benchmarks: Cloud-Anbieter übernehmen mit bis zu 8.192 GPUs

Volker

Ost 1
Teammitglied
Registriert
Juni 2001
Beiträge
20.224
  • Gefällt mir
Reaktionen: schneeland, the_IT_Guy, nERdWIN und eine weitere Person
Mal blöd gefragt, wenn so ein Training 5 Minuten dauert, was genau ist dann das Zeitaufwändige bei der Entwicklung von einem neuen Modell?
 
@7H0M45 Der Benchmark misst letztlich, wie lange es dauert, einen vorgegebenen Datensatz zu verarbeiten. Aber reales Training findet natürlich mit viel größeren Datensätzen statt. Vielleicht ein guter Vergleich: Das hier ist, als ob man benchmarken würde, wie lange es dauert, ein einzelnes Bild für einen Animationsfilm zu rendern. Den ganzen Film rendern entspricht dem kompletten Training des Modells, das Benchmarkergebnis erlaubt dir vorherzusagen, wie lange das dauern wird.
 
  • Gefällt mir
Reaktionen: s!r.einSTein, schneeland, the_IT_Guy und eine weitere Person
Häääääää
Mit stetiger Verdoppelung von 2.048 auf 4.096 auf 8.192 GPUs, verringerte sich die Trainingszeit von 5:54 auf 3:09 auf 2:02 Minuten und demonstrierte dabei, dass CoreWeaves Optimierungen durch den ganzen Aufbau mit nahezu perfekter Skalierung extrem gut umgesetzt sind.

Das ist ne bescheidene Skalierung. Skalierung rechnet man ausgehend von 1! Und selbst von 2048 sind das nur noch 72% bei 4096. Aus wissenschaftlichen Systemen sagt man eigentlich alles unter <80% lohnt nicht mehr und wird nicht gemacht.

Auf kommerziellen geht man teils bis aug 60% runter aber das ist für mich schon Richtung Brechstange.

Von nahezu perfekter Skalierung sind wir da weit weit weg. Wer das für Werte <90% sagt kann ich leider nicht ernst nehmen.

Bitte weniger Marketingbullshit von den Herstellern nachplappern.

Sorry aber muss leider gesagt sein.
 
  • Gefällt mir
Reaktionen: stefan92x
Zurück
Oben