DevPandi schrieb:
Das Thema ist an der Stelle allerdings komplizierter und
@0xffffffff drückt das an der Stelle schon sehr gut aus. Gerade die Entwicklung "reiner" TPUs - Tensor-Processing-Unit - ist für Nvidia - und bedingt AMD - durchaus gefährlich.
Es ist da auch viel FUD das von Nvidia und ihren Marketing Outlets gestreut wird. Das vom Vorsprung mit mehreren Generationen ist reines Marketing Geblubber.
Das mit dem FUD hat die Konkurrenz auch erkannt. In letzter Zeit reden viele von XPU anstatt ASIC. Speziell bei Broadcom, die ja in vielen Projekten mitmischen. Der Punkt ist aber wie weit der Software Stack für die XPU ist und wie gut optimiert das ganze ist. Das sieht bei Nvidia und Google natürlich besser aus als den Konkurrenten.
Das große Problem bei der ganzen Geschichte ist, dass die Algorithmen zwar sehr gut skalieren, allerdings die Hardware sehr schlecht auslasten. D. h. große Teile der verfügbaren Rechenleistung bleiben ungenutzt.
Da alles nach maximaler Performance giert, haben alle Ansätze, die auf Effizienz Wert legen und nicht maximale Performance anstreben, momentan schlechte Karten.
Es ist allerdings offensichtlich, dass der Ausbau der Energieinfrastruktur nicht mithalten kann. Und es ist absehbar, dass früher oder später die Energieeffizienz sehr viel wichtiger als die maximale Performance wird. Denn dann ist alles was zählt wie viel nutzbare AI Performance je Watt raus kommt.
DevPandi schrieb:
Und gerade Alphabet, als eines der Vorreiterunternehmen auf diesem Gebiet legt quasi jede ihre Frameworks Hardwareagnostisch aus, so dass man quasi alles verwenden kann. Bei PyTorch und Co sieht man weitgehend ähnliche Bemühungen und AMD sowie Intel (bis jetzt) sägen mit großer Freude an CUDA und geben sich alle Mühe, dass man CUDA "bricht" und im AI-Bereich machen sie da auch große Fortschritte.
Das betrifft AFAIU alle AI Frameworks.
AFAIU ist es der Vorteil von Nvidia, dass Nvidia die theoretische Rechenleistung besser als die anderen nutzt. Hier bekommt speziell AMD momentan zu wenig PS auf die Straße. Das ist auch ein Grund warum AMD die AI Beschleuniger erheblich billiger als Nvidia anbieten muss. Obwohl AMD von den theoretischen Werten her
DevPandi schrieb:
Nvidia ist uneingeschränkt Marktführer, doch diese Position macht Nvidia an sehr vielen Stellen auch angreifbar und gerade "Investoren" sehen es nicht gerne, wenn der Marktführer droht die Marktführerschaft zu verlieren.
Nvidia ist kein uneingeschränkter Marktführer. Das ist das Marketing Geblubber das Nvidia und seine Marketing Outlets verbreiten. Man ignoriert halt alles was nicht auf GPUs läuft. Man ignoriert u. A. alles was Amazon und Google mit der eigenen Hardware machen.
Auf der anderen Seite kann auch weiter Nvidia wachsen, obwohl der Marktanteil schrumpft. Allerding sind gewaltige Steigerungen eingepreist, und da werden manche nervös wenn vom geringeren Zuwachs die Rede ist.
Man muss die kurzfristigen Ausschläge an der Börse ignorieren.
DevPandi schrieb:
Auf die Rechenleistung einer Karte bezogen, hat Nvidia aktuell zwar einen Vorsprung, jedoch ist AMD da gar nicht soweit weg. Das Problem da ist zum Teil auch, was AMD und Nvidia gerne als TOPS ausgeben, was in der Regel massiv geschönte Werte sind, die quasi nur zu treffen, wenn man eine ultra dünn besetzte Matrix hat.
Von der theoretischen Rechenleistung ist AMD gleichauf, aber AMD bekommt wie gesagt die theoretische Rechenleistung nicht auf die Straße.
Weshalb Nvidia dann doch einen Vorsprung hat. Den AMD durch einen niedrigen Preis kompensieren muss.
DevPandi schrieb:
Was Nvidia noch hat, ist die "Rackscale"-Lösung als Vorsprung zu AMD, in wie weit Google hier mit Rackscale agiert, keine Ahnung.
Bei "Rackscale" sollte man hier erklären, was das bedeutet. Der kritische Punkt ist, dass Nvidia alle GPUs eines Racks zusammen schalten kann so dass alle GPUs des Racks den gesamten im Rack verbauten Speicher gemeinsam nutzen können. Das ist AFAIU das was als Scale Up bezeichnet wird.
Das kann momentan AMD nicht liefern, erst mit der MI450 und Helios.
Google hat 9216 TPUs in einem Pod verschaltet.