News Cerebras CS-3 mit WSE-3: AI-Beschleuniger in Wafergröße hat 4 Billionen Transistoren

boonstyle schrieb:
Würde mich interessieren wie hoch der Yield bei den Monstern ist wenn ein einzelner Defekt den ganzen Wafer zu Müll macht.
Das Zauberwort ist hier Redundanz. Man kann getrost davon ausgehen, das kritische Pfade oder ganze Kerne bei so einer riesigen CPU mehrfach ausgelegt sind. So ist ein Defekt nicht direkt der tod des ganzen wafer.
 
  • Gefällt mir
Reaktionen: Beitrag, Newbie_9000, simosh und 6 andere
Tzk schrieb:
Man kann getrost davon ausgehen, das kritische Pfade oder ganze Kerne bei so einer riesigen CPU mehrfach ausgelegt sind.
Sind die nicht wie ein Netzwerk aufgebaut? Wenn dann fällt da erstmal eine "node" aus.
 
  • Gefällt mir
Reaktionen: Newbie_9000
Ich meinte jetzt eher innerhalb eines Nodes, wenn z.B. ein Rechenwerk defekt ist. Aber ja, wenn ein kompletter Node Defekt ist, dann wird der wohl aus dem Verbund gelöst.
 
But will it run Crisis? :heul:
 
  • Gefällt mir
Reaktionen: Kantonspital, simosh, Viper816 und eine weitere Person
boonstyle schrieb:
Würde mich interessieren wie hoch der Yield bei den Monstern ist
HoseeJonatan schrieb:
Nette Idee, aber Unsinn, weil dann da der Ausschuss unbezahlbar ist. Wenn man den ganzen Wafer wegwerfen muss statt nur einem 1/50.
ghecko schrieb:
Annähernd 0. Denn wir haben noch keinen High-End Prozess mit 100% Yieldrate.

Alle falsch. Cerebras hat nahezu 100% yields, weil nämlich eine Sache nicht stimmt:

boonstyle schrieb:
wenn ein einzelner Defekt den ganzen Wafer zu Müll macht.
Genau wie ein Defekt auf dem Chip einen AD102 noch lange nicht Müll macht sondern vielleicht statt einer L40 die defekten Teile deaktiviert werden und die GPU als eine RTX 4090 verkauft wird, hat auch Cerebras Redundanzen eingebaut um bei den unausweichlichen Defekten den Chip trotzdem nutzen zu können und nur im Extremfall mal einen Wafer wegschmeißen zu müssen.

Siehe auch das verlinkte Video in Beitrag #12, das Thema Yields wird fast ganz am Anfang angesprochen.
 
  • Gefällt mir
Reaktionen: Beitrag, bad_sign, Newbie_9000 und 6 andere
Kann mir einer sagen wie das Teil verbaut und gekühlt wird? Da passt ja kein mugen drauf und in ein Ölbad sicher auch nicht?
 
  • Gefällt mir
Reaktionen: Viper816
boonstyle schrieb:
Würde mich interessieren wie hoch der Yield bei den Monstern ist wenn ein einzelner Defekt den ganzen Wafer zu Müll macht.
Oh Yield ist 100%. Siehst du auf dem Bild die Quadrate auf dem Wafer?
Die kann man deaktivieren, falls die kaputtgehen. So rettet man den restlichen Wafer.
Wieviele Wafer es ohne Fehler gibt ist schlecht abzuschätzen.
Aber die meisten werden werden definitiv abgeschaltete Bereiche beinhalten.
BTW Wafer sind eigentlich rund soweit ich weiß. Wenn das Ding quadratisch ist, dann ist schon was abgeschnitten...

Zudem ist deren Angabe von Transistoren einer GPU falsch.
Eine 4090 hat schon 76 Milliarden mit 609mm² und die geben eine GPU mit 826mm² an.
Die 7900XTX hat 45,4 Milliarden bei nur 304,5mm² was noch mehr ist.
(Wird auch im Text erwähnt)
Und die nächste Gen soll da nochmal 30-70% mehr haben... (bezogen auf die 4090). Die große Spanne hängt von der genauen Fertigungmethode und Details auf dem Chip ab.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Newbie_9000, simosh und Kitsune-Senpai
Kann das Jemand mal nVidia zeigen?

1710357594908.png

clarkathome schrieb:
Kann mir einer sagen wie das Teil verbaut und gekühlt wird?
Haben sie wies ausschaut ihre eigene Lösung, kauft mal also als Fertig Server der nur am Strom und Netzwerk angeschlossen wird.
 
  • Gefällt mir
Reaktionen: Beitrag
Und jetzt die Frage aller Fragen. Ist das Ding normiert auf die gleiche Chipfläche schneller als Nvidia?

Also ist das Teil hier besser als entsprechend viele Nvidia AI Beschleuniger?
 
  • Gefällt mir
Reaktionen: Kantonspital
theGucky schrieb:
Zudem ist deren Angabe von Transistoren einer GPU falsch.
Eine 4090 hat schon 76 Milliarden mit 609mm² und die geben eine GPU mit 826mm² an.
Die scheinen irgendwie nvidia GA100 und GH100 durcheinenander geschmissen zu haben
https://www.computerbase.de/2022-05/nvidia-hoppher-gh100-whitepaper/

GH100: 814mm², 80B Transistoren
GA100: 826mm², 55B Transistoren

Zu den 76B der 4090: Bloß weil der GH100 eine deutlich geringere Transistordichte hat heißt nicht, dass die Zahlen falsch sind. Es kommt ganz stark darauf an, was nvidia mit den Transistoren macht.


HoseeJonatan schrieb:
Japp genau, und für dich gilt auch keinerlei Physik...
Dein Textverständnis ist mangelhaft.

Yield ist, ob man den Chip verwenden kann, nicht ob der frei von Defekten ist.

Natürlich haben die Defekte. Aber die haben das eingeplant und können den Chip daher trotzdem einsetzen.
 
  • Gefällt mir
Reaktionen: Beitrag, Newbie_9000, CarterIII und 7 andere
Zum Yield, Ian Cutrres hat was auf seinem Youtubechannel zu dem Ding. Die Wafer haben wohl 1,x% Redundanz und kommen damit wohl auf brauchbare Yields.
Edit: 1.5% Redundanz


Haldi schrieb:
Kann das Jemand mal nVidia zeigen?
Wieso sollte Nvidia es kümmern. Preise erhöhen, bis es die Kunden es gerade noch bezahlen wollen/können ist das Ziel gewinnorientierter Unternehmen. Nvidia hat in dem Bereich brauchbare Produkte und vor allem das Softwareökosystem.

Mimir schrieb:
Und jetzt die Frage aller Fragen. Ist das Ding normiert auf die gleiche Chipfläche schneller als Nvidia?
Tendenziell sind ASICs die rein auf Matrixoperationen optimiert sind und im Zweifelsfall auf spezielle Datentypen (FP64 und FP32 kann man sich ja z.B. bei dem AI-Zeug sparen) immer Flächen- und Energieffizienter als relativ flexible GPU- oder gar CPU-Architekturen.

Es ist halt immer ne Balance, ob die optimierten ASICs die sich gerade entwickelten Algorithmen auch wirklich gut treffen und ob man als Firma ITler beschäftigen kann, die produktiv Software für die ASICs schreiben können.
 
  • Gefällt mir
Reaktionen: Beitrag, Mimir und Kitsune-Senpai
Das Ding hat 100% yield, außer der wafer wäre komplett verhunzt was nie bis extrem selten passiert. Was hier außerdem nie bis selten passiert ist das der gesamte wafer ohne Defekte ist, somit sind Defekte einzelner Segmente fest eingeplant um eben 100% yield zu haben, alles andere wäre nicht wirtschaftlich da ja sonst der komplette wafer weggeschmissen werden muss da es ein „Mega Chip“ ist. Und ja es ist eckig da logischerweise bei einem wafer (der rund ist) in Ecken geschnitten wird, wären aber sowieso teildefekte oder volldefekte Einheiten gewesen.

Das ganze ist hochinteressant und in bestimmten Berechnungen sicherlich mindestens ebenbürtig zu Nvidia/AMD und anderen.
 
  • Gefällt mir
Reaktionen: Viper816 und Rickmer
edenjung schrieb:
Sowas könnte man sich auch schön an die Wand hängen.
20240313_211455.jpg

Zwar nur ein Ringkernspeicher, aber der hängt trotzdem bei mir an ner Wand.
Hat mir ein Kunde geschenkt, der ihn aus nem Großrechner vom Frankfurter Flughafen hatte.
 
  • Gefällt mir
Reaktionen: polloze, Dgini, ofenheiz und 12 andere
Rickmer schrieb:
Zu den 76B der 4090: Bloß weil der GH100 eine deutlich geringere Transistordichte hat heißt nicht, dass die Zahlen falsch sind. Es kommt ganz stark darauf an, was nvidia mit den Transistoren macht.
OK falsch war der falsche Ausdruck.

Der große "Wafer" hat sowieso weniger Transistoren als die selbe Fläche an GH100 (bzw die GPU im Vergleich.
Auf dem Bild steht ja 46225mm² und 4 Billion Transistoren.
46225/826 sind 55,92 GPUs auf derselben Fläche. Und 55,92 GPUs mal 80 Milliarden sind halt 4,47 Billionen. :D
Also ist dieser Vergleich sowieso für die Tonne, wenn sie sagen wollen, das ihrer mehr hat...


Wenn ich alleine schon auf Bild 7 sehe wie die Kühlung aussieht...oh boy oh boy...
23kW für eine Einheit, da muss schon ordentlich was ran... noch wird mit Wasser gekühlt... da frage ich mich auch, ob die IN-Chip Wasserkühlung haben.


Nunja am Ende muss jeder dieser Firmen sehen, das er das beste Produkt für sich bekommt.
Keiner mag ja Nvidia und sie kaufen nur notgedrungen ihre Produkte, weils kaum Alternativen gibt.
 
theGucky schrieb:
23kW für eine Einheit, da muss schon ordentlich was ran... noch wird mit Wasser gekühlt... da frage ich mich auch, ob die IN-Chip Wasserkühlung haben.
Im Vergleich zu nvidia H100 ist das immernoch eine geringere Energiedichte :p

Auf einen Wafer passen ca. 64* Dies. Bei SXM Ausführung auf 700W konfiguriert ist das 64*700W = 45kW...


*Exakte Dimensionen konnte ich nicht finden, aber 814mm² sind ca. 35*23,25mm und das passt auch ganz grob zu den Bildern. Kommt ja jetzt auf einen Die mehr oder weniger nicht drauf an.

1710363523379.png
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: stefan92x
edenjung schrieb:
Sowas könnte man sich auch schön an die Wand hängen.
Natürlich nur einen defekten, aber ich finde das würde eingerahmt wirklich schick aussehen.
Ja...das sah mein 200mm Wafer aus der Ausbildung auch. Bis zum Umzug. Dort ist er runtergefallen und förmlich in Billionen Splitter explodiert. Wahnsinn. Hab noch Ewigkeiten später den Siliziumstaub und Krümel gefunden 😅
 
  • Gefällt mir
Reaktionen: Kadett_Pirx
Zurück
Oben