News Zu viel fehlerhafter HBM: Nvidia nimmt nur noch getestete Chips von Zulieferern ab

Und dann die schuld immer beim Kunden suchen.
Leider vergessen die Käufer zu schnell bzw. beachten es nichtmal...
 
  • Gefällt mir
Reaktionen: SweetOhm
Vielleicht war der vorheriege Prozess so gut, dass nur 1 von 10000 Fehler aufzeigte und daher der zusätzliche Check mehr Geld gekostet hätte als ohne. Aber wenn man jetzt wiederum darauf besteht das getestet wird, dann muss die Qualität doch in einem Punkt messbar gesunken sein.
 
  • Gefällt mir
Reaktionen: Tzk
@Cabranium das Problem ist halt dass man einen einzigen solcher tester mit 10-30 HPC beschleunigern bezahlt hat. Die Kosten nicht die welt und selbst wenn man wegen dem Durchsatz 50 Stück kaufen muss kann man hier nicht wirklich mit den Kosten argumentieren.

Vergesst nicht die Produkte die damit gebaut werden landen für 50000€ im Laden :D
 
  • Gefällt mir
Reaktionen: SweetOhm und Sebbi
PS828 schrieb:
@Cabranium das Problem ist halt dass man einen einzigen solcher tester mit 10-30 HPC beschleunigern bezahlt hat.
Der Witz ist halt der, dass mit der vorher üblichen Fehlerquote vielleicht nur 10 kaputt gewesen wären, so dass sich das eben nicht lohnt.
 
  • Gefällt mir
Reaktionen: Quidproquo77
Wenn diese Stückzahlen wirklich so niedrig sind, dann würde es wirklich nur bedingt sinn machen, aber es liesst sich für mich anders. Echte Zahlen werden wir dazu vermutlich nicht bekommen.
 
@stefan92x du möchtest nicht den Energie und Materialaufwand haben Tausende Prozessschritte mit bereits kaputten teilen zu fahren. Das ist dann wirklich teuer. Die Fehlerquote ist auch nicht so niedrig wie hier angegeben. Die yields die bekannt sind liegen bei Ausschussraten von minimal 10, jedoch eher in der Region 30% wenn man ehrlich zu sich selbst ist ;)

Soll heißen jeder wafer hat einige dies die nicht funktionieren. Viele sogar. Und die willst du raus haben bevor das 15€ Bauteil ein 50000€ Produkt zerstört. Weil nichts anderes passiert hier. Wenn das bonding und die Kontaktierung auf den interposer gemacht wurde ist das unumkehrbar und wenn da ein stack nicht geht kann man den ganzen Chip wegwerfen.

Ich kann dir nicht sagen warum das bisher in Kauf genommen wurde aber die Realität ist so dass es einen signifikanten Einfluss auf die Teile hat und es irgendwann sich auch einfach in den Büchern Niederschlägt wenn dann Tag um Tag der Output verfehlt wird weil man X% fertige GPUs wegwerfen musste wegen dem selben Unfug.
 
  • Gefällt mir
Reaktionen: SweetOhm
Cabranium schrieb:
Vielleicht war der vorheriege Prozess so gut, dass nur 1 von 10000 Fehler aufzeigte und daher der zusätzliche Check mehr Geld gekostet hätte als ohne.

wyane ?
die Tests sind so oder so durchzuführen, egal wie gut die Ausbeute ist /war - alles andere ist ein gestreckter Mittelfinger in das Gesicht des Anwenders / Kunden.
Und das alles nur damit die Marge maximiert werden kann, so das die Bonis der Manager + Dividende der Aktionäre durch Reingewinnsteigerungen sich erhöhen. Wegen nichts anderem wurden diese Tests eingespart, weil die Lederjacke und Konsorten nur an sich gedacht haben und dadurch den EK Preis so niedrig wie nur irgend möglich halten wollten. Nun kaufen die zu einen wohl dann höheren Preis nur noch geprüfte Speicher ein, weil die Kosten für Problembeseitigung wohl wesentlich höher waren in zu kurzer Zeit als das was man mit den Billigstpreisen eingespart hat.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: SweetOhm
@Sebbi , ich meinte nicht, dass die Produkte Komplett ungetestet raus geschickt wurden. Sonder die relevanz vielleicht so niedrig war, dass der Abschlusstest oder einer davor ausreichend war um das Defekte Teil raus zu filtern, weil es so wenige waren.

Ein Defektes Teil sollte natürlich nie beim Endkunden landen.
 
Das Problem betrifft dann aber auch AMD Instinct. Diese Beschleuniger können schließlich für die gleichen Aufgaben eingesetzt werden...

Soll heißen: die übertriebene Nvidia-Affinität in der IT-Branche ist schon etwas albern. Da sieht man, dass "Fanboytum" selbst bei Experten und Profis ein Thema ist. Und das kann nicht gut für den GPU-Markt sein.
 
  • Gefällt mir
Reaktionen: SweetOhm und PS828
DaDare schrieb:
Lieferant liefert das, was vertraglich bestellt worden ist. Möchte man eine 100 % Prüfung der Chips haben, darf man die 100 % Prüfung der Chips bezahlen.
ganz so einfach ist das nicht.

In der Regel werden "Schlechtraten" vertraglich geregelt. Da drüfen dann X Teile pro 1 Mio Einheiten kaputt sein. Hält der Lieferant das nicht zahlt er gerne die 100 % Kontrolle aus eigener Tasche.
Sowas ist eigentlich das kleine 1x1 für solche Lieferketten.

Gibt natürlich dann auch Lieferanten auf die man nicht verzichten kann und die dann solche Verträge niemals unterschreiben....

Edit: Man kann es auch anders sehen: Man hat ja funktionierende Ware bestellt und schlechte Ware erzeugt kosten die man vom Lieferanten einsacken kann. Wie die funktionierende Ware sichergestellt wird ist dann wiederrum Problem des Herstellers.
 
  • Gefällt mir
Reaktionen: Quidproquo77
Mich erinnert das an einer Siemens Industrie 4.0 Schulung. Bei ein Beispiel war eine eine Produktionsstraße für das Herstellen von Platinen, wo am ende ein Röntgengerät steht um zuüberprüfen ob diese in Ordnung ist. Um dies effizenter zu machen sollte alle Daten der gesamten Entwicklungsstraße aufgezeichnet werden und dies per KI ausgewertet werden. Und am ende bekommt man ein Alghoritmus den man in die Produktionsstraße einfügt um dann nicht mehr alle Platinen zu röntgen, das spart Zeit und Geld. Weil man dann eine Statistik/Algoritmus hat welche Platine defekt sein könnte und welche in Ordnung ist.

Aber an ein Punkt muss ich Nvidia recht geben, wenn ich Chips von zulieferer Kaufe sollten diese auch die versprochene Qualität haben und als Kunde kann man das dann auch erwarten. Nicht anderes erwarten wir als Kunden von Nvidia ja auch das die GPUs eine gewisse Qualität haben.

Bin gespannt ob sich für uns Kunden etwas ändern. Eventuell wieder ein Grund die Preise anzuziehen, weil die Zusätzlichen Überprüfung sich die Hersteller bezahlen lassen. 😅 Welche dennoch nicht bei jeden Chip geprüft werden.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: SweetOhm
Bin mal gespannt wann die ersten kurzfristigen verschleisserscheinungen / Feheler bei gddr7 :baby_alt: auftreten.

Laufen ja typischerweiser regelmässig bei 96° celsius auf der 5090fe.
Und wir haben noch nicht mal Hochsommer xD. 🔥
 
raychan schrieb:
Und am ende bekommt man ein Alghoritmus den man in die Produktionsstraße einfügt um dann nicht mehr alle Platinen zu röntgen, das spart Zeit und Geld. Weil man dann eine Statistik/Algoritmus hat welche Platine defekt sein könnte und welche in Ordnung ist.

😣 😨🤦‍♂️🤦‍♀️
 
Ist Teradyne nicht Jim Keller's Unternehmen??
 
PS828 schrieb:
Da stellen sich mir die Nackenhaare auf wenn ich daran denke wie es eine gute Idee sein kann bei einem Produkt der Margenklasse Gelddruckmaschine auf eine 100% Eingangskontrolle der chips zu verzichten

Ja um Gottes Willen Nvidia..
Wundert mich bei all dem Trubel um Stecker und missing ROPs irgendwie gar nicht. So ein kleiner Tante-Emma Laden kann das ja auch unmöglich stemmen finanziell. 🤣 :daumen:
 
  • Gefällt mir
Reaktionen: SweetOhm und PS828
PS828 schrieb:
Die Kosten nicht die welt und selbst wenn man wegen dem Durchsatz 50 Stück kaufen muss kann man hier nicht wirklich mit den Kosten argumentieren.
Reines Rechenexempel bezüglich der Kosten und in der Industrie absolut üblich, aber manche meinen halt alles besser zu wissen, vor allem dann wenn es um Nvidia geht. Dann kommen immer irgendwelche Stories aus dem Paulanergarten, ohne überhaupt zu wissen worum es geht.
PS828 schrieb:
Die yields die bekannt sind liegen bei Ausschussraten von minimal 10, jedoch eher in der Region 30% wenn man ehrlich zu sich selbst ist ;)
Die Fehlerrate des HBM die Nvidia in den Rechenzentren ermittelte lag bei 1,6%.
10 bzw. 30%, die Quelle würde mich mal interessieren. Yield Rates beim Hersteller selbst vielleicht, aber nicht im Zusammenhang mit an Nvidia gesendetem HBM...
PS828 schrieb:
Da stellen sich mir die Nackenhaare auf...
Ja, aber wirklich, ein müder Bash ohne jeden Fakt, verbunden mit Ahnungslosigkeit.
Wenn du denkst die kontrollieren keine HBM Chips nach, wenn 10-30% defekt gesendet werden, dann arbeitest du definitiv nicht in der Branche.
stefan92x schrieb:
Der Witz ist halt der, dass mit der vorher üblichen Fehlerquote vielleicht nur 10 kaputt gewesen wären, so dass sich das eben nicht lohnt.
Da waren früher eben 0,1 oder 0,2% der Karten bzw. Cluster "kaputt" und jetzt sinds halt schon 1-2%.
Eine Umstellung ist irgendwo zwischen Promille und Prozentbereich notwendig, wenn der zugeschickte HBM nicht sauber kontrolliert wurde. Total banal.

Die gleiche Diskussion ists auch mit dem Steckerthema. "Shrinke" ich die Stromanschlüsse auf einen Stecker, anstatt 4 8Pin zu verbauen und nehme dafür 1 Schmor-Fall von 100 000 GPUs zusätzlich in Kauf, spare beim PCB und Anschlüssen und mache die Karten günstiger.
 
Zuletzt bearbeitet:
Ungetestete Chips zu verbauen ist in vielen Bereichen der Industrie durchaus normal. Denn bei Ware von der Stange und nicht absoluten High-End-Lösungen treten sehr selten Fehler auf, alles vorher zu testen würde den Aufwand deutlich vergrößern und natürlich Kosten verursachen. Bei hochgezüchteten Produkten ist dies jedoch etwas anders. Wenn ein kleines Bauteil defekt ist, kann dies die ganze Ausbeute am Ende gewaltig schmälern.
Im Automotive-Bereich ist es absolut üblich, komplexe Halbleiter wie ASICs, µCs, Spannungswandler, Transceiver etc. vom Hersteller ausführlich testen zu lassen (über den ATE-Tester). Dort kann man sich schon aus Sicherheitsgründen (das Ziel ist immer eine FIT-Rate von 0, die Realität ist eher im Bereich 0,1 bis 0,2 angesiedelt, also 0,1 bis 0,2 Ausfälle pro 1 Mio. Stückzahl) nichts anderes leisten. Dementsprechend sind die Halbleiter dort aber auch nicht auf "Aldi-Niveau", was die Kosten angeht.
 
  • Gefällt mir
Reaktionen: Quidproquo77
Weyoun schrieb:
Im Automotive-Bereich ist es absolut üblich, komplexe Halbleiter wie ASICs, µCs, Spannungswandler, Transceiver etc. vom Hersteller ausführlich testen zu lassen (über den ATE-Tester)
Ich hab mal den entscheidenden Teil markiert. Ausgangskontrollen macht jeder, Eingangskontrollen (und um die geht es hier ja) macht man nur, wenn man den Ausgangskontrollen des Herstellers nicht vertraut, oder wenn man selber die Fehlerrate noch unter das vom Hersteller gelieferte und zugesagte Maß bringen will. Oder wenn mit einer nicht vernachlässigbaren Rate an Transportschäden zu rechnen ist, aber ich vermute stark, dass das hier eher keine Rolle spielt.
 
  • Gefällt mir
Reaktionen: Quidproquo77
Quidproquo77 schrieb:
Die gleiche Diskussion ists auch mit dem Steckerthema. "Shrinke" ich die Stromanschlüsse auf einen Stecker, anstatt 4 8Pin zu verbauen und nehme dafür 1 Schmor-Fall von 100 000 GPUs zusätzlich in Kauf, spare beim PCB und Anschlüssen und mache die Karten günstiger.
Ich glaube das ist missverständlich. "Günstiger" eher nicht. Profitabler wäre wohl das richtige Wort. 😂
 
  • Gefällt mir
Reaktionen: SweetOhm
Zurück
Oben