Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
News Zu viel fehlerhafter HBM: Nvidia nimmt nur noch getestete Chips von Zulieferern ab
Vielleicht war der vorheriege Prozess so gut, dass nur 1 von 10000 Fehler aufzeigte und daher der zusätzliche Check mehr Geld gekostet hätte als ohne. Aber wenn man jetzt wiederum darauf besteht das getestet wird, dann muss die Qualität doch in einem Punkt messbar gesunken sein.
@Cabranium das Problem ist halt dass man einen einzigen solcher tester mit 10-30 HPC beschleunigern bezahlt hat. Die Kosten nicht die welt und selbst wenn man wegen dem Durchsatz 50 Stück kaufen muss kann man hier nicht wirklich mit den Kosten argumentieren.
Vergesst nicht die Produkte die damit gebaut werden landen für 50000€ im Laden
Vergesst nicht die Produkte die damit gebaut werden landen für 50000€ im Laden
Der Witz ist halt der, dass mit der vorher üblichen Fehlerquote vielleicht nur 10 kaputt gewesen wären, so dass sich das eben nicht lohnt.PS828 schrieb:@Cabranium das Problem ist halt dass man einen einzigen solcher tester mit 10-30 HPC beschleunigern bezahlt hat.
@stefan92x du möchtest nicht den Energie und Materialaufwand haben Tausende Prozessschritte mit bereits kaputten teilen zu fahren. Das ist dann wirklich teuer. Die Fehlerquote ist auch nicht so niedrig wie hier angegeben. Die yields die bekannt sind liegen bei Ausschussraten von minimal 10, jedoch eher in der Region 30% wenn man ehrlich zu sich selbst ist
Soll heißen jeder wafer hat einige dies die nicht funktionieren. Viele sogar. Und die willst du raus haben bevor das 15€ Bauteil ein 50000€ Produkt zerstört. Weil nichts anderes passiert hier. Wenn das bonding und die Kontaktierung auf den interposer gemacht wurde ist das unumkehrbar und wenn da ein stack nicht geht kann man den ganzen Chip wegwerfen.
Ich kann dir nicht sagen warum das bisher in Kauf genommen wurde aber die Realität ist so dass es einen signifikanten Einfluss auf die Teile hat und es irgendwann sich auch einfach in den Büchern Niederschlägt wenn dann Tag um Tag der Output verfehlt wird weil man X% fertige GPUs wegwerfen musste wegen dem selben Unfug.
Soll heißen jeder wafer hat einige dies die nicht funktionieren. Viele sogar. Und die willst du raus haben bevor das 15€ Bauteil ein 50000€ Produkt zerstört. Weil nichts anderes passiert hier. Wenn das bonding und die Kontaktierung auf den interposer gemacht wurde ist das unumkehrbar und wenn da ein stack nicht geht kann man den ganzen Chip wegwerfen.
Ich kann dir nicht sagen warum das bisher in Kauf genommen wurde aber die Realität ist so dass es einen signifikanten Einfluss auf die Teile hat und es irgendwann sich auch einfach in den Büchern Niederschlägt wenn dann Tag um Tag der Output verfehlt wird weil man X% fertige GPUs wegwerfen musste wegen dem selben Unfug.
Cabranium schrieb:Vielleicht war der vorheriege Prozess so gut, dass nur 1 von 10000 Fehler aufzeigte und daher der zusätzliche Check mehr Geld gekostet hätte als ohne.
wyane ?
die Tests sind so oder so durchzuführen, egal wie gut die Ausbeute ist /war - alles andere ist ein gestreckter Mittelfinger in das Gesicht des Anwenders / Kunden.
Und das alles nur damit die Marge maximiert werden kann, so das die Bonis der Manager + Dividende der Aktionäre durch Reingewinnsteigerungen sich erhöhen. Wegen nichts anderem wurden diese Tests eingespart, weil die Lederjacke und Konsorten nur an sich gedacht haben und dadurch den EK Preis so niedrig wie nur irgend möglich halten wollten. Nun kaufen die zu einen wohl dann höheren Preis nur noch geprüfte Speicher ein, weil die Kosten für Problembeseitigung wohl wesentlich höher waren in zu kurzer Zeit als das was man mit den Billigstpreisen eingespart hat.
Zuletzt bearbeitet:
@Sebbi , ich meinte nicht, dass die Produkte Komplett ungetestet raus geschickt wurden. Sonder die relevanz vielleicht so niedrig war, dass der Abschlusstest oder einer davor ausreichend war um das Defekte Teil raus zu filtern, weil es so wenige waren.
Ein Defektes Teil sollte natürlich nie beim Endkunden landen.
Ein Defektes Teil sollte natürlich nie beim Endkunden landen.
Millennial_24K
Lt. Commander
- Registriert
- Dez. 2021
- Beiträge
- 1.636
Das Problem betrifft dann aber auch AMD Instinct. Diese Beschleuniger können schließlich für die gleichen Aufgaben eingesetzt werden...
Soll heißen: die übertriebene Nvidia-Affinität in der IT-Branche ist schon etwas albern. Da sieht man, dass "Fanboytum" selbst bei Experten und Profis ein Thema ist. Und das kann nicht gut für den GPU-Markt sein.
Soll heißen: die übertriebene Nvidia-Affinität in der IT-Branche ist schon etwas albern. Da sieht man, dass "Fanboytum" selbst bei Experten und Profis ein Thema ist. Und das kann nicht gut für den GPU-Markt sein.
S
SpamBot
Gast
ganz so einfach ist das nicht.DaDare schrieb:Lieferant liefert das, was vertraglich bestellt worden ist. Möchte man eine 100 % Prüfung der Chips haben, darf man die 100 % Prüfung der Chips bezahlen.
In der Regel werden "Schlechtraten" vertraglich geregelt. Da drüfen dann X Teile pro 1 Mio Einheiten kaputt sein. Hält der Lieferant das nicht zahlt er gerne die 100 % Kontrolle aus eigener Tasche.
Sowas ist eigentlich das kleine 1x1 für solche Lieferketten.
Gibt natürlich dann auch Lieferanten auf die man nicht verzichten kann und die dann solche Verträge niemals unterschreiben....
Edit: Man kann es auch anders sehen: Man hat ja funktionierende Ware bestellt und schlechte Ware erzeugt kosten die man vom Lieferanten einsacken kann. Wie die funktionierende Ware sichergestellt wird ist dann wiederrum Problem des Herstellers.
raychan
Lt. Commander
- Registriert
- Jan. 2013
- Beiträge
- 1.074
Mich erinnert das an einer Siemens Industrie 4.0 Schulung. Bei ein Beispiel war eine eine Produktionsstraße für das Herstellen von Platinen, wo am ende ein Röntgengerät steht um zuüberprüfen ob diese in Ordnung ist. Um dies effizenter zu machen sollte alle Daten der gesamten Entwicklungsstraße aufgezeichnet werden und dies per KI ausgewertet werden. Und am ende bekommt man ein Alghoritmus den man in die Produktionsstraße einfügt um dann nicht mehr alle Platinen zu röntgen, das spart Zeit und Geld. Weil man dann eine Statistik/Algoritmus hat welche Platine defekt sein könnte und welche in Ordnung ist.
Aber an ein Punkt muss ich Nvidia recht geben, wenn ich Chips von zulieferer Kaufe sollten diese auch die versprochene Qualität haben und als Kunde kann man das dann auch erwarten. Nicht anderes erwarten wir als Kunden von Nvidia ja auch das die GPUs eine gewisse Qualität haben.
Bin gespannt ob sich für uns Kunden etwas ändern. Eventuell wieder ein Grund die Preise anzuziehen, weil die Zusätzlichen Überprüfung sich die Hersteller bezahlen lassen. 😅 Welche dennoch nicht bei jeden Chip geprüft werden.
Aber an ein Punkt muss ich Nvidia recht geben, wenn ich Chips von zulieferer Kaufe sollten diese auch die versprochene Qualität haben und als Kunde kann man das dann auch erwarten. Nicht anderes erwarten wir als Kunden von Nvidia ja auch das die GPUs eine gewisse Qualität haben.
Bin gespannt ob sich für uns Kunden etwas ändern. Eventuell wieder ein Grund die Preise anzuziehen, weil die Zusätzlichen Überprüfung sich die Hersteller bezahlen lassen. 😅 Welche dennoch nicht bei jeden Chip geprüft werden.
Zuletzt bearbeitet:
Hotzenplotz45
Ensign
- Registriert
- Dez. 2023
- Beiträge
- 187
Bin mal gespannt wann die ersten kurzfristigen verschleisserscheinungen / Feheler bei gddr7
auftreten.
Laufen ja typischerweiser regelmässig bei 96° celsius auf der 5090fe.
Und wir haben noch nicht mal Hochsommer xD. 🔥
Laufen ja typischerweiser regelmässig bei 96° celsius auf der 5090fe.
Und wir haben noch nicht mal Hochsommer xD. 🔥
raychan schrieb:Und am ende bekommt man ein Alghoritmus den man in die Produktionsstraße einfügt um dann nicht mehr alle Platinen zu röntgen, das spart Zeit und Geld. Weil man dann eine Statistik/Algoritmus hat welche Platine defekt sein könnte und welche in Ordnung ist.
😣 😨🤦♂️🤦♀️
ThirdLife
Captain
- Registriert
- Aug. 2019
- Beiträge
- 3.957
Wundert mich bei all dem Trubel um Stecker und missing ROPs irgendwie gar nicht. So ein kleiner Tante-Emma Laden kann das ja auch unmöglich stemmen finanziell. 🤣PS828 schrieb:Da stellen sich mir die Nackenhaare auf wenn ich daran denke wie es eine gute Idee sein kann bei einem Produkt der Margenklasse Gelddruckmaschine auf eine 100% Eingangskontrolle der chips zu verzichten
Ja um Gottes Willen Nvidia..
- Registriert
- Okt. 2023
- Beiträge
- 4.561
Reines Rechenexempel bezüglich der Kosten und in der Industrie absolut üblich, aber manche meinen halt alles besser zu wissen, vor allem dann wenn es um Nvidia geht. Dann kommen immer irgendwelche Stories aus dem Paulanergarten, ohne überhaupt zu wissen worum es geht.PS828 schrieb:Die Kosten nicht die welt und selbst wenn man wegen dem Durchsatz 50 Stück kaufen muss kann man hier nicht wirklich mit den Kosten argumentieren.
Die Fehlerrate des HBM die Nvidia in den Rechenzentren ermittelte lag bei 1,6%.PS828 schrieb:Die yields die bekannt sind liegen bei Ausschussraten von minimal 10, jedoch eher in der Region 30% wenn man ehrlich zu sich selbst ist![]()
10 bzw. 30%, die Quelle würde mich mal interessieren. Yield Rates beim Hersteller selbst vielleicht, aber nicht im Zusammenhang mit an Nvidia gesendetem HBM...
Ja, aber wirklich, ein müder Bash ohne jeden Fakt, verbunden mit Ahnungslosigkeit.PS828 schrieb:Da stellen sich mir die Nackenhaare auf...
Wenn du denkst die kontrollieren keine HBM Chips nach, wenn 10-30% defekt gesendet werden, dann arbeitest du definitiv nicht in der Branche.
Da waren früher eben 0,1 oder 0,2% der Karten bzw. Cluster "kaputt" und jetzt sinds halt schon 1-2%.stefan92x schrieb:Der Witz ist halt der, dass mit der vorher üblichen Fehlerquote vielleicht nur 10 kaputt gewesen wären, so dass sich das eben nicht lohnt.
Eine Umstellung ist irgendwo zwischen Promille und Prozentbereich notwendig, wenn der zugeschickte HBM nicht sauber kontrolliert wurde. Total banal.
Die gleiche Diskussion ists auch mit dem Steckerthema. "Shrinke" ich die Stromanschlüsse auf einen Stecker, anstatt 4 8Pin zu verbauen und nehme dafür 1 Schmor-Fall von 100 000 GPUs zusätzlich in Kauf, spare beim PCB und Anschlüssen und mache die Karten günstiger.
Zuletzt bearbeitet:
Im Automotive-Bereich ist es absolut üblich, komplexe Halbleiter wie ASICs, µCs, Spannungswandler, Transceiver etc. vom Hersteller ausführlich testen zu lassen (über den ATE-Tester). Dort kann man sich schon aus Sicherheitsgründen (das Ziel ist immer eine FIT-Rate von 0, die Realität ist eher im Bereich 0,1 bis 0,2 angesiedelt, also 0,1 bis 0,2 Ausfälle pro 1 Mio. Stückzahl) nichts anderes leisten. Dementsprechend sind die Halbleiter dort aber auch nicht auf "Aldi-Niveau", was die Kosten angeht.Ungetestete Chips zu verbauen ist in vielen Bereichen der Industrie durchaus normal. Denn bei Ware von der Stange und nicht absoluten High-End-Lösungen treten sehr selten Fehler auf, alles vorher zu testen würde den Aufwand deutlich vergrößern und natürlich Kosten verursachen. Bei hochgezüchteten Produkten ist dies jedoch etwas anders. Wenn ein kleines Bauteil defekt ist, kann dies die ganze Ausbeute am Ende gewaltig schmälern.
Ich hab mal den entscheidenden Teil markiert. Ausgangskontrollen macht jeder, Eingangskontrollen (und um die geht es hier ja) macht man nur, wenn man den Ausgangskontrollen des Herstellers nicht vertraut, oder wenn man selber die Fehlerrate noch unter das vom Hersteller gelieferte und zugesagte Maß bringen will. Oder wenn mit einer nicht vernachlässigbaren Rate an Transportschäden zu rechnen ist, aber ich vermute stark, dass das hier eher keine Rolle spielt.Weyoun schrieb:Im Automotive-Bereich ist es absolut üblich, komplexe Halbleiter wie ASICs, µCs, Spannungswandler, Transceiver etc. vom Hersteller ausführlich testen zu lassen (über den ATE-Tester)
ThirdLife
Captain
- Registriert
- Aug. 2019
- Beiträge
- 3.957
Ich glaube das ist missverständlich. "Günstiger" eher nicht. Profitabler wäre wohl das richtige Wort. 😂Quidproquo77 schrieb:Die gleiche Diskussion ists auch mit dem Steckerthema. "Shrinke" ich die Stromanschlüsse auf einen Stecker, anstatt 4 8Pin zu verbauen und nehme dafür 1 Schmor-Fall von 100 000 GPUs zusätzlich in Kauf, spare beim PCB und Anschlüssen und mache die Karten günstiger.
Biedermeyer
Commander
- Registriert
- Apr. 2005
- Beiträge
- 2.599
ei_ei_ei... schon wird der 'Aufwand' auf die Kunden umgelegt...Volker schrieb: