News AMD Instinct MI430X: AMDs echter HPC-Chip ist „6 Mal schneller“ als Nvidia Rubin

foofoobar · Donnerstag um 13:56

ETI1120 schrieb:
Die physikalischen Wettermodelle GFS aus den USA, die in den europäischen Medien so gerne verwendet werden, halluzinieren auch ohne AI und sagen 10 Extremwetterereignisse voraus von denen dann eines kommt.

Ein globales US-Modell welches mit geringer Auflösung rechnet ist einfach nicht so genau.

Die von mir oben genannten Events wurden von den hiesigen Modellen welche eine höhere Auflösung rechnen recht gut vorhergesagt.

ETI1120 schrieb:
Im übrigen ist die Auflösung der Wettermodelle sehr grob, so dass extreme lokale Ereignisse durchs Raster fallen. Wie letztes Jahr in Texas.

Der Donald und seine Bros haben dort Kürzungen durchgesetzt.
Modelle werden zusätzlich von biologischen Meteorologen interpretiert.

ETI1120 schrieb:
Alle Modelle haben ihre Grenzen. Wenn sie innerhalb ihrer Grenzen betrieben werden funktionieren sie. Wenn sie außerhalb ihrer Grenzen betrieben werden versagen sie

Und die Grenzen von AI Modellen liegen bei Extremen weil u.a. außerhalb der "Norm".

PS828 · Donnerstag um 13:57

FP64 ist halt auch das perfekte Bindeglied zwischen CPU compute für noch größere zahlen und das klein klein der GPUs. In Simulationen wo Rundungsfehler das ende bedeuten können spielen solche breiten Register durchaus eine wichtige Rolle.

Hinzu kommt dass damit auch FP128 emuliert werden kann über zwei Einheiten

Ergänzung (Donnerstag um 14:00)

ETI1120 schrieb:
Alle Modelle haben ihre Grenzen. Wenn sie innerhalb ihrer Grenzen betrieben werden funktionieren sie. Wenn sie außerhalb ihrer Grenzen betrieben werden versagen sie

Steife partielle Differentialgleichungen sind ein schönes kunstrukt. Unfassbar mächtig aber es kommt halt drauf an keine numerischen fehler zu machen ^^

Das gleiche sieht man auch bei iterativen Regressionsaufgaben wo ein vorgegebener plott mittels komplexesten Gewichten in eine Funktion gefaltet wird. Ist extremes CPU Gebiet aber subergebnisse und Zuarbeit könnte ich mir bei FP64/128 auch schon vorstellen

M.(to_the)K. · Donnerstag um 14:16

Strategisch clever. Bei KI ist Nvidia am Ende auch einfach einteilt... Die holt man nicht mehr ein. Aber es gibt noch viel Geschäft das deshalb liegen bleibt. Sich darauf zu fokussieren, statt einen rüstungswettlauf um die besten KI Beschleuniger zu starten (den AMD eh verlieren wird), das ist sehr clever.

Hut ab Lisa Su.

Novasun · Donnerstag um 20:23

Cabranium schrieb:
Das Feld maximale Genauigkeit ist auch irgendwie mir bei den ganzen News abhanden gekommen. In welchen konkretten Fällen würde man diese maximalle Genauigkeit benötigen?
Ich tippe jetzt einfach mal ins Blaue und sage sowas wie Wettersimulationen oder Lawienensimulation? Oh! Und natürlich alles was mit dem Weltraum zu tun hat. Kursberechnung usw. Jede Ungenauigkeit könnten da Tausende Kilometer am Ziel vorbei bedeuten. Denke ich in die richtige Richtung?

Atombomben Simulationen / Waffenforschung - aber sicherlich auch in der Materialforschung z.B.

foofoobar · Donnerstag um 22:12

@Novasun https://de.wikipedia.org/wiki/Finite-Elemente-Methode
https://de.wikipedia.org/wiki/Numerische_Strömungsmechanik
Simulation der analogen Eigenschaften deines Computers.

Und ganz wichtig: Hocheffiziente Verbrenner!

Skysnake · Freitag um 08:06

konkretor schrieb:
@Skysnake wäre es dir möglich eine Einschätzung abzugeben für diese Reihe. Du bist ja in dem Bereich mehr als Mittendrin. Falls es deine Zeit zu lässt
Danke

Ich kanns mal versuchen. 😉

Bei den 430X handelt es sich halt um echte HPC Karten die wirklich für den Markt konzipiert und nicht nur mit bedienen. FP64 ist noch immer verdammt wichtig, da die Algorithmen mit FP32 eben teils nicht konvergieren. FP64 ist da einfach ein guter Kompromiss aus Aufwand und Nutzen. Klar kann man oft auch FP32 verwenden, aber das erfordert dann wieder mehr Sorgfalt in der Validierung der Ergebnisse usw. Daher ist FP64 oft einfach die NoBrainer Lösung. Und ja es gibt Bereiche in denen dann auch mit FP128 oder noch mehr gearbeitet wird per CPU Emulation, aber das ist doch eher sehr sehr selten. Hatte ich aber auch schon gesehen.

Mir persönlich fehlt aber hier ganz klar die MI430A Variante. Die Vorteile in der Architektur sind einfach bestechend und mit der Menge an RAM wird es auch noch leichter. Würde auch gerne eine MI430C sehen. Hätte da so manche Anwendungsfälle für. Vielleicht hört AMD ja da mal noch auf mich...

Cabranium schrieb:
Das Feld maximale Genauigkeit ist auch irgendwie mir bei den ganzen News abhanden gekommen. In welchen konkretten Fällen würde man diese maximalle Genauigkeit benötigen?

Die ist nicht Maximal. Es ist einfach der Standard der normal noch in HW Implementiert wird da der Aufwand noch vertretbar ist. FP128 HW gibt/gab es auch aber nur sehr selten. Brauchen auch wirklich nur wenige während FP64 oft benötigt wird.

Benötigt wird das in allen möglichen Konstellationen. Kommt ganz auf dad Löserverfahren an und wie Steif die Probleme sind.

Cabranium schrieb:
Ich tippe jetzt einfach mal ins Blaue und sage sowas wie Wettersimulationen oder Lawienensimulation? Oh! Und natürlich alles was mit dem Weltraum zu tun hat. Kursberechnung usw. Jede Ungenauigkeit könnten da Tausende Kilometer am Ziel vorbei bedeuten. Denke ich in die richtige Richtung?

das wird für alles mögliche benötigt. Von der Verbrennung im Motor über Flugzeugflügeö und Windrose bis hin zu Ölschmierung von Zahnrädern. Wobei da vielleicgt sogar teils fp128 zum Einsatz kommt. Oder halt irgendwelche plastischen Verformungen aka crash Tests usw.

ETI1120 schrieb:
Vergleichen kann man immer. Die Frage ist in wie weit die Emulation tatsächlich echte F64 ersetzen kann.

Das ist die absolut spannende Frage. Wenn der IEERFP64 Standard eingehalten wird, dann ist die Emulation so gut wie die direkte Implementierung. Wenn nicht ist es in meinen Augen erstmal wertlos. Den Schuh zieht sich dann nämlich keiner an...

Btw ist die gleiche Diskussion wie mit Fastmath als Compilerflag.

Kann tun muss es aber nicht und dann hast du ein Problem. Aber das musst du erstmal validieren. Ich sehe nicht das auch nur ein kommerzieller Anbieter dad unterstützen wird wenn es nicht 100% IEEE konform ist. Und nvidia druckst da etwas rum. Vieles geht wohl, aber ein paar Corner Cases machen Ihnen wohl Kopfschmerzen wenn ich die Berichterstattung richtig verfolge. Unklar ist ob die Implementierung insgesamt langsamer wird wenn man diese Corner Cases nutzt oder ob es nur dann langsamer wird wenn man so einen Corner Case triggert. Je nachdem kann die Idee noch immer überragend sein oder im praktischen Einsatz an sich wertlos, abgesehen davon das man halt FP64 überhaupt nutzen kann mot einer gewissen HW die das nativ nicht kann.

ich kann da noch nicht abschätzen in welche Richtung es geht. Wenn nvidia das aber verbockt dann bleibt die H200 für Jahre das beste Angebot für sehr viel kommerzielle Software.

Und da könnte AMD sich dann ins gemachte Nest setzen können. Die Hersteller sind darüber dann nämlich alles andere als Glücklich.

Aber AMD muss das auch erst schaffen... die haben da ja auch einen gewissen "Trackball record" solche Gelegenheiten nicht zu nutzen...

ETI1120 schrieb:
Das Problem bei der Simulation von Wetter ist dass kleinste Abweichungen in den Daten zu komplett anderen Resultaten führen können. Deshalb werden die Modelle zigfach mit Variationen in den Eingangsdaten durchlaufen

Nicht nur das. Du hast zu wenig Inputdaten mit zu wenig Genauigkeit so das du eh den Input interpolierst. Du hast also schon eine gewisse Unsicherheit was denn überhaupt der Istzustand ist.

stefan92x · Freitag um 08:42

Skysnake schrieb:
Mir persönlich fehlt aber hier ganz klar die MI430A Variante. Die Vorteile in der Architektur sind einfach bestechend und mit der Menge an RAM wird es auch noch leichter. Würde auch gerne eine MI430C sehen. Hätte da so manche Anwendungsfälle für. Vielleicht hört AMD ja da mal noch auf mich...

Eigentlich sollte das ja möglich sein. Das Packaging ändert sich zwar mit Zen 6, aber letztlich bedeutet das doch eher nur, dass die Kontakte zum IOD hin sich auf eine Ecke konzentrieren. Mit passender Metallisierung sollte ein Stacken auf den IOD also auch wieder möglich sein, vielleicht sogar einfacher als bei MI300, weil man nur ein kleines "Kontaktfeld" für einen CCD auf dem IOD vorsehen muss.

Ob es kommt ist natürlich die andere Frage, so richtig Mainstream wurden diese Lösungen ja nicht...

Pizza! · Freitag um 08:45

Kann mal jemand das mit der Genauigkeit genauer erklären?

Ich kann's mir grob vorstellen, aber egal ob genau oder ungenau, es wird doch gerechnet damit ein bestimmtes Ergebnis kommt.
3x3,1 sind 9,3 und mit weniger Genauigkeit sind es dann nur 9,0 weil der Sache es egal ist ob es nun 9 oder 9,3 sind? Hauptsache nah dran?

stefan92x · Freitag um 08:55

Pizza! schrieb:
3x3,1 sind 9,3 und mit weniger Genauigkeit sind es dann nur 9,0 weil der Sache es egal ist ob es nun 9 oder 9,3 sind? Hauptsache nah dran?

Ja das trifft es schon ganz gut, aber nehmen wir lieber ein Zahlenbeispiel, was es noch deutlicher macht, z.B. 3,3*3,3

Mit vier Dezimalstellen lautet das Ergebnis 10,89. Mit drei Dezimalstellen ist es 10,9. Mit nur zwei Dezimalstellen lautet es 11. Wie viele Stellen brauchst du, um mit dem Ergebnis was anfangen zu können? Und wenn du viele Rechenschritte verkettest, wird der Fehler ja jedes Mal größer, der sich insgesamt aufbaut. Danach muss man die Wahl zwischen den Datentypen unterschiedlicher Breite treffen.

SweetOhm · Freitag um 11:09

Neodar schrieb:
Was wäre denn das passende Gegenstück von nVidia, mit dem man vergleichen könnte?

Wen sollte das interessieren ? Und wenn, dann ist NV´s Leistungs Äquivalent mehr als doppelt so teuer ...

TasmTeufel · Freitag um 11:27

Also ein Helios Rack dann bitte,
hoffentlich läuft dann DOOM noch darauf. 🤣

Bigfoot29 · Freitag um 12:42

SweetOhm schrieb:
Und wenn, dann ist NV´s Leistungs Äquivalent mehr als doppelt so teuer ...

Tja, blöderweise gibt es ein bestehendes Ökosystem. Und NIEMAND wird dafür gefeuert, die teurere Lösung zu nehmen, wenn die dafür sofort kompatibel mit den bisherigen Workflows ist. AMD muss hier zeigen, dass ihre Softwarelösung halbwegs vergleichbare Qualität liefert und auch langfristig eine sichere(re) Wahl ist...

Regards, Bigfoot29

foofoobar · Freitag um 12:42

Skysnake schrieb:
Das ist die absolut spannende Frage. Wenn der IEERFP64 Standard eingehalten wird, dann ist die Emulation so gut wie die direkte Implementierung. Wenn nicht ist es in meinen Augen erstmal wertlos. Den Schuh zieht sich dann nämlich keiner an...

IMHO ist das bei diesem?Ponzi?-Schema von ?NV? nicht der Fall, und da wird es dann spannend wenn z.b. Festigkeiten von z.b. Flugzeugen oder Autos per Simulation nachgewiesen werden sollen.

Ergänzung (Freitag um 12:48)

Pizza! schrieb:
Kann mal jemand das mit der Genauigkeit genauer erklären?

Ich kann's mir grob vorstellen, aber egal ob genau oder ungenau, es wird doch gerechnet damit ein bestimmtes Ergebnis kommt.
3x3,1 sind 9,3 und mit weniger Genauigkeit sind es dann nur 9,0 weil der Sache es egal ist ob es nun 9 oder 9,3 sind? Hauptsache nah dran?

Der Klassiker ist alles mit 1/3, weil 1/3 nur mit einer bestimmten Genauigkeit abgebildet werden kann.
FP-Formate sind letztendlich Dezimalbrüche.

Früher war das Ergebnis von ( (1/3) * 3 ) auch gerne mal 0.99999999999999999999999999999

stefan92x · Freitag um 13:12

Bigfoot29 schrieb:
AMD muss hier zeigen, dass ihre Softwarelösung halbwegs vergleichbare Qualität liefert und auch langfristig eine sichere(re) Wahl ist...

Wir reden bei der MI430X ja über HPC. Und wenn wir da mal auf die letzte Top500 schauen, dann kommt AMD da auf 37% Anteil an der Beschleuniger-Gesamtleistung auf der Liste (Intel 8%, der Rest ist Nvidia), wobei AMD die beiden schnellsten Systeme überhaupt ausgerüstet hat. AMD hat mit MI200/MI300 schon stabil Marktanteile im HPC-Bereich gewonnen und auch für die MI430X schon Aufträge im Exascale-Bereich eingesammelt.

Das läuft für AMD durchaus besser als der AI-Bereich, ist halt nur nicht so groß.

ETI1120 · Freitag um 13:48

[

stefan92x schrieb:
Ja das trifft es schon ganz gut, aber nehmen wir lieber ein Zahlenbeispiel, was es noch deutlicher macht, z.B. 3,3*3,3

Das Problem ist nicht das Ergebnis einer Rechnung. Es werden Iterative Verfahren verwendet. Das bedeutet, dass das Ergebnis der einen Rechnung die Eingangswerte der nächsten Rechnung sind.

Der andere Faktor ist das binär System mit dem die Computer rechnen.

Die Tücken sieht man schon beim Vergleichen zweier Floating Point Zahlen.

Und trotz dieser offensichtlicher Mängel hat sich Floating Point durchgesetzt. Man war bereit sich mit den Nachteilen zu arrangieren. Intervall Arithmetik war eine absolute Nische und BCD scheint einer der Faktoren zu sein die Main Frames am Leben hält.

Skysnake · Freitag um 13:55

foofoobar schrieb:
IMHO ist das bei diesem?Ponzi?-Schema von ?NV? nicht der Fall, und da wird es dann spannend wenn z.b. Festigkeiten von z.b. Flugzeugen oder Autos per Simulation nachgewiesen werden sollen.

Das ist die 100Mrd Dollar Frage.

Ergänzung (Freitag um 13:59)

ETI1120 schrieb:
Und trotz dieser offensichtlicher Mängel hat sich Floating Point durchgesetzt. Man war bereit sich mit den Nachteilen zu arrangieren. Intervall Arithmetik war eine absolute Nische und BCD scheint einer der Faktoren zu sein die Main Frames am Leben hält.

Jup. Wobei Gustafson ja mit POSIT eine vielversprechende Alternative vorgeschlagen hat auf die sich aber niemand eingelassen hat aus Angst um den Aufwand....

Aber drauf Millionen AI Datenformate in HW Gießen ich kann gar nicht so viel fressen wie ich darüber kotzen möchte...

ETI1120 · Freitag um 14:07

@Skysnake Hast Du Dir Mal NextSilicon angesehen?

foofoobar · Freitag um 14:26

ETI1120 schrieb:
Die Tücken sieht man schon beim Vergleichen zweier Floating Point Zahlen.

Normalerweise werden die Ergebnisse von FP-Operationen vorm speichern normalisiert.

Und selbst bei int nutzt man nach Möglichkeit < oder > statt = als Abbruchbedingung bei schleifen etc.

ETI1120 schrieb:
Und trotz dieser offensichtlicher Mängel hat sich Floating Point durchgesetzt.

Der unendliche Speicherplatz den man für das speichern von 1/3 als Dezimalbruch bräuchte existiert nun mal nicht.

ETI1120 schrieb:
BCD scheint einer der Faktoren zu sein die Main Frames am Leben hält.

Wobei BCD nix anderes als Festkomma mit ineffizienter Speicherung ist.

Nowareeng · Freitag um 22:37

Kann man keinen Marker für periodisch setzten ? 😅 Kenn mich in der Materie nicht so aus........

Ergänzung (Freitag um 22:38)

foofoobar schrieb:
Der unendliche Speicherplatz den man für das speichern von 1/3 als Dezimalbruch bräuchte

foofoobar · Samstag um 07:39

@Nowareeng 1/3 ist halt das offensichtliche klassische Beispiel für das grundsätzliches Problem.

News AMD Instinct MI430X: AMDs echter HPC-Chip ist „6 Mal schneller“ als Nvidia Rubin

Rear Admiral

Der Flieseninspektor Pro

Lt. Commander

Captain

Rear Admiral

Captain

Rear Admiral

Rear Admiral Pro

Rear Admiral

Commander

Cadet 3rd Year

Commander

Rear Admiral

Rear Admiral

Commodore

Captain

Commodore

Rear Admiral

Lt. Junior Grade

Rear Admiral