News TensorRT for RTX: Optimiert Inference-AI für jede Nvidia-GPU automatisch

Wolfgang

Redakteur
Teammitglied
Registriert
Nov. 2002
Beiträge
9.482
In Spielen ist es einfach: Durch die 3D-APIs wie DirectX oder Vulkan wird neue Hardware direkt unterstützt und läuft für gewöhnlich ohne weitere Anpassungen schneller. Bei AI-Software ist dies dagegen nicht der Fall, wie Tests mit Consumer-AI-Software auf ComputerBase bei den Blackwell-Grafikkarten von Nvidia gezeigt haben.

Zur News: TensorRT for RTX: Optimiert Inference-AI für jede Nvidia-GPU automatisch
 
  • Gefällt mir
Reaktionen: schneeland, DoS007 und Jagdwurst
Müssen nicht dann die Programme entsprechend angepasst werden, damit sie TensorRT nutzen können, also ähnlich wie Direct-X und Co.? Und ähnlich dazu TensorRT auch entsprechend gut implementieren?
 
  • Gefällt mir
Reaktionen: badcompany4life
Ein neuer Bagger für den Software-Moat.
 
  • Gefällt mir
Reaktionen: Mcr-King und Termy
Darf ich einmal sagen "ICH LIEBE COMPUTEX! 😍😍😍". So viele geile neue News! Uhh es geht los Kinder.
 
  • Gefällt mir
Reaktionen: fox40phil
Also proprietäre Software um proprietäre Hardware nutzen zu können. Frage mich aber ob da nicht AI mit hilft, dazu kann der Kram auf der Hardware ja auch verwendet werden.
 
  • Gefällt mir
Reaktionen: Mcr-King
Grundsätzlich doch einfach nur gut für alle, wenn jetzt etwas automatisch funktioniert, wofür vorher viele Leute etwas händisch machen mussten. Wird sicherlich zur Verbreitung auch beitragen. Und wenn ich denke, dass für jedes Spiele, jede Firma, eventuell für jede einzelne GPU etwas "schreiben" musste, dann kommt da einiges zusammen.
 
  • Gefällt mir
Reaktionen: BlinkBlink
Die eigentliche Frage ist doch, warum das überhaupt notwendig ist: Hätte eigentlich erwartet, dass man sowas dynamisch auslegt, also genauso wie im 3D-Bereich: Einfach ne Checkliste abarbeiten und entsprechend nur unterstützte Features nutzen, sonst die Hardware maximal ausreizen.

Kann aber (scheinbar) Modelle deutlich beschleunigen, muss ich mal ausprobieren.
 
  • Gefällt mir
Reaktionen: Mcr-King und fox40phil
mcbloch schrieb:
Echt jetzt ?? Deshalb liest du hier ?? :stock:
schreibt solche Fehler doch einfach per PN....

@ Topic:
Klingt super - aber halt auch wieder properitär -.-"....
Hätte nicht gedacht, dass es aktuell noch so umständlich und spartanisch ist! Dachte die Software greift einfach auf die Cores zu und fertig?! Den Rest regelt der Ausbau und die Technologie des Chips (GPU)
 
  • Gefällt mir
Reaktionen: Mcr-King und BlinkBlink
Ja, hm, ne.

TensorRT ist, grob gesagt, einfach nur ein neues Format für allerlei compute Models. Das können LLMs sein, Visual Diffusion Models oder eben kleinere, zweckgebundenere Models.

Das problem: Nobody gives a shit - denn TensorRT, als Format, ist super rare und nicht weit verbreitet. Das gängigste Format ist halt safetensors, ebenso wie onnx. Ich vereinfache hier stark, ja absolut, aber diese eigenen Süppchen, die NVIDIA da brauen mag, dienen nur der Festigung ihrer eigenen Platform =)

Es geht nicht um Beschleunigung für alle, es geht nur darum das NVIDIA GPUs eben auch NVIDIA Formate nutzen sollen. Das TensorRT endlich auch sinnhafter optimiert (Und sich stärker an der eigenglichen chiparchitektur sowie den KONNRETEN Features der Grafikkarte orientiert) ist supi - nur leider nicht kompatibel mit dem Rest des Marktes =)

Gut, wir werden sehen was damit passiert. Weit verbreitet ist TensorRT alt nicht - und das aus gutem Grund: Mangelnder Support und oder langwieriges umwandeln der ohnehin gigantischen models.
 
  • Gefällt mir
Reaktionen: Bright0001, Mcr-King und badcompany4life
xpgx1 schrieb:
Das problem: Nobody gives a shit - denn TensorRT, als Format, ist super rare und nicht weit verbreitet. Das gängigste Format ist halt safetensors, ebenso wie onnx. Ich vereinfache hier stark, ja absolut, aber diese eigenen Süppchen, die NVIDIA da brauen mag, dienen nur der Festigung ihrer eigenen Platform =)
Naja, weniger "don't give a shit" und mehr so "gar kein Bock".

Auf der einen Seite hab ich eine GGUF, die selbst bei zu wenig VRAM nicht meckert und einfach auf den RAM auslagert, und auf der anderen Seite Nvidias Lösung, wo ich nackte Modelle für meine eigene Hardware compilen muss. Und als ob das nicht genug wäre, ist das nicht nur einfach herunterladen und compilen, sondern Gefummel für jedes einzelne Modell, weil es keine Garantien gibt, dass neue Modelle auch tatsächlich unterstützt werden.

Da kann das Zeug 10x so viele Tokens pro Sekunde erzeugen, die verlorene Lebenszeit bekomme ich so trotzdem nie wieder rein. :D
 
xpgx1 schrieb:
Das problem: Nobody gives a shit - denn TensorRT, als Format, ist super rare und nicht weit verbreitet. Das gängigste Format ist halt safetensors, ebenso wie onnx. Ich vereinfache hier stark, ja absolut, aber diese eigenen Süppchen, die NVIDIA da brauen mag, dienen nur der Festigung ihrer eigenen Platform =)

Es geht nicht um Beschleunigung für alle, es geht nur darum das NVIDIA GPUs eben auch NVIDIA Formate nutzen sollen. Das TensorRT endlich auch sinnhafter optimiert (Und sich stärker an der eigenglichen chiparchitektur sowie den KONNRETEN Features der Grafikkarte orientiert) ist supi - nur leider nicht kompatibel mit dem Rest des Marktes =)
Safetensors ist ja deswegen interessant, weil es eben "safe" ist, also keinen Schadecode enthalten kann. Wie ist das bei dem TensorRT?

Also ich habe mich mal mit Whisper (Spracherkennung) beschäftigt, und da konnte die TensorRT-Version schon noch was rausholen (war allerdings api technisch leider nicht vollständig umgesetzt).
 
@DoS007 Sorry für das Delay ^-^'

So weit ich im Bilde bin (bin ja auch kein nachweislicher experte) sind diese beiden Formate designed für völlig unterschiedliche Dinge: TensorRT is laser focussed was das eigentliche inferecing angeht - alles scheint in diesem Format darauf ausgelegt zu sen möglich schnell die vorhandene Hardware auszunutzen und enorm schnell durch die Layer durch zu gehen.

Safetensors ist um den Sicherheitsaspekt herum designed - mit disem als focus.

Dh also wer oft models aus fremden quellen einsetzt - willy nilly - und nicht vorher abschätzen kann was diese models dann genau für code ausführen (der evtl nicht obvious ist, was in der Vergangenheit durchaus vorgekommen ist) -> der sollte nach wie vor auf dieses format setzen, auch - wenn es weniger rohe leistung bietet.

Zu Whisper: Ich glaub' ich kenne eine ähnlich reduzierte UI Lösung ^^ - Die Sprachmodels sind, idr, recht kompakt und da hilft Deepspeed oft stark nach die Leistung zu pushen.
 
  • Gefällt mir
Reaktionen: DoS007
Für die AI entwickler sicherlich eine tolle sache. aber wie so oft geht das an den aktuellemn hauptproblemen dieser generation vorbei.

dennoch scheinen solche fehler richtigerweise priorität zu genießen weil dort das geld liegt. von daher auch verständlich irgendwie :D
 
Zurück
Oben