News TensorRT for RTX: Optimiert Inference-AI für jede Nvidia-GPU automatisch

Wolfgang · 19. Mai 2025

In Spielen ist es einfach: Durch die 3D-APIs wie DirectX oder Vulkan wird neue Hardware direkt unterstützt und läuft für gewöhnlich ohne weitere Anpassungen schneller. Bei AI-Software ist dies dagegen nicht der Fall, wie Tests mit Consumer-AI-Software auf ComputerBase bei den Blackwell-Grafikkarten von Nvidia gezeigt haben.

Zur News: TensorRT for RTX: Optimiert Inference-AI für jede Nvidia-GPU automatisch

CDLABSRadonP... · 19. Mai 2025

@Wolfgang

(...) mit der es in Zukunft nicht mehr nötig sein wird, dass Entwickler ihr Programm für jede einzelne GPU, teils auch jedes einzelne Grafikkarten-Modell optimieren müssen.

Da fehlt noch ein Komma.

Demon_666 · 19. Mai 2025

Müssen nicht dann die Programme entsprechend angepasst werden, damit sie TensorRT nutzen können, also ähnlich wie Direct-X und Co.? Und ähnlich dazu TensorRT auch entsprechend gut implementieren?

SpartanerTom · 19. Mai 2025

Ein neuer Bagger für den Software-Moat.

Grumpy · 19. Mai 2025

Darf ich einmal sagen "ICH LIEBE COMPUTEX! 😍😍😍". So viele geile neue News! Uhh es geht los Kinder.

Topflappen · 19. Mai 2025

Also proprietäre Software um proprietäre Hardware nutzen zu können. Frage mich aber ob da nicht AI mit hilft, dazu kann der Kram auf der Hardware ja auch verwendet werden.

Ayo34 · 19. Mai 2025

Grundsätzlich doch einfach nur gut für alle, wenn jetzt etwas automatisch funktioniert, wofür vorher viele Leute etwas händisch machen mussten. Wird sicherlich zur Verbreitung auch beitragen. Und wenn ich denke, dass für jedes Spiele, jede Firma, eventuell für jede einzelne GPU etwas "schreiben" musste, dann kommt da einiges zusammen.

mcbloch · 19. Mai 2025

CDLABSRadonP... schrieb:
@Wolfgang

Da fehlt noch ein Komma.

Echt jetzt ?? Deshalb liest du hier ??

CDLABSRadonP... · 19. Mai 2025

mcbloch schrieb:
Deshalb liest du hier ??

Nein? Aber ich bin halt freundlich und teile, was mir zufällig über den Weg läuft.

Bright0001 · 19. Mai 2025

Die eigentliche Frage ist doch, warum das überhaupt notwendig ist: Hätte eigentlich erwartet, dass man sowas dynamisch auslegt, also genauso wie im 3D-Bereich: Einfach ne Checkliste abarbeiten und entsprechend nur unterstützte Features nutzen, sonst die Hardware maximal ausreizen.

Kann aber (scheinbar) Modelle deutlich beschleunigen, muss ich mal ausprobieren.

fox40phil · 19. Mai 2025

mcbloch schrieb:
Echt jetzt ?? Deshalb liest du hier ??

schreibt solche Fehler doch einfach per PN....

@ Topic:
Klingt super - aber halt auch wieder properitär -.-"....
Hätte nicht gedacht, dass es aktuell noch so umständlich und spartanisch ist! Dachte die Software greift einfach auf die Cores zu und fertig?! Den Rest regelt der Ausbau und die Technologie des Chips (GPU)

xpgx1 · 19. Mai 2025

Ja, hm, ne.

TensorRT ist, grob gesagt, einfach nur ein neues Format für allerlei compute Models. Das können LLMs sein, Visual Diffusion Models oder eben kleinere, zweckgebundenere Models.

Das problem: Nobody gives a shit - denn TensorRT, als Format, ist super rare und nicht weit verbreitet. Das gängigste Format ist halt safetensors, ebenso wie onnx. Ich vereinfache hier stark, ja absolut, aber diese eigenen Süppchen, die NVIDIA da brauen mag, dienen nur der Festigung ihrer eigenen Platform =)

Es geht nicht um Beschleunigung für alle, es geht nur darum das NVIDIA GPUs eben auch NVIDIA Formate nutzen sollen. Das TensorRT endlich auch sinnhafter optimiert (Und sich stärker an der eigenglichen chiparchitektur sowie den KONNRETEN Features der Grafikkarte orientiert) ist supi - nur leider nicht kompatibel mit dem Rest des Marktes =)

Gut, wir werden sehen was damit passiert. Weit verbreitet ist TensorRT alt nicht - und das aus gutem Grund: Mangelnder Support und oder langwieriges umwandeln der ohnehin gigantischen models.

Bright0001 · 20. Mai 2025

xpgx1 schrieb:
Das problem: Nobody gives a shit - denn TensorRT, als Format, ist super rare und nicht weit verbreitet. Das gängigste Format ist halt safetensors, ebenso wie onnx. Ich vereinfache hier stark, ja absolut, aber diese eigenen Süppchen, die NVIDIA da brauen mag, dienen nur der Festigung ihrer eigenen Platform =)

Naja, weniger "don't give a shit" und mehr so "gar kein Bock".

Auf der einen Seite hab ich eine GGUF, die selbst bei zu wenig VRAM nicht meckert und einfach auf den RAM auslagert, und auf der anderen Seite Nvidias Lösung, wo ich nackte Modelle für meine eigene Hardware compilen muss. Und als ob das nicht genug wäre, ist das nicht nur einfach herunterladen und compilen, sondern Gefummel für jedes einzelne Modell, weil es keine Garantien gibt, dass neue Modelle auch tatsächlich unterstützt werden.

Da kann das Zeug 10x so viele Tokens pro Sekunde erzeugen, die verlorene Lebenszeit bekomme ich so trotzdem nie wieder rein.

DoS007 · 20. Mai 2025

xpgx1 schrieb:
Das problem: Nobody gives a shit - denn TensorRT, als Format, ist super rare und nicht weit verbreitet. Das gängigste Format ist halt safetensors, ebenso wie onnx. Ich vereinfache hier stark, ja absolut, aber diese eigenen Süppchen, die NVIDIA da brauen mag, dienen nur der Festigung ihrer eigenen Platform =)

Es geht nicht um Beschleunigung für alle, es geht nur darum das NVIDIA GPUs eben auch NVIDIA Formate nutzen sollen. Das TensorRT endlich auch sinnhafter optimiert (Und sich stärker an der eigenglichen chiparchitektur sowie den KONNRETEN Features der Grafikkarte orientiert) ist supi - nur leider nicht kompatibel mit dem Rest des Marktes =)

Safetensors ist ja deswegen interessant, weil es eben "safe" ist, also keinen Schadecode enthalten kann. Wie ist das bei dem TensorRT?

Also ich habe mich mal mit Whisper (Spracherkennung) beschäftigt, und da konnte die TensorRT-Version schon noch was rausholen (war allerdings api technisch leider nicht vollständig umgesetzt).

xpgx1 · 22. Mai 2025

@DoS007 Sorry für das Delay ^-^'

So weit ich im Bilde bin (bin ja auch kein nachweislicher experte) sind diese beiden Formate designed für völlig unterschiedliche Dinge: TensorRT is laser focussed was das eigentliche inferecing angeht - alles scheint in diesem Format darauf ausgelegt zu sen möglich schnell die vorhandene Hardware auszunutzen und enorm schnell durch die Layer durch zu gehen.

Safetensors ist um den Sicherheitsaspekt herum designed - mit disem als focus.

Dh also wer oft models aus fremden quellen einsetzt - willy nilly - und nicht vorher abschätzen kann was diese models dann genau für code ausführen (der evtl nicht obvious ist, was in der Vergangenheit durchaus vorgekommen ist) -> der sollte nach wie vor auf dieses format setzen, auch - wenn es weniger rohe leistung bietet.

Zu Whisper: Ich glaub' ich kenne eine ähnlich reduzierte UI Lösung ^^ - Die Sprachmodels sind, idr, recht kompakt und da hilft Deepspeed oft stark nach die Leistung zu pushen.

PS828 · 22. Mai 2025

Für die AI entwickler sicherlich eine tolle sache. aber wie so oft geht das an den aktuellemn hauptproblemen dieser generation vorbei.

dennoch scheinen solche fehler richtigerweise priorität zu genießen weil dort das geld liegt. von daher auch verständlich irgendwie

Suche

News TensorRT for RTX: Optimiert Inference-AI für jede Nvidia-GPU automatisch

Wolfgang

Redakteur

CDLABSRadonP...

Vice Admiral

Demon_666

Commodore

SpartanerTom

Captain

Grumpy

Lt. Junior Grade

Topflappen

Lt. Commander Pro

Ayo34

Admiral

mcbloch

Commodore

CDLABSRadonP...

Vice Admiral

Bright0001

Captain

fox40phil

Vice Admiral

xpgx1

Cadet 4th Year

Bright0001

Captain

DoS007

Lieutenant

xpgx1

Cadet 4th Year

PS828

Der Flieseninspektor Pro