Bericht Leser-Blindtest 2026: Die Community sieht DLSS 4.5 klar vor FSR und Nativ + TAA

@adfsrg Expliziter: Es ist kein Filter, der auf ein fertig gerendertes Bild angewandt wird(wie FXAA oder auch AMDs FFX CAS) sondern mit den gleichen Inputs wie DLSS arbeitet, während dem Renderprozess.

Deshalb kann DLSS(und auch FSR2+) ja auch sehr einfach in Spiele eingebaut werden, die TAA unterstützen und nur sehr umständlich, wenn sie es nicht tun, weil DLSS und TAA die gleichen Inputs von der Engine nutzen.
 
  • Gefällt mir
Reaktionen: Iscaran, Andre83hro, adfsrg und 2 andere
Grestorn schrieb:
Es ist ein fundamentaler Unterschied, ob man nun per AI Bilder generiert – so wie es Stable Diffusion et al. machen – oder ob man massiv mit massiv-paralleler Berechnung von Matrizen (Vektorfeldern) arbeitet.

Das Wort AI wird im Marketing inflationär genutzt. Das bedeutet noch lange nicht, dass alles so super intelligent ist – es verkauft sich nur besser.

In welcher Form bei DLSS 4(.5) "Transformer" eingesetzt wird und wie es sich tatsächlich von CNN unterscheidet, weiß keiner so genau - außerhalb von NVidia.

Aber eines ist sicher: Es werden sicher keine ganzen Bilder per "Transformer" generiert, so wie man das von anderen Bildgeneratoren kennt.

Das glaubt ihr nur, aber es macht einfach keinen Sinn. So wie ein Transformer-Modell Bilder erzeugt, wäre das vieeeeeel zu ineffizient, um es in Echtzeit nutzen zu können.
Stable Diffusion nutzt auch ein Transformer Model, nur wurde das anders Trainiert und gibt bei Input von Text eben ein Bild aus. DLSS gibt bei Input seiner input daten, eben auch ein Bild aus. Beides sind Transformator Modelle.

Das DLSS Model ist übrigens um die 500MB groß.
 
  • Gefällt mir
Reaktionen: Brrr, Iscaran, Andre83hro und eine weitere Person
@ReactivateMe347 https://www.computerbase.de/artikel/grafikkarten/upscaling-faq-nvidia-dlss-amd-fsr-intel-xess.86657/

Mit modernem temporalen Upscaling kann das Bild besser aussehen als bei nativem Rendering in der Ausgabeauflösung, weil auf mehr Informationen zurückgegriffen wird. Anstatt einfach nur den aktuellen Frame einer Skalierung zu unterziehen, nutzen DLSS, FSR und XeSS temporale Daten aus mehreren vorherigen Frames. Das bedeutet, dass jedes Pixel auf Grundlage von mehr Details entsteht als bei der nativen Berechnung eines einzelnen Frames möglich wären. Tatsächlich fließen in einen beispielsweise mit DLSS SR Quality auf UHD gehobenen Frame mehr „echt gerenderte“ Pixel ein als in einen nativ in UHD berechneten Frame. Daher kann bei modernen Upscaling-Algorithmen auch von Upsampling gesprochen werden: Die Anzahl der Datenpunkte pro Frame ist deutlich höher als bei der entsprechenden nativen Auflösung.
 
  • Gefällt mir
Reaktionen: Laphonso, ElliotAlderson und Grestorn
@adfsrg Eigentlich nicht. Ein Tiefpassfilter begrenzt Aliasing durch Filterung der (überflüssigen) Informationen. TAA wählt den anderen Ansatz und erhöht die Informationsdichte, wodurch die Grundbedingungen für Aliasing (für die gewählte Auflösung) fast verschwinden.
 
  • Gefällt mir
Reaktionen: Iscaran
Grestorn schrieb:
Ja, das habe ich auch nicht bestritten, aber eben nicht zur Generierung und damit zur "Erfindung" von irgendwelchen Bilddaten.
Da DLSS ja deutlich mehr macht als reines upsampling, generiert das Modell ja schon neue Informationen, basierend auf dem Input. Was du hier machst ist auf einzelnen Wörtern rumzureiten. Nein es ist kein Stable Diffusion, aber ja, es ist AI Inferenence und es sind auch nach dem Upsampling mehr Informationen vorhanden. Anders als bei Algorithmischen deterministischen Ansätzen und das sieht man wie wir gerade gelernt haben auch deutlich. Den größten Sprung hat DLSS übrigens mit dem Transformer auf Performance Mode gemacht, damit sehen die Game fantastisch aus auf bspw 4K
 
  • Gefällt mir
Reaktionen: Iscaran
Bregor schrieb:
Stable Diffusion nutzt auch ein Transformer Model, nur wurde das anders Trainiert und gibt bei Input von Text eben ein Bild aus. DLSS gibt bei Input seiner input daten, eben auch ein Bild aus. Beides sind Transformator Modelle.

Das DLSS Model ist übrigens um die 500MB groß.
Ok, Du weißt, wie beim Transformator die Aufspaltimg der Eingabedaten in Token passiert?

https://chatgpz.de/machine-learning...was-wirklich-in-einem-transformator-passiert/

Jetzt überleg Dir mal, man würde das mit Dein Eingabedaten auf der Basis von einem gerenderten Bild machen. Und nicht nur einem, sondern vielen. Und die dann mit dem üblichen Wahrscheinlichkeits-Verfahren im neuronalen Netz verarbeiten. Und das mal eben so 100x pro Sekunde.

Auf einer 2060.

Mit 8 GB.

Leute. Ernsthaft. Nein.

Das ganze muss viel statischer funktionieren. Das muss eine Pipeline sein, die in möglichst kurzer und konstanter Zeit ein Bild erzeugt. Das sind Transformationen, die gerne hochkomplex sind, auf Basis trainierter Daten erstellt wurden, was auch immer. Aber es ist sicher kein AI-Transformer, der 100 Bilder pro Sekunde ausspuckt. GANZ. SICHER. NICHT.
 
  • Gefällt mir
Reaktionen: usmave und Snapuman
zett0 schrieb:
Nur weil die Meisten einen minimalen Vorteil für DLSS 4.5 anerkennen kann man daraus nicht ableiten, dass die Bildqualität haushoch überlegen ist.
Die Bildqualität ist ja im Performance Mode sogar noch besser als Nativ, zumindest ebend bei DLSS, siehe Test davor. Das sagt schon was aus. Wie groß der Unterschied war sagt der Test nicht aus. Man hat nur angeklickt welches Video am besten aussah. Es war manchmal schwer, manchmal aber auch sehr leicht.
 
Kuestennebel79 schrieb:
Da DLSS ja deutlich mehr macht als reines upsampling, generiert das Modell ja schon neue Informationen, basierend auf dem Input. Was du hier machst ist auf einzelnen Wörtern rumzureiten. Nein es ist kein Stable Diffusion, aber ja, es ist AI Inferenence und es sind auch nach dem Upsampling mehr Informationen vorhanden.
Die Informationen kommen aber nicht aus der AI sondern vom jittern und der temporalen Komponente.

Die Schlussfolgerungen, die Deine AI Inference erzeugt, beziehen sich – wenn überhaupt – auf einfache Dinge wie Vektoren von sich bewegenden Partikeln oder eben einzelne Bereiche, deren Informationsdichte unterbestimmt ist. Aber sicher nicht auf das ganze Bild.
 
  • Gefällt mir
Reaktionen: usmave, Quidproquo77 und Taxxor
Kuestennebel79 schrieb:
Da DLSS ja deutlich mehr macht als reines upsampling, generiert das Modell ja schon neue Informationen, basierend auf dem Input.

Ganz simples Beispiel(und bewusst nicht im Detail beschrieben, bevor jemand Spitzfindig werden will):
DLSS schaut sich in einem Bild wo in der Ferne eine dünne Stromleitung vor einem blauen Himmel verläuft, einen Pixel über 6 verschiedene Bilder an:

1. Bild -> Pixel schwarz
2. Bild -> Pixel blau
3. Bild -> Pixel schwarz
4. Bild -> Pixel schwarz
5. Bild -> Pixel schwarz
6. Bild -> Pixel blau

Der Algorithmus nutzt diese Daten um dir im finalen Bild statt einer flickernden Linie eine durchgehend schwarze Linie zu zeigen, da aus den Daten der vorherigen Frames, er umliegenden Pixel aus dem aktuellen sowie den vorherigen Frames und der Motion Vectoren (+ dem Jittering) ersichtlich ist, dass nicht blau sondern schwarz an dieser Stelle sein muss.

Dieser schwarze Pixel ist aber keine neue Information, die es vorher nicht gab. Ganz im Gegenteil, er stammt aus einem Haufen alter Informationen aus denen einfach die blauen Pixel verworfen wurden
 
  • Gefällt mir
Reaktionen: angHell, usmave, Laphonso und 2 andere
ReactivateMe347 schrieb:
aber nativ geht doch auf die originalen 3d-Modelle zurück, was viel mehr Information ist, als ein paar vorherige Frames?!
50 Bilder in 1080p enthalten mehr Daten als ein Bild in 4K und in dieser Größenordnung arbeitet DLSS Quality.

Nativ muss diese Modelle eben auch in ein festes Pixelraster packen dabei gehen Informationen verloren, die sich DLSS durch das temporale Supersampling wiederholen kann.
 
  • Gefällt mir
Reaktionen: usmave, Laphonso, Grestorn und eine weitere Person
Naja, wahrscheinlich habe ich eine andere Wahrnehmung als die meisten hier. Bei mir waren es in nur zwei Fällen DLSS - über die Titel hinweg habe ich da keine Präferenz.
 
ReactivateMe347 schrieb:
Upscaling greift auf mehrere frames zurück, aber nativ geht doch auf die originalen 3d-Modelle zurück, was viel mehr Information ist, als ein paar vorherige Frames?!
Native muss aber auf Pixel rendern, also rasterisieren. Weswegen ein Detail mal sichtbar wird - wenn es auf einen Pixel fällt - oder unsichtbar - wenn es zwischen die Pixel fällt.

Upscaling macht das auch, aber eben nicht nur EINMAL sondern sehr oft (temporal) und jedesmal mit einem anderen, minimalen Kamera-Versatz, damit die Details die beim Rasterisieren sonst verloren gehen, wieder sichtbar werden,

Denn irgendwann fällt jedes Detail mal auf das Pixel. Deswegen das Jittering.
 
ReactivateMe347 schrieb:
Wie kann den Upscaling besser sein als nativ ?!
"Nativ" nutzt TAA
Ergänzung ()

Taxxor schrieb:
DLSS schaut sich in einem Bild wo in der Ferne eine dünne Stromleitung vor einem blauen Himmel verläuft, einen Pixel über 6 verschiedene Bilder an
Das trifft aber eher auf TAA zu. Bei DLSS SR hast du ja weniger Pixel berechnet, als ausgegeben werden, also kann es so nicht funktionieren.
 
Grestorn schrieb:
Die Informationen kommen aber nicht aus der AI sondern vom jittern und der temporalen Komponente.
Klar kommen die auch aus dem Modell oder glaubst du die beschäftigen umsonst einen Cluster rund um die Uhr um Bildchen zu trainieren? DLSS4.5 benötigt 5x mehr Computer als DLSS4, das wird hauptsächlich mitigiert durch das neue Datenformat fp8 und daher sacken RTX20/30 auch mehr ab als die neuen Karten.
Laut dir müsste dann ja alles überall immer gleich schnell laufen und gleich viel Performance kosten...
 
  • Gefällt mir
Reaktionen: adfsrg
adfsrg schrieb:
Das trifft aber eher auf TAA zu. Bei DLSS SR hast du ja weniger Pixel berechnet, als ausgegeben werden, also kann es so nicht funktionieren.
Doch weil du dadurch dass du die Informationen aus sehr viele Frames in niedriger Auflösung verwendest und das ganze jitterst, mehr Informationsdichte hast als in dem nativen 4K Bild.

TAA nutzt ebenso die Informationen aus den vergangenen Frames, jedoch muss es auf deutlich weniger Frames zurückgreifen weil das Modell nicht so performant ist, wodurch hier diese Details in der Ferne oft eher komplett verschwinden.
 
  • Gefällt mir
Reaktionen: usmave, Iscaran und Grestorn
Zurück
Oben