News DirectStorage 1.4: Mit Zstandard werden Spieldaten noch schneller entpackt

mibbio schrieb:
Der Unterschied bei der Wirkung ist schlicht, dass ein auf den Shaderkernen ausgeführtes Zstd mehr Rechenleistung in Beschlag nimmt als in einem dedizierten, rein auf Zstd optimierten Funktionsbereich.
Wir drehen uns da ein wenig im Kreis. Ich bezweifel die von Dir skizzierten Zusammenhänge ja nicht grundsätzlich. Es geht um eine Abwägung, und ich schätze es eben so ein, dass die Diefläche besser in universeller nutzbare Schaltung investiert ist als in den Spezialfall zstd, Du schätzt es halt anders herum ein.

Wenn DS mal auf breiter Front eingesetzt wird dürfte NV/AMD vermutlich in Deine Richtung tendieren, solange es ein Nischendasein fristet eher in meine.
 
GerryB schrieb:
Wer ist denn so naiv und spielt mit 100% GPU-Limit?
(setz mal ein Fps-Limit)
Also Cyberpunk 2077 lasse ich im GPU Limit laufen und bin froh wenn bei 4k mein Oled auch nur ansatzweise ausgelastet wird. (Meist kommt der nicht auf sein 240Hz) Und CP fühlt sich mit 3stelligen FPS einfach schöner an als mit einem "60FPS" (schneckenschleim) Limit. Ich nehm da jedes Frame mit und es fühlt sich toll an im Kampf. Selbiges für DOOM (2016, Eternal...) und andere schnelle Sachen.
RPGs habe ichd ann schon mal mit nem Limit wobei Expedition 33 sich damit auch zäher anfühlt bei 60 statt 90-100Fps.
 
Yosup schrieb:
Das ist mir klar, und wenn dieser Algorithmus gar nicht gefragt ist, dann liegt dieser ASIC schlicht brach.
Ein Shader unterbricht kurz seine "normale" Tätigkeit, entpackt die Texturen, und rendert danach weiter an Bildern. Eventuell dauert es ne Stunde, bis erneut Daten dekomprimiert werden müssen - bspw wenn man in einem Game eine sehr lokale Quest löst. Dann wird mal wieder für 200 ms was dekomprimiert. Dafür nen ASIC?
Die Vision, welche Mark Carney im Road to PS5 Video vorstellte war, dass die SSD durchgehend Daten an die GPU streamt. Dadurch sollte es möglich werden, dass nicht unmittelbar sichtbare Objekte aus dem VRAM entfernt werden, und somit mehr effektiver VRAM für die gerade sichtbaren Sachen zur Verfügung steht. Wenn der Spieler dann die Kamera bewegt, werden die Assets just-in-time von der SSD in den VRAM gestreamt.
Im Kern ist das eine Weiterentwicklung von dem, was auf der PS4 passiert, dort werden in Open World Spielen permanent Daten vom der HDD gestreamt, gibt dazu einen interessanten Talk zu Spiderman von Insomniac.

Die Idee ist prinzipiell interessant, mir ist aber kein Spiel bekannt, was dies wirklich so konsequent umsetzt. Selbst ein Ratched und Clank hat mit den Portalen ja quasi einen ~3s Ladescreen.
Wenn die SSDs aber weiterhin permanent schneller werden, könnte dies durchaus mit der PS6 vermehrt kommen, vor allem da man damit ja den VRAM Bedarf (unmittelbare Umgebung <> ganzer Level) reduzieren kann, was aktuell bei den DRAM Preisen ja sehr attraktiv klingt.
 
Zuletzt bearbeitet:
Cleanor schrieb:
Also Cyberpunk 2077 lasse ich im GPU Limit laufen und bin froh wenn bei 4k mein Oled auch nur ansatzweise ausgelastet wird. (Meist kommt der nicht auf sein 240Hz) Und CP fühlt sich mit 3stelligen FPS einfach schöner an
Da musste halt mal MFG nutzen, um aus dem Knick zu kommen.
3x 79fps sollte doch reichen, auch für latenzempfindliche Leute
ingameSettings so wählen, das man an die 79fps rankommt
(bei meinem 9400F reichts nicht ganz, =GPU-Auslastung=91%<<99% zeigt das CPU-Limit, siehe Anhang1)


Cleanor schrieb:
als mit einem "60FPS" (schneckenschleim) Limit.
Wie kommst Du jetzt ausgerechnet auf 60fps, weil Wolfgang manchmal so testet im Effizienztest ohneMFG ?
(moderner wärs natürlich mit 237Fps@240Hz und Upscaler Balanced/Performance mit MFG x3)


nach m.E. sind in vielen SP-Games auch base 60fps x3 net schlecht wenn Reflex/AL2 aktiv ist
(ob man dann noch 4x wg. dem 240Hz-Moni unbedingt braucht, ... kostet halt Latenz)

btw.
am 60HZ-4k-Moni sind auch nachwievor 57fps ohne AL ausreichend griffig bei mir,
in Games wo ich die beste Latenz haben will, passend zum Moni
(just for fun kann ich natürlich auch mal in Richtung 3x60Hz gehen, wäre dann so ca. 172fps latenzoptimiert,
statt der sinnlosen 213fps ohne Limit im Anhang1, das wäre bei mir@EnhancedSync ausreichend siehe Anhang2)
 

Anhänge

  • Cyberpunk 2077_2026.03.13-21.58.jpg
    Cyberpunk 2077_2026.03.13-21.58.jpg
    675,8 KB · Aufrufe: 21
  • Cyberpunk 2077_2026.03.13-22.27.jpg
    Cyberpunk 2077_2026.03.13-22.27.jpg
    715 KB · Aufrufe: 22
Zuletzt bearbeitet:
GerryB schrieb:
Da musste halt mal MFG nutzen, um aus dem Knick zu kommen.
3x 79fps sollte doch reichen, auch für latenzempfindliche Leute
ingameSettings so wählen, das man an die 79fps rankommt
Wie empfindlich man auf Latenz, Micro-Ruckler und Flüssigkeit von Animationen ist, kann individuell sehr unterschiedlich sein, selbst von Spiel zu Spiel.

Ich habe nur einen 120Hz VRR Bildschirm, wenn ich mit Tastatur und Maus spiele, ziehe ich echte ~80fps mit VRR klar vor, mit einem Controller sind 115.420fps Limit mit 2xFG und Reflex aber auch sehr angenehm.
Und wenn ich dann doch mal einen Twitch-Shooter wie CS Spiele, dann bevorzugt ohne VRR/Vsync mit >300fps, da man in diesem Genre die Latenz extrem negativ merkt.

--> je nach Person und Spiel hat also alles seine Daseinsberechtigung

Update: und dann gibt es da noch so Spezialfälle wie RDR2, die sich mit 200fps genau so dröge steuern wie mit 30... smh
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Cleanor und GerryB
für Shooter gibts doch jetzt extra die DualMonis mit 240/480Hz
Umschalten auf FHD geht immer!

zum Glück bin ich nicht soo kompetive, da würde meine CPU zu sehr bremsen
 

Anhänge

  • Counter Strike Global Offensive_2026.03.14-01.01.jpg
    Counter Strike Global Offensive_2026.03.14-01.01.jpg
    390,7 KB · Aufrufe: 18
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: ragnarok666
@GerryB FHD bei 480Hz ist schon eine andere Welt für Shooter. Wer einmal damit gespielt hat, möchte kaum mehr zurück zu normalen Bildwiederholraten.
 
GerryB schrieb:
für Shooter gibts doch jetzt extra die DualMonis mit 240/480Hz
Umschalten auf FHD geht immer!
Stimmt, dafür spiele ich kompetitive Shooter aber viel zu selten.
Ich bevorzuge die immersive Erfahrung mit meinem BFG 48" OLED-TV auf meinem Schreibtisch. Wenn man das FOV hoch dreht bekommt man die Ultrawide Erfahrung + zusätzlichem Bild Oben und Unten :daumen:
Wenn es dann mal doch mal den Geist aufgibt sind die TVs bestimmt auch schon bei 240Hz Pannels angekommen, Heute sind wir ja schon bei 165Hz.
 
mibbio schrieb:
Der Unterschied bei der Wirkung ist schlicht, dass ein auf den Shaderkernen ausgeführtes Zstd mehr Rechenleistung in Beschlag nimmt als in einem dedizierten, rein auf Zstd optimierten Funktionsbereich.

Wenn man auf der GPU keine Zstd-Bereich implementiert, sondern sämtlichen Platz für Shader-Kerne nutzt, gewinnt man bei den Shaderkernen vielleicht 0,1 % mehr Rechenleistung (der Platzverlust auf dem Die durch einen "Zstd-Kern" ist minimalst). Gleichzeitig nimmt die Dekomprimierung auf den Shaderkernen aber 1% Rechenleistung in Beschlag. [...]
Die ausgedachten Prozentwerte helfen Null.
Ganz Real ist die aktuelle Implementierung als Computeshader umgesetzt. Da groß etwas dran zu ändern und irgendwelche Funktionsblöcke ins Silizium zu gießen bringt wenig. Zum einen verbaut man sich so die Weiterentwicklung und zum Anderen sind bei realen Anwendungen die Computeshader eh nie voll ausgelastet, schon garnicht, wenn es irgendwelche Stalls gibt, weil auf Daten gewartet werden muss.
Zudem ist beim Entpacken von Zstd meist sowieso die Speicherbandbreite das größte Problem und weniger der Durchsatz der ALUs. Schneller, lokaler Speicher mit ein paar Recheneinheiten ist in etwa das, was moderne Computeshader sind. Das als Funktionsblock nochmal leicht anders zu bauen ist irgendwie sinnlos.

Duran schrieb:
Kompression verbraucht Leistung.
Natürlich kann man Datenmengen verkleinern aber auf Kosten von Power.
Für das Powerbudget, welches man zum Übermitteln von Daten via PCIe braucht oder noch schlimmer um Stalls abzuwarten, kann man eine Weile auf den Daten rumrechnen für Dekompression. So Grafikarchitekturen wie RDNA4 komprimieren zum Beispiel ab dem L2-Cache aufwärts. Gesparte Bandbreite,verringerte Chance auf Stalls weil mehr Daten in Caches bzw. Ram passen.
 
ragnarok666 schrieb:
Die Vision, welche Mark Carney im Road to PS5 Video vorstellte war, dass die SSD durchgehend Daten an die GPU streamt. Dadurch sollte es möglich werden, dass nicht unmittelbar sichtbare Objekte aus dem VRAM entfernt werden, und somit mehr effektiver VRAM für die gerade sichtbaren Sachen zur Verfügung steht.
Im Grunde ist das dann nicht nur eine Auslagerung des VRAMs in den System-RAM, sondern sogar auf die SSD. Interessant wäre dann mal die typische Halbwertszeit einer Textur im VRAM.

Klar, in so einem Szenario wäre ein zstd-ASIC kontinuierlich ausgelastet und würde sich dann auch bezahlt machen - allerdings auch immernoch nur dann, wenn es nicht nur von ein paar Exoten-Spielen genutzt wird.

ragnarok666 schrieb:
Wenn der Spieler dann die Kamera bewegt, werden die Assets just-in-time von der SSD in den VRAM gestreamt.
Abstrakt und etwas überspitzt formuliert ist der VRAM dann nur noch sowas wie ein Cache für die SSD.
 
eigentlich braucht nur mal Jemand das bereits existierende SamplerFeedback in die Games einbauen, dann reduziert sich der Transfer/Belegung seeeehr deutlich
 

Anhänge

  • SampleFeedback.jpg
    SampleFeedback.jpg
    230,5 KB · Aufrufe: 25
GerryB schrieb:
Da musste halt mal MFG nutzen, um aus dem Knick zu kommen.
3x 79fps sollte doch reichen, auch für latenzempfindliche Leute
ingameSettings so wählen, das man an die 79fps rankommt
(bei meinem 9400F reichts nicht ganz, =GPU-Auslastung=91%<<99% zeigt das CPU-Limit, siehe Anhang1)



Wie kommst Du jetzt ausgerechnet auf 60fps, weil Wolfgang manchmal so testet im Effizienztest ohneMFG ?
(moderner wärs natürlich mit 237Fps@240Hz und Upscaler Balanced/Performance mit MFG x3)
Also bei Doom und CP sagte ich ja schon, dass es 3Stellig sein soll für das Gefühl. Damit meine ich jetzt nicht 100 statt 99 Frames sondern sowas ab 120-240 geht langsam in Ordnung, dafür nehme ich dann auch FSR4 und Medium Settings in kauf und die Optik ist fast identisch. Damit bin ich aber meist dann im GPU LIMIT, worum es mit ja ging.
"...wer ist schon im GPU Limit?..."
MFG fühlt sich für mich nicht immer gut an. 120 FPS echt sind anders als 2x60 MFG oder 240 vs 4x60 MFG.

Auf 60 kam ich, weil das der nächste schritt nach unten wär, also statt 70-90 Frames uncapped mache ich bei 60 dicht und habe "kein GPU Limit" mehr was du ja vorschlägst. Natürlich cappe ich auch mal bei 120 als es laufen zu lassen je nach Spiel. Andere Caps sind ja oft vom Spiel nicht angeboten und ich mach die krummen Sachen per hack usw ungern. 90 Cap bei Wasteland 3 als Verbrauch und gefühlsoptimum.

@Topic Die Ladezeit beim Spielstart oder Levelladen könnte ja gerne über Schader beschleunigt werden, aber ingame habe ich lieber hohe FPS als minimal schnellere Sachen, was ich (ausser Laderuckler UE5) kaum merken würde.
 
Cleanor schrieb:
MFG fühlt sich für mich nicht immer gut an. 120 FPS echt sind anders als 2x60 MFG oder 240 vs 4x60 MFG.
Deswegen ja MFGx3 mit aktivem Reflex/AL2.
3x79 = 237, ... praktisch sinds evtl. eher 85 base Fps vor Zuschalten von MFGx3, was auch etwas kostet.

MFG x4 mit 60fps base ist tatsächlich nicht so griffig, .. lieber etwas nachregeln damit o.g. Setting erreicht wird.

btw.
Wer sich nen 240Hz-4k-moni mit AMD-Graka oder älteren RTX kauft kommt nach m.E. nicht drum rum, sich mal
MFGx3 per DLSS-Enabler anzuschauen.

Der Kollege mit dem ROG Ally spielt auch lieber mit weniger Fps und nur MFGx3: am Ende des Videos


(MFGx4 war nicht sauber genug)
 
Zuletzt bearbeitet:
MichaG schrieb:
Allerdings muss man auch die Kirche im Dorf lassen
Auf jeden Fall, Danke trotzdem für die Anpassung. Die vorherige Version klang halt mehr nach „Es gibt 4 Titel…“ was halt auch nicht korrekt war. 😉
 
  • Gefällt mir
Reaktionen: MichaG
GerryB schrieb:
Wer ist denn so naiv und spielt mit 100% GPU-Limit?
(setz mal ein Fps-Limit)
Ähm, so ziemlich jeder. Mit FPS Limit wird deine Grafkkarte ja gar nicht richtig ausgenutzt.
 
  • Gefällt mir
Reaktionen: Cleanor
@banenet Ein FPS-Limit auf z.B. 144 oder 165 bei einem 165Hz-Monitor ist durchaus sinnvoll. Die GPU arbeitet dann effizienter, erzeugt weniger Wärme und Lüfterlärm, und mit G-Sync oder FreeSync ist der Unterschied kaum spürbar. 100% GPU-Auslastung ist kein Ziel an sich.
 
banenet schrieb:
Meine RX 6950 XT verliert an Leistung, wenn ich sie undervolte und thermal throttelt, wenn ich das Power Limit höher setze. Am Besten läuft sie mit Stock Werten. Die hat AMD wirklich sehr gut abgestimmt.
Gerade Deine 6950 verbrät@stock Watt ohne Ende.
wirste im Hochsommer noch merken, ob Sowas sein muss
 
Die 284W stören mich nicht.
 
Das sind keine 284W, da musste schonmal googlen wie die totale Boardpower aussieht.

Unbenannt.JPG
 
Zurück
Oben