Bericht Grafikkarten-Tests: Methodik, Einstellungen und Savegames

Wolfgang

Redakteur
Teammitglied
Registriert
Nov. 2002
Beiträge
8.628
tl;dr: Wie testet ComputerBase Grafikkarten und wie laufen die Benchmarks ab? Das klärt der Artikel im Detail und liefert dazu Screenshots und Videos zur Testsequenz. Und wer möchte, der findet auch Spielstände im Artikel – für eigene Benchmarks und um die Redaktionsmethodik nachzuvollziehen.

Zum Bericht: Grafikkarten-Tests: Methodik, Einstellungen und Savegames
 
  • Gefällt mir
Reaktionen: Esenel
@Wolfgang
Das „99,9th Percentile“ besagt folglich, dass 99,8 Prozent aller Messwerte schneller als der angegebene Messwert sind.

"99,8th Percentile" sollte da stehen ;)

Zudem die Frage, wie ihr das mit der Definition haltet.
Denn 99,8th Percentile bedeutet nicht, dass 99,8% der Werte "schneller" oder "besser", sondern ganz einfach niedriger/kleiner als der angegebene Wert sind.

Dass das gleichzeitig auch schneller bzw besser ist, gilt aber für die Frametimes.
Da ihr es in FPS umrechnet, also invertiert, müsste das Perzentil auch invertiert werden.
Bei Frametimes sind es 99,8%: 0,2% der Werte sind höher, also schlechter.
Bei FPS sind es 0,2%: 0,2% der Werte sind niedriger, also schlechter.
 
Zuletzt bearbeitet:
mega, sehr coole Idee das mit den Savegames und dem möglichen Nachtesten. Das schafft Transparenz und nimmt den Fanboys Wind aus den Segeln.

Danke für den enormen Aufwand die Videos vorzubereiten, mit Text zu versehen, Savegames bereitzustellen und natürlich das Verfassen der langen Artikel! Daumen hoch!
 
Ich bin ein paar Tage nicht zu Hause...wenn ich zurück bin, kann ich mir das Mal genauer anschauen... schön wäre es, wenn man Mal nachprüfen würde, wie es bei den Testszenen mit CPU Limits aussieht.
Ist ja schön, wenn euer 9900k da kein CPU Limit hat...

Aber bei vielen werkelt ein kleinerer Prozessor im Rechner.

Gerade tomb Raider ist in diesem Dorf CPU lastig...Anno 1800 ist mit ultra Details CPU lastig...auch wenn ihr hier extra wenig Wuselfaktor und keine Stadt gewählt habt....Dirt Rally 2 war mit meiner Radeon VII und einem ryzen 1800X CPU limitiert.....F1 2018 habe ich nicht, aber 2015, das sich technisch wohl kaum unterscheidet ist oft CPU limitiert....

In wie weit CoD in der Multiplayer map CPU und netcode Probleme bekommt kann ich nicht sagen, würde ich aber nicht ausschließen.

Lob für hitman2... Die gewählte Location ist wirklich ausgesprochen GPU lastig! :)

Trotzdem...Ich habe euch oft vorgeworfen, bei den CPU Tests Szenen gewählt zu haben, die gar nicht die CPU kritischen Szenen zeigen.... Jetzt habe ich den Eindruck ihr habt so manchen Titel/ Szene dabei, die im GPU Test die CPU lästigen Titel/Szenen nutzen

Zu vielen anderen Spielen kann ich nix sagen weil ich die nicht besitze.... Wo ich was sagen kann ist zu den percentile.

Ich weiß, das es schwierig ist, was man als Beschreibung der frametimes wählt! Es gibt einige Auswahl und ihr wollt als Tech Presse mit durchaus Massenreichweite eine Zahl sehen, die alles beschreibt und der man prozentuale Unterschiede zuweisen kann..... Und die eierlegende wollmilchsau gibt es da nunmal nicht.

Ihr werdet nie alle glücklich machen und ich kann das verstehen.

Aber gerade in Verbindung mit euren sehr kurzen Testsequenzen muss ich die Belastbarkeit der P99.8 in Frage stellen!

25s Messzeit....gucke ich die Ergebnisse, dann haben rx580 und 1060 um die 38FPS....das sind 950 frames....und euer P99.8 ergibt 1,9....also das zweitschlechteste frametime.

Es ist nicht ungewöhnlich, das Messungen Mal mehr als einen Ausreißer haben und andere haben Glück....das kann heftige Unterschiede erzeugen.

Und man muss bedenken, das alle Grafikkarten, die knapp über 40 FPS kommen auf den drittschlechtesten frametime springen.... Von zweit- zu dritt schlechtestem ist oft ein deutlicher Unterschied.

Und selbst wenn die Messungen alle keine Peaks haben oder alle viele Peaks....diese Werte beziehen sich auf jeweils einen frametime der Messungen...
Das diese Einzelwerte hohen Schwankungen unterliegen, ist fast immer so...egal wie genau man den Messablauf durchführt!

Man muss über sehr viele Messungen Mitteln um diese Ungenauigkeiten auszugleichen!
Wie oft CB die Messungen wiederholt, habe ich im Artikel nicht gefunden....das muss noch ergänzt werden.
Und den Unterschied der GPUs, die 39,9 und 40,1FPS, machen wird man auch mit der besten Genauigkeit nicht fair bekommen.
Selbst wenn die frametimes den genau gleichen Verlauf haben, sieht die 40.1FPS GPU viel besser aus, weil der dritte frametime genommen wird.

Da kann man auch gleich hingehen und immer den allerschlechtesten frametime nutzen....um einzelne/nicht reproduzierbare Ausreißer zu eliminieren müsste man z.B 5 Mal messen und dann den Mittelwert aus den drei besseren schlechtesten frametimes bilden....oder nur den besten dieser 5...irgendwie sowas.

Genau und super reproduzierbar bekommt man auch das nicht, es eliminiert aber das Problem der Sprünge von percentile Stufe zu Stufe.

Und dann ist da noch die Möglichkeit der 1%low frametimes.... Das ist die Namensgebung, die HW unboxed und gamers Nexus nutzen..... Dabei wird ähnlich zu den 99th percentile werten eine Grenze zu den schlechtesten 1% der frametimes gebildet, aber dann nicht der nächstgrößere frametime ausgegeben sondern der Mittelwert dieser 1% .

Das beinhaltet zwar wieder mögliche Ausreißer, aber es ist längst nicht so abhängig von dem exakten Grenzwert... Die Schwankungen in diesem Grenzbereich werden besser weggemittelt.

Gamers Nexus sagt sie messen erstmal drei Mal...und dann machen sie so viele Messungen, bis die Standardabweichung gut genug sind.... Und sie geben diese auch als Fehlerbalken an!

Ich mache inzwischen min 6-7 Messungen....
Dann verwerfen ich die erste Messung, da diese immer problematisch ist... Und je nachdem ob die Dateigrößen (am zweiten Monitor) stabil bleiben oder einen Trend zeigen, mache ich so lange Messungen bis ich 5 passende Messungen ohne Trend oder Ausreißer habe.
Diese 5 Messungen werte ich dann automatisch aus und aus den 5 Statistiken werden nur die drei besten Werte gemittelt. So können auch bis zu zwei Messungen Ausreißer haben und die 1%low frametimes sind davon nicht betroffen....ob 39,9 oder 40,1FPS macht selbst bei nur 25s kaum einen Unterschied weil es darum geht, ob über 10 oder 11 frametimes gemittelt wird.

Und wenn mir das nicht reicht oder ich Zweifel an den Messungen habe, mache ich das an einem anderen Tag erneut.... Und mittle dann die drei besten aus der einen Messserie mit den dreien aus der anderen Messserie..... Das ist natürlich abartig viel Arbeit, aber wenn es darum geht, ob Option X 0,5% oder 1%
Besser/schlechter ist, kann man das bei Spieletests gar nicht anders auflösen.

Und wenn man es nicht auflösen kann, dann sollte man das durch Fehlerbalken kennzeichnen.

Naja...viele Worte....ich hoffe man konnte mir folgen und CB verrät zumindest wie oft sie messen und mitteln.
 
Ich finde die Idee mit den savegames auch super. Vor Allem auch für Leute die gerne übertakten. Sonst muss man immer ewig suchen um reviews zu finden mit vergleichbaren ingame Benchmarks.

Also vielen Dank dafür.
 
  • Gefällt mir
Reaktionen: Baal Netbeck
Würde mir wünschen, dass bei den Benchmarks in UHD auch immer noch die maximalen Detail Settings getestet werden. So hat man einen Einblick ob es wirklich schon unspielbar ist. Mir persönlich ist das wichtig, kann nicht verstehen warum UHD noch immer wie eine Nische behandelt wird. Egal ob im TV oder am Rechner ich hab alles auf 4K oder UHD (je nach Inhalt). Und ja hab bis heute immer wieder Ärger mit irgendwelchen Settings. Von der Performance ganz zu schweigen...

Ich fände es jedenfalls schön und vielleicht bin ich damit nicht alleine.
 
  • Gefällt mir
Reaktionen: Baal Netbeck und Esenel
Falls es wen interessier: F1 2018 ist gerade im Steam Sale.
 
  • Gefällt mir
Reaktionen: Baal Netbeck
Sun-Berg schrieb:
F1 2018 ist gerade im Steam Sale.
Habe es mir gekauft...wollte auch den CB Benchmark nachstellen, aber mei mir funktioniert es nicht.

Ich habe die xml Datei von CB heruntergeladen...die Grafiksettings ingame eingestellt und das File im Benchmark Ordner des Spiel abgelegt...mit der Steam Startparameter Option aufgerufen und es startet auch ein Benchmark in Melbourne bei clarem Wetter...aber ich bin nicht Hamilton und nicht grid pos 15....ich starte als Vettel von der 1....da habe ich natürlich keine Autos vor mir und damit sind meine FPS zu hoch.


Hat noch jemand dieses Problem... oder weiß jemand was ich falsch mache?
 
Bei mir läufts.

Als startparameter: "-benchmark a.xml" ohne Anführungszeichen eingegeben und es läuft.

Ich habe übrigens 112,6 FPS average mit meinen Einstellungen. Ich denke mal, mein 1700X limitiert da etwas im Vergleich zu CB.
 
Sun-Berg schrieb:
Als startparameter: "-benchmark a.xml" ohne Anführungszeichen eingegeben und es läuft.
Und der Benchmark positioniert dich auch im Wagen auf Startplatz15?
Und wechselt er bei dir die Kamera oder nicht.

Bei mir Starte ich halt von Platz1 und die Kamera wechselt wärend des Benchmarks....im CB Video dazu nicht.
Ergänzung ()

..Ich habe Dirt Rally 2.0 probiert....in 1440p ziemlich CPU limitiert.
Der wechsel von 2133 auf 3466MHz Ram hat die FPS von 62 auf 86 angehoben.....Ähm....wo ich das ein brauchbarer GPU Benchmark?
 
@Baal Netbeck : Genau. Als Louis Hamilton auf Startplatz 15. Irgendwie scheint er bei dir die Datei nicht zu lesen.

edit: Er wechselt die Kamera genau so wie in dem Video von CB.

du hast es wahrscheinlich schon gemach, aber evtl. muss man erst das Spiel normal starten und ein Profil anlegen. Wäre eine Möglichkeit, warum es nicht läuft.
 
Zuletzt bearbeitet:
Sun-Berg schrieb:
Ich habe übrigens 112,6 FPS average mit meinen Einstellungen. Ich denke mal, mein 1700X limitiert da etwas im Vergleich zu CB.
Ich werde es noch weiter versuchen, aber irgendwas funktioniert da nicht.....in SotTR auch nicht.


Und ich habe mit dem falsch laufenden Benchmark 111FPS in 1440p.
CB hat da 96.9 gemessen.

Die CB Ergebnisse kann ich entweder gar nicht, oder nur sehr grob nachstellen.

Ich habe natürlich eine andere CPU, aber in super GPU limitierten Szenen wie Hitman 2, passt es auch nur solala.
 
Meine Werte sind in 1080p auf meiner Vega 64 mit optimierten Speichertimings und UV/OC auf 0% PT.

Wenn ich ihn auf die Pole stelle kommen 130,7 FPS Average raus. Das wären glatte 16% mehr FPS, von meinen vorherigen 112,6 FPS von Position 15 aus.

In der a.xml einfach grid_pos="15" auf grid_pos="1" gesetzt.



edit: Dirt Rally 2.0 ist mir etwas zu teuer, nur für den Benchmark. Spielerisch reicht mir Dirt Rally noch vollkommen aus.

Reicht für den Benchmark bei Hitman 2 eigentlich das Miami Package für 11,99€ ?
 
  • Gefällt mir
Reaktionen: Baal Netbeck
Sun-Berg schrieb:
Irgendwie scheint er bei dir die Datei nicht zu lesen.
Ja glaube ich auch....wo hast du den Ordner gefunden? nicht, dass ich mit dem falschen hantiere.
 
@Baal Netbeck :

D:\***\Steam\SteamApps\common\F1 2018\benchmark
 
Sun-Berg schrieb:
D:\***\Steam\SteamApps\common\F1 2018\benchmark
Ja den hatte ich auch...mein Fehler waren die "kleiner/Größer"Zeichen bei den Startparametern... blöd von mir...Danke für deine Hilfe! :)
Ergänzung ()

Jetzt 95.9FPS ....CB hat 96.9 gemessen...das passt ganz gut.
 
  • Gefällt mir
Reaktionen: Esenel und Sun-Berg
Das mit dem selbst reproduzieren ist wirklich Klasse.
Danke nochmal dafür. @Wolfgang

Die +25% in Metro durch mein PT waren wieder nachstellbar.
 
  • Gefällt mir
Reaktionen: Sun-Berg
Sun-Berg schrieb:
Dirt Rally 2.0 ist mir etwas zu teuer, nur für den Benchmark. Spielerisch reicht mir Dirt Rally noch vollkommen aus.

Ich habe über 500 Stunden in Dirt Rally versenkt.... Da war der zweite Teil ein Pflichtkauf, aber es konnte mich nicht so richtig fesseln.

Im ersten Teil habe ich mit verschiedenen Autos die Meisterschaften gemacht ..nicht weil ich die KI sinnvoll fand, aber ich habe mich nach jedem rennen mit dem online Leaderboard und meinem extra dafür hinzugefügten 60+ Steam Freunden verglichen... Und dann die daily Events.... Und ein paar Events die extern organisiert waren.... Das hat viel Spaß gemacht.

Jetzt in 2.0 war das FFB schlecht und der Vergleich mit den Freunden fehlt mir.(Edit: Vergleich ist jetzt drin, aber erst nachdem man schon auf weiter geklickt hat)
Von der Physik bin ich zufriedener, aber von Gefühl und der Motivation nicht.
Sun-Berg schrieb:
Reicht für den Benchmark bei Hitman 2 eigentlich das Miami Package für 11,99€ ?
Die Testszenen ist in whittleton creek...glaube so heißt das ;)

Miami hilft dir nicht... Da war der CB CPU Test, wobei ich beim durchtesten die CPU in Mumbai und marrakesh deutlich wichtiger fand...
 
Zuletzt bearbeitet:
Dass das gleichzeitig auch schneller bzw besser ist, gilt aber für die Frametimes.
Da ihr es in FPS umrechnet, also invertiert, müsste das Perzentil auch invertiert werden.
Bei Frametimes sind es 99,8%: 0,2% der Werte sind höher, also schlechter.
Bei FPS sind es 0,2%: 0,2% der Werte sind niedriger, also schlechter.
Aber ist das nicht genau das, was im Text steht? Also 99,8 Prozent aller Messwerte sind höher/besser (umgerechnet in FPS) als der angegebene Wert. Das besagt natürlich zugleich, dass 0,2 Prozent eben niedriger/schlechter sind. Wie rum ich das jetzt schreibe, ändert ja eigentlich nichts, solange ich das besser/schlechtere mit ändere. Währen die Diagramme in Frametimes, wäre es natürlich genau anders herum.

Bitte bei Metro die Informationen der Settings um Bewegungsunschärfe Hoch und Shader Rate 1 im Text ergänzen ;-)
Done

Trotzdem...Ich habe euch oft vorgeworfen, bei den CPU Tests Szenen gewählt zu haben, die gar nicht die CPU kritischen Szenen zeigen.... Jetzt habe ich den Eindruck ihr habt so manchen Titel/ Szene dabei, die im GPU Test die CPU lästigen Titel/Szenen nutzen
Ich suche Testszenen normalerweise nicht explizit danach aus, ob es ein CPU- oder GPU-Limit gibt. Das mache ich nur selten. Hitman 2 ist so ein Fall, wo es gerne zwischen beiden Extremen schwankt.

Genau und super reproduzierbar bekommt man auch das nicht, es eliminiert aber das Problem der Sprünge von percentile Stufe zu Stufe.
Anders als FPS sind Frametimes leider nicht super reproduzierbar. Egal, ob man diese als Verlaufsdiagramm oder in irgend einer Zahl angibt. Letztere ist dabei sicherlich nicht optimal, da geben ich dir völlig recht. Nur wie du richtig geschrieben hast, müssen wie den Messwert nunmal der Masse präsentieren. Bei einem richtigen und detaillierten Verlaufsdiagramm würden mindestens 99 Prozent der Leser sofort aussteigen.

Die Erfahrung mit dem neuen Parcours hat gezeigt, dass es Spiele gibt, die bezüglich der Frametimes empfindlich sind. Manche Spiele bekommen die fast genauso reproduzierbar hin wie FPS, andere dagegen schwanken ganz gerne mal. Andere haben beim ersten Run Probleme und beim zweiten nicht mehr, andere dagegen immer. Darum schonmal das 99,8th anstatt 99,9th das entschärft das ganze ein wenig. Manchen Spielen reicht das halt leider nicht und in denen sorgen wir dann, dass alle Grafikkarten den Test auf genau die gleiche Weise durchlaufen (1 Run, 2 Run oder was auch immer). Wichtig ist es schlussendlich, dass die genommenen Ergebnisse danach gut reproduzierbar sind.

..Ich habe Dirt Rally 2.0 probiert....in 1440p ziemlich CPU limitiert.
Der wechsel von 2133 auf 3466MHz Ram hat die FPS von 62 auf 86 angehoben.....Ähm....wo ich das ein brauchbarer GPU Benchmark?
Ja, Dirt Rally 2.0 braucht schon was CPU, zeigt auf dem Testsystem aber auch in Full HD bei den schnellen Grafikkarten noch eine gute Skalierung.
 
  • Gefällt mir
Reaktionen: Esenel
Zurück
Oben