Test Test: Grafikkarten mit PCIe

Super Artikel! Diese Frage stellten wir uns doch alle schon lange!
Was auch noch mal interessant wäre:
Wie verhält es sich in Sachen Zuverlässigkeit und Lebensdauer des Mainboards, wenn man die CPU statt mit einem Lüftkühler mit einer WaKü kühlt - denn die Spannungswandler und Co um die CPU herum haben ja dann "keinen Wind" mehr....
 
Ein vergleich mit PCIe 1.0 x16 wäre interessant gewesen um zu sehen ob sich der umstieg auf ein neues Board lohnt (z.B. Z68 Chipsatz,...)...bzw. lohnen wird es sich allemal aber der voraussichtliche Performancegewinn wäre mehr als interessant. Ich nutze zum Beispiel noch ein ASUS P5W DH Deluxe mit PCIe der ersten Generation :)
 
Interessanter Test. Kann mich mühsam erinnern, vor 5 Jahren schonmal sowas gelesen zu haben und wollte schon immer wissen wie das mit aktueller Hardware aussieht.

Erwartet hätte ich alle Frameverläufe wie bei "Just Cause 2 / GTX570", dass die Geschwindigkeitsspitzen abgeschnitten werden. Aber interessanteweise ist der Performanceeinbruch nahezu gleichmäßig übers Spielgeschehen verteilt.

Mein Fazit: ich kann das uralte AsRock Dual-VSTA mit PCIe-1.0 x4 noch gut nutzen :evillol:. Das eine Top-Ten-Grafikkarte mehr Leistung einbüßt als eine ohnehin langsame Karte ist ja gewissermaßen absehbar.
 
Sir_Sascha schrieb:
@Kasjopaja: Die Dual GPU Karten wurden doch auch getestet... oder habe ich da jetzt nen anderen Artikel gelesen? Stand ziemlich weit am Ende...

Merlin-.- schrieb:
Jep, wurde getestet und ich hab's 3 Beiträge über ihm auch kommentiert. Einfach mal lesen, was die anderen schreiben, statt nicht mal zu lesen, was der Redakteur schreibt...:rolleyes: :lol:

@Sir_Sascha
Danke für die Info, Leider nur Simuliert. Evtl. mal andere Hardware nutzen. Nicht jeder nutzt Sandy. Man hätte das unter ner Separaten Kategorie haun können. So für die CPUs die den Controller intern haben wie der 1156

@Merlin-.-
No, Comment. Ohne dich wäre das Board ja völlig aufgeschmissen. :rolleyes:
 
Schöner und aufschlussreicher Test, nur eine Sache verstehe ich nicht so ganz: Wieso kann eine Dual-GPU, die 1x über x16 an das Board angebunden und dann intern nochmal (irgendwie) miteinander verbunden ist, eine doppelte x16 Anbindung zweier Einzelkarten simulieren*? Ich hätte jetzt eher erwartet, dass eine Dual-GPU die mit x16 ans Mainboard angebunden ist, effektiv zwei Einzelkarten mit jeweils x8 Anbindung entspricht? Damit jede GPU auf ner Dual-Karte die volle Anbindung (jeweils x16) ans Mainboard bekommt müsste der Bus doch mit x32 laufen?

*Taktraten entsprechend angepasst, mir gehts nur um die Bandbreite der Anbindung zum Mainboard
 
@Kasjopaja
Ja, so ist das eben mit den Unverzichtbaren... löl

Was mich auch mal interessieren würde ist, inwiefern der PCIe-Transport bei VRAM-Mangel wichtig wird. Also den VRAM mit einem Dummy-Programm zu x% belegen und dann für einen Überlauf/PCIe-Auslagerung sorgen.
Dann würden die "dünneren" Interfaces sicherlich mehr einbrechen.
 
HighTech-Freak schrieb:
Ha! :lol: Sogar PCIe x4 reicht idR... Nix für ungut, aber 5% merkt man nicht. Dann sind statt 20fps 19fps, bzw. statt 60fps nur 57fps. Irrelevant.

Ich wäre in diesem Forum vorsichtig bei solchen Äußerungen - nicht wenige kaufen sich wegen 5% Leistungssteigerung neue Grafikkarten im 200€-Berech. :rolleyes:
 
War doch schon bekannt dass PCIe 16x "nix" bringt. Aber schön das ganze mal schwarz auf weiß zu sehen, damit man ein Argument gegen die "PCIe1.0 kostet dir die halbe Performance"-Trolle in der Hand hat.

Meine Erfahrung ist übrigens ähnlich. Ich hab beim Wechsel von einer GTX 460 auf einem G31 Board (PCIe 1.0) zu einem P45 (PCIe 2.0) ca. 2% Performanceverbesserung gesehen.

mfg
 
Sehr schöner Test :daumen:
Aber kann mir jemand erklären warum bei Crysis 2 die Single-Karten bei 16xAF mehr FPS als mit 1xAF haben?
 
netter test der eigentlich das bestätigt was grossteils erwartet wurde:
solange genug speicher auf der grafikkarte zur verfügung steht müssen relativ wenig daten über dem bus, ein paar daten von den cpu berechnungen und gerade mal ab und zu eine neue textur wenn ein neues objekt im bildbereich auftaucht.
in diesem bereich macht die transferrate relativ wenig unterschied sogar x1 kann noch relativ gut mithalten. je öfter das texturnachladen passiert und je grösser die texturen sind desto mehr vorteil bringt die schnellere schnittstelle. irgendwo zwischen x8 und x16 kommen aber dann wieder andere limitierende faktoren ins spiel und der flaschenhals verlegt sich höchstwarscheinlich darauf dass das system die daten gar nicht schnell genug bereitstellen kann um den x16 bus wirklich auszulasten. (wenn man überlegt dass der hauptspeicher schon eine multichannel anbindung benötigt um überhaupt diese transferraten zu erreichen und das die cpu auch daten vom hauptspeicher braucht ist das aber auch irgendwie verständlich, was nahelegen würde das der flaschnehals dann im speichercontroller oder im hauptspeicher selbst sitzt). so gesehen macht die neue pci spec momentan keinen wirklichen sinn (ausser dass man mit pci3 sogar mit x4 gut auskommen sollte).
 
Vielleicht ist es noch zu früh für mich, aber die Liste, als die angesprochene Geschwindigkeit von PCIe ist meines Erachtens falsch. PCIe 1.0 mit 1 Lane bringt theo. 250MB/s und nicht 500MB/s. Das bedeutet auch, das alle weiteren Angaben im Artikel ebendso halbiert werden sollten. (s. bspw. Wikipedia zu PCI Express)

PS: Ich hab diesbezüglich schmerzlich feststellen müssen, das meine tolle SATA3 Karte bei PCIe 1.0 und einer Lane langsamer als SATA2 ist. Selbst PCIe 2.0 wäre zu langsam für den Standard.

EDIT_PS: Sehe gerade, das anfangs von "Hin- und Rückkanal zusammen" geschrieben wird. Dementsprechend wären die Angaben richtig, jedoch auch arg irreführend.
 
Zuletzt bearbeitet:
Hatte mir erst vor einer Woche mit einem Kumpel den Kopf darüber zerbrochen, warum Intel nur beschränkte Lanes verfügbar macht und was das für die Leistung bedeutet... Super Artikel, alle Fragen geklärt =)
Merci!
 
So ganz zustimmen kann ich nicht. Ich habe ein T-SLI mit GTX 580er unter einem Nforce 790i betrieben, hier hat man den Unterschied zu meinem jetztigen Evga 4-Way-SLI doch schon bemerkt. Wobei hier anzumerken ist, daß unter Nforce 790i die ersten 2 Slots PCIe 2.0 sind, und der 3.Slot 1.1. Hier wurde die ersten beiden Karten gar nicht richtig belastet, währen die 3.Karte im 3.Slot durchschnittlich 30-40 höher belastet wurde.

Wer dsa mal nachverfolgen möchte, hier der Thread im 3D-Center dazu.

Unter reiner PCIe 2.0-Anbindung ist, wie hier richtig bemerkt wurde, die Situation entspannter. Hier ist der Unterschied bei einer 16x/16x/8x-Anbindung bei T-SLI nicht deutlich und kann vernachlässigt werden.
 
Zuletzt bearbeitet:
@hillo01

Hi,
dies habe ich auch gerade beim Lesen des Testes gedacht.
Eine Dual-GPU im X16er Slot, die kann doch nur höchstens mit 2X8 ihre Daten verschicken.
2 echte X16er Slots mit 2 Solo-GPUs wären da schon angebrachter, von mir aus auch im Vergleich mit einer Dual im einzelnen 16er.

mfG Gucky
 
Die Ungenauigkeiten der "Simulation" dürften in der Summe sogar größer sein, als die dann im "Test" ermittelten geringen prozentualen Unterschiede. Das ist leider Äpfel mit Birnen vergleichen, denn ein Z68X UD7 hat beispielsweise 2 echte @16-Lanes und hätte statt einer Simulation wenigstens echte Ergebnisse gebracht. Wie kann man überhaupt auf den Gedanken kommen, mit einem derart bescheidenen Mittelklasse-Unterbau und zwei beschnittenen DualGPU-Boards solche Aussagen treffen zu wollen? Das ist Taschenspielerei.

In einigen Kommentaren wurden bereits echte Tests mit realer Hardware verlinkt. Ich würde mich eher daran halten.
 
Einen ähnlichen Test - mit ähnlichen Ergebnissen - gabs vor Jahren schon einmal (c't). Bis heute also hat sich scheinbar nicht viel verändert. Aber warum? Wenn wir uns einmal überlegen, daß es einigen selbsternannte Experten gar nicht schnell genug gehen kann, auf PCIe 3.0 umzurüsten, weil angeblich die Bandbreite der jetzigen Graphikkarten mit 16 Lanes am Anschlag sei (man muß nur die Hallen dieser Plattform leuchtender Beispiele durchforsten!), so scheint doch dieser Test genau das Gegenteil zu behaupten! Aber überlegen wir doch einmal genauer. Was sehen wir eigentlich?

Der Tester hat es bereits geschrieben. Die verfügbare Speichermenge auf der Graphikkarte ist offenbar eine Schlüsselgröße. Offenbar brechen die Graphikkarten genau dann ein, wenn Texturen oder andere Daten vom "Host", also vom Hauptspeicher, zum "Device", also zur GPU, transferiert werden muß. Je nach Architektur und Verfahren, wie Daten im VRAM komprimiert abgelegt werden, hat nVidia oder AMD wechselseitig mal hier, mal dort die Nase vorn.

Überlegen wir weiter. PCIe-Rootkomplexe und die entsprechende Zahl Lanes sind offenbar teuer und lassen die Gewinnmargen der Hersteller von Platinen schrumpfen. Andererseits sehe ich seit 6 Jahren durchweg auf Spielzeugplatinen für den Heimgebrauch 2x 8 Lanes als
Maximum für den Einsatz von zwei Graphikkarten. Die Frage ist jetzt die: passen die Graphikkartenhersteller die maximale Leistung ihrer Produkte an diese Einsparpolitik der Chip- und Platinenhersteller an oder passen sich die Hersteller der Systemplatinen an die technische Limitation der Graphikkarten an? Mein persönlciher Eindruck ist eher letzterer.

Überlegen wir weiter. Angenommen, die derzeitige GPU Technik setzt insgesamt gewisse Limitationen, welche den Unterschied zwischen 8x und 16x marginal erscheinen läßt. Dann wäre doch aus vernünftiger Sicht ein Wechsel auf PCIe 3.0 völlig unsinnig, zumindest wäre das Factum ein Widerspruch zur Forderung oder Behauptung der "Experten".

Überlegen wir noch einen Schritt. Wenn also doch der technische Aufwand für eine volle PCIe 16x Bestückung zu hoch ist (ich meine hierbei 2x PEG mit 16x), dann werden die Graphikkartenhersteller gewiß die Karte nicht technisch ausreizbar designen, denn das kostet zuviel und die Anzahl derer, die wirklich zwei volle 16x PEGs mit SLI oder CF bestücken wird, ist marginal.

Und nun Spiele. Angenommen, eine Wechselwirkung aus allen oben genannten Aspekten reduziert die technisch theoretisch mögliche maximale Benadbreite. So werden sich die Treiber- und Spielehersteller gewisse Techniken einfallen lassen, um häufige Transfers zwischen "Host" und "Device" zu reduzieren. Das könnten Kompressionen der Texturen sein, geschickte Speichermanagementgeschichten oder einfach eine Begrenzung der Möglichkeiten zur Qualitatseinstelklung bei Spielen. Wenn der treiber nicht will, kann man einstellen was man will, es passiert nichts.

Nun, es gibt eine ganz einfache Möglichkeit auszutesten, inwieweit auf der technischen Seite die Anzahl der Lanes die Leistungsfähigkeit der GPU ausbremst. dazu darf man allerdings keine Software verwenden, die schon in ihrer Konzeption die Situation am auf Billigs optimierenden Massenmärkte berücksichtigt. Das ist allerdings nur für solche unter uns von Interesse, die an der Technik und an den Möglichkeiten interessiert sind. Wer lediglich zu den Konsumenten zählt, die sich an großen Zahlen aufgeilen (mehr Hubraum, mehr Takt, mehr Lanes, mehr Speicher ... korreliert oftmals diametral zum IQ), interessiert das natürlich wenig. Also, es gibt relativ einfache Möglichkeiten der Vermessung, wie folgt.

Wer via CUDA oder OpenCl schon mal versucht hat, auf Graphikkarten zu rechnen, wird schnell, zumindest unter CUDA, auf das Problem stoßen, daß bei Verwendungung mehrer "Kernel", die parallel auf dem "Device" rechnen sollen, der GPU Speicher (VRAM) recht bescheiden bemessen ist. Jenachdem, was man auf einer GPU rechnet, kann es passieren, daß die 1,5 GB VRAM, die eine GTX580 bietet, gerade mal für zwei Kernel ausreicht. Das ist zum Beispiel dann der Fall, wenn man die Dynamik von Sternenhaufen und ihre entwicklung berechnen will, was meistens mit Partikelzahlen in der größenordnung von x * 10^6 oder x * 10^8 Partikel erfolgt. Wenn man Messungen macht, wie lange sich ein Programm in einer Routine aufhält, die Speichertransfers zwischen dem "Host" und dem "Device" macht, stellt man immer wieder fest, daß in vielen Fällen der gigantische Geschindigkeitsvorteil einer GPU zunichte gemacht wird, weil das PCIe Interface einfach im Verhältnis sehr langsam ist! Wir haben mit einem kleinen Testprogramm ermittelt, daß auf einer TESLA 2050 ein Kernel auf dem Device ca. 10% Zeit benötigt, während der Speichertransfer die restlichen 90% der Rechenzeit insgesamt "gefressen" hat. Wir haben solche Tests nur mit Karten machen können, die via 16x PCIe 2.0 angebunden waren.
Ich denke, es müste für versierte Kenner/Könner/Programmierer via OpenCL/CUDA kein Probem sein, eine simple Dummy-Matrix für einen Kernel so groß zu wählen und iterativ so viele Berechnungen auf einem Datensatz zu machen, um n-mal diese Kernel im Hostspeicher abzulegen und einen neuen Datensatz anzufordern. Dabei sollte der gesamte GPU Speicher gefüllt werden können, um zum einen eine Konkurrenzsituation zu erzwingen, in der das Management zwei oder mehrere Speicherfresser, die alles RAM auf dem Device allozieren, handhaben muß. Mit einem solchen Test könnte man mit großer Sicherheit feststellen, ob nun die Graphikkarte durch den PCIe 8x limitiert wird oder ob einfach der Bustreiber der GPU der limitierende Faktor ist und einfach mehr als 8x Lanes unnütze sind für die Bandbreite, die eine Graphikkarte technisch realisiseren kann. Ich bezweifle nämlich noch immer, daß die dargebotenen Graphikkarten wirklich das PEG-Limit bei 16 Lanes ausschöpfen können, weil die billige Elektronik der Karten und Mainboards einfach zu verrauscht sind, um höhere Bandbreiten zuzulassen.
Der Verdacht wurde ja durch MSI auf der letzten CES erhärtet durch die Behauptung, daß deren LGA11555 Mainboards, die mittels zusätzlicher Elektronik und höherwertiger Bauteile PCIe 3.0 erlauben würden, schon eine 10%ige bis 12%ige Leistungssteigerung mit PCIe-angebundenen SSDs erzielt hätten. Schon heute sind die Preise für "Highend" kaum noch für die gebotene Qualität gerechtfertigt und wenn man sich im Lager der Server- und Workstationausstatter umsieht, sind deren Platinen mit gleicher Ausstattung wie der "Highend" Krempel von ASUS, MSI oder GigaByte sogar günstiger bei bemerkenswert höherer Qualität (Beispiel SuperMicro LGA1366 Platinen). Tritt allerdings das Siegel "SLI" oder ähnlich Lizenzberwertes auf, kostet es gleich mehr (Lizenzen für SLI, CF, HDMI ...).
Ergänzung ()

Dr.Schiwago schrieb:
Die Ungenauigkeiten der "Simulation" dürften in der Summe sogar größer sein, als die dann im "Test" ermittelten geringen prozentualen Unterschiede. Das ist leider Äpfel mit Birnen vergleichen, denn ein Z68X UD7 hat beispielsweise 2 echte @16-Lanes und hätte statt einer Simulation wenigstens echte Ergebnisse gebracht. Wie kann man überhaupt auf den Gedanken kommen, mit einem derart bescheidenen Mittelklasse-Unterbau und zwei beschnittenen DualGPU-Boards solche Aussagen treffen zu wollen? Das ist Taschenspielerei.

In einigen Kommentaren wurden bereits echte Tests mit realer Hardware verlinkt. Ich würde mich eher daran halten.

Ein Sandy-Bridge hat leider nur 16 Lanes im Rootkomplex für den PEG zur Verfügung. Die 2x 16 Lanes können also nur durch einen Multiplexer wie z.B. dem nF200 von nVidia erreicht werden und was man dann mißt (ist eh nur Mist, denn wer viel mißt, mißt Mist und wer nicht mißt, vermißt nacher nichts.), sind die Latenzen dieses Bausteins - nicht aber die Latenzen der echten Peer-to-Peer Verbindung.
Soweit ich weiß, sind die Dual-GPUs auf der Platine durch einen PCIe-16 Lane Komplex miteinander verbunden, der eine niedrige Latenz verspricht. Man müste sich überlegen, wie man diesen vermessen könnte. Wenn man die Bandbreite von und zu einer solchen Dual-GPU Karte über den PCIe vermist, wird man, so vermute ich, mehr die innere Latenz und die Konkurrenzsituation der beiden GPUs um den Host-Bus messen, oder? Das Nadelöhr bleibt ja dann noch immer der PEG. Allerdings teilen sich dann zwei GPUs wieder einen 16x PEG und effektiv hätte man nur 8x Lanes pro GPU, wenn beide GPUs intern mit voller Breite von 16x Lanes miteinander kommunizieren können.

Da die Meßergebnisse aber keine dramatischen einbrüche vermitteln bleibe ich bei meinem Verdacht, daß die bisherig angebotene Technik vielleicht etwas mehr als 8x Pcie 2.0 sättigen/bedienen kann. Ein wichtiger Faktor ist ja bekanntlich auch noch die Crossbar-Switch des Rootkomplexes. PCIe ist meines Wissens eine logische Sterntopologie, bei der jede Lane unabhangig die volle Bandbreite anfordern kann - und das alle zusammen. Der Kreuzungspunkt im Chipsatz oder der CPU muß nun n-mal die Bandbreite einer Lane anbieten können. Wenn ich zwei 16fach Pcie 2.0 PEGs habe, dann muß dieser eben 32 GB/s liefern, denn beide Slots müssen ja unabhängig voneinander operieren können. Sowas wird in diesen Spielzeugtests auch nicht vermessen.

Das ist so, also würde die Auto-BILD ein 2500 PS Leichtbaumotorrad testen wollen und alle nur Ah-Oh-Staunen und Maul offen feil bieten ob der 400 km/h, mit der der Testfahrer sich mit einem Knall, einem Blitz, einem roten Matschpunkt an der nächsten Hauswand und viel Rauch verabschiedet. Daß aber die 2500 PS nicht annähernd auf die Straße gebracht werden können, weil schon bei einer Geschwindigkeit von 400 km/h und dem "leichten" Gewicht der Maschine Effekte in der Luft auftreten, die den "Piloten" fliegen lassen, und das mit einem einsatz von vielleicht 250 PS, ist dann der Physik gezollt ... alles Darüberhinausgehende ist Unsinn und dient nur des Köders für leute, die die Zahl vor PS als das Maß aller Dinge sehen. Wie sagte schon Pythagoras: Die Zahl ist das Wesen aller Dinge ...
 
Zuletzt bearbeitet:
@Eisenfaust

Hi,
es gibt doch nicht nur Grafikkarten, die erst mit einen x16 Port Höchstleistung bringen.
 
Ist der Test, was Multi-GPU betrifft nicht völliger Quatsch?

Soweit ich weiß, kommunizieren bei zwei Karten im CrossFire/SLI-Betrieb diese noch zusätzlich über den PCIe-Port, was bei einer Dual-Karte durch einen Brückenchip erreicht wird. Eine Simulation ist doch somit völlig an der Realität vorbei, was zwei Karten betrifft?
Somit dürfte der Test doch nur zeigen, dass bei einer Dual-Karte quasi kaum Einbußen zwischen PCIe 16/PCIe8x zu befürchten sind?

Ist es somit nicht weiit sinnvoller, den Test bzgl. Multi-GPU somit gscheid zu wiederholen, um hier Gewissheit zu schaffen, ob auch hier PCIe 2.0 8x kaum weniger als 2.0 16x bringt?
 
Zurück
Oben