HD5850 CF verursacht BSOD

GerHarsesis

Ensign
Registriert
Apr. 2011
Beiträge
139
Hallo Zusammen,

ich habe Probleme mit meinen Grafikkarten bzw. es könnte sein, das es sich um ein Problem mit einer der Karten handelt. Ich habe zwei identische Sapphire HD5850 Toxic im verbaut. Lasse ich das System mit deaktiviertem CF laufen (in Catalyst deaktiviert) habe ich keinerlei Probleme und das System läuft stabil. Sobald ich jedoch das CF aktiviere ist es alles andere als Stabil, ab und an raucht der Treiber ab, z.B. BF3 stürtzt ab oder ich erhalte BSOD's.

Mit der Primären Karte im verbund hatte ich nie Probleme, die zweite hat jedoch vorher (als diese noch einzeln lief) vereinzelt auch Probleme uns BSOD's verursacht. Wie kann ich am besten feststellen ob es sich um einen HW Fehler handelt?

Die Probleme traten das erste mal auf, nachdem ich AMD Overdrive die "Problem-Karte" automatisch habe übertakten lassen, ich habe die befürchtung, dass dabei etwas flöten gegangen ist!

Den Minidump des heutigen BSOD's habe ich angehängt.

Danke im Vorraus!
 

Anhänge

> die zweite hat jedoch vorher (als diese noch einzeln lief) vereinzelt auch Probleme uns BSOD's verursacht. Wie kann ich am besten feststellen ob es sich um einen HW Fehler handelt?

Wenn die zweite alleine nicht läuft, läuft sie im Crossfire zweimal nicht. Problem gelöst.
 
Wie wäre es mit einem Reset der Karten auf default Einstellungen? Und wie sehen den die ganzen Temperaturen aus? (GPU-Z) Neuste Mainboard/GPU Treiber drauf? Wenn du die Karte die der Übeltäter sein soll einzeln @default betreibst hast du da auch BSOD?
 
Hallo zusammen und danke für die schnellen Antworten :),

Also erstmal zu den restlichen Komponenten:
MB: Gigabyte Z68XP-UD3
CPU: i5 2500k (gekühlt von H80)
Netzteil: Corsair AX650


Wenn ich die Karten im CF laufen lasse und mit MSI Kombobustor Stresse, bekomme ich nach wenigen Minuten einen BSOD, Temperatur liegt bei den Karten dann so um die 72-74°, die Restliche HW bleibt dabei weit unter allen Werten die man als alamierend bezeichnen könnte.

Was meinst du mit einem Reset der Karte? Beide Karten laufen auf Standart-Werten!

Die zweite Karte läuft schon alleine, nur wenn sie gestresst wird treten vereinzelt und unvorhersehbar probleme auf, aber reicht das um zu sagen das es an der HW liegt?
 
Also wenn es bei der 2. Karte einzeln schon zu Problemen kommt, haben wir den Verursacher doch gefunden.
 
Also wenn du sagst dass es bei der einen zu sporadischen Problemen kommt und bei der anderen nicht, dann hast du die antwort ja schon da liegen!
Entweder eine geht, oder eben nicht.
Erst recht nicht wenn sie dann im verbund sind
 
Naja, wenn die zweite Karte alleine Probleme verursacht, verursacht sie diese auch im CF
 
Ok danke für eure Antworten, dann werde ich wohl mal versuchen das ganze über die Garantie abzuwickeln, hat einer von euch erfahrungen mit Garntiefällen bei Mindfactory bzw mit Sapphire?
 
Wie hoch die Temperatur der GPU ist , ist nebensächlich. In GPU-Z hast du mehr Messpunkte, wenn du da ein Messpunkt über 80 oder 90°C hast dann weißt bescheid woran es liegt. Falls alles auch hier im grünen Bereich liegt und die Karte einzeln im System unter Last ebenfalls BSOD produziert, dann könnte es ein HW Defekt sein, es könnte aber immer noch an den Treibern liegen.
Einzeln machen die Toxics bis zu 1000 MHz GPU Core Clock mit, Vcore kannst bei den Karten ey nicht umstellen. Das du hier also etwas durch das Autotuning geschrottet hast bezweifele ich. Wenn du lustig bist kannst du ja mal die Crossfire Brücke entfernen und dann mal beide Karten so mit Furmak stressen.
Dann kannst du auch mal gleich mit Sapphire Trixx nachschauen ob der Treiber doch nicht der Meinung ist das er an einer der Karten was verstellen muss. Das macht overdrive nämlich gerne. Wenn ich meine GPU RIG neustartet muss, muss ich zuerst per CATA oder Trixx alle GPUs reseten und kann sie erst dann übertakten obwohl ich keine Crossfire Brücken nutze.

Edit:
Mindfactory nicht aber Sapphire und du wirst keine Toxic mehr bekommen.
 
Ich werde mir das ganze mal anschauen, wobei das natürlich ziemlich ärgerlich ist wenn ich nicht die gleiche Karte noch einmal erhalten werde. Ich denke ein CF aus verschiedenen Karten wird doch etwas problematisch, da habe ich ja schon viel schlechtes gelesen. Mein CF läuft (wenn es denn läuft) ziemlich gut ohne Microruckler oder ähnliches...
 
Wie gesagt schau nach ob overdrive deine Einstelllungen die du mal irgendwann vorgenommen hast immer noch für die Karte übernimmt, das Problem hab ich nämlich ständig und zwar ohne Crossfire. Einfach mal Sapphire Trixx installieren und nach gucken eventuell auch mal ULPS ausmachen oder wie das heisst.

Eine HD5850 wirst du auch nicht kriegen, wenn die Karte defekt ist, dann kannst du dich direkt von deinem CF verabschieden, die HD5850 wird nicht mehr hergestellt. Mich hat man bei Sapphire/Amazon 3 1/2 Monate hingehalten und mir immer wieder eine Toxic versprochen, letzendlich habe ich ne Gutschrift bekommen.
 
Also ich habe gerade mal nachgeschaut, Trixx zeigt für beide Karten einen Core Clokc von 765 und einen Memory clock 1125 an, sollte standart sein? Ich habe den Kombustor nochmal laufen lassen und dabei festgestellt das bei einer Karte die Temperaturen doch höher sind als angezeigt, die Spitzentemperatur lag bei 84 C° bei einer der Karten, die andere erreicht maximal keine 80. Könnte das evlt. das Problem sein?

Edit: Diestmal ist Kombustor nach 5 minuten "nur" abgestürtz, es gab also keinen BSOD, das system hing nur kurz und dann ging es problemlos weiter!
 
Hast du die Werte mit GPU-Z ausgelèsen oder ist das die Temperatur der GPU die dir in Trixx oder so angezeigt wird? Falls 84°C nur die GPU Temperatur ist, dann könnte es sein das ein Messwert in GPU-Z weit über 90° C ist, da musst du dich nicht über BSOD wundern.
Für mich klingt das bei dir sehr stark nach Temperatur Problemen.
Schau dir mal meine 3 Karten an. Open RIG, zwischen den Karten sind jeweils 4 Slots Abstand.

Sapphire HD5850 Xtreme

Gigabyte HD5850 OC

Sapphire HD6950 Dirt 3
 
Also die Werte habe ich mit GPU-Z ausgelesen. Die Genannten werte sind jeweils die Maximal gemessenene (Bei mir Messwert 2), dieser ist auf der heißeren Karte maximal um 84 C°. Die andere Pendelt irgendwo bei 79°.
 
Hi, ich habe gerade mal Furmark laufen lassen, seltsamerweise lief dies 20 Minuten Problemlos durch ohne irgendwelche mucken, standarteinstellung + 8x MSAA, Avg. 13 Frames, beide GPU's zwishcen 90 und 99% auslastung, Temperatur Spitze 86,0 C° am heißesten Messpunkt, noch irgendwelche ideen?
 
Eine Ursache könnte der Z68 sein, wenn ich mir das Board anschaue dann wird der Kühlkörper vollständig von beiden Karten abgedeckt. Guck mal mit HWMonitor oder mit Tools von Gigabyte wie warm der Chipsatz wird wenn du beide Karten unter Last hast. So ab 60°C aufwärts produziert der nämlich auch gerne solche Fehler und man denkt es ist die GPU.
 
Wenn's weiter hilft, hier ist deine CrashDump Auswertung:
Code:
*******************************************************************************
*                                                                             *
*                        Bugcheck Analysis                                    *
*                                                                             *
*******************************************************************************

VIDEO_TDR_FAILURE (116)
Attempt to reset the display driver and recover from timeout failed.
Arguments:
Arg1: fffffa8006dc1010, Optional pointer to internal TDR recovery context (TDR_RECOVERY_CONTEXT).
Arg2: fffff8800400780c, The pointer into responsible device driver module (e.g. owner tag).
Arg3: 0000000000000000, Optional error code (NTSTATUS) of the last failed operation.
Arg4: 0000000000000002, Optional internal context dependent data.

Debugging Details:
------------------


FAULTING_IP: 
atikmpag+780c
fffff880`0400780c 4883ec28        sub     rsp,28h

DEFAULT_BUCKET_ID:  GRAPHICS_DRIVER_TDR_FAULT

CUSTOMER_CRASH_COUNT:  1

BUGCHECK_STR:  0x116

PROCESS_NAME:  System

CURRENT_IRQL:  0

STACK_TEXT:  
fffff880`07b98918 fffff880`05337000 : 00000000`00000116 fffffa80`06dc1010 fffff880`0400780c 00000000`00000000 : nt!KeBugCheckEx
fffff880`07b98920 fffff880`05336d0a : fffff880`0400780c fffffa80`06dc1010 fffffa80`06d7ad50 fffffa80`090ef010 : dxgkrnl!TdrBugcheckOnTimeout+0xec
fffff880`07b98960 fffff880`0480ff07 : fffffa80`06dc1010 00000000`00000000 fffffa80`06d7ad50 fffffa80`090ef010 : dxgkrnl!TdrIsRecoveryRequired+0x1a2
fffff880`07b98990 fffff880`0483dd5a : fffffa80`ffffffff 00000000`00003c72 fffff880`07b98af0 00000000`00000002 : dxgmms1!VidSchiReportHwHang+0x40b
fffff880`07b98a70 fffff880`0480b29e : fffffa80`090ef010 ffffffff`feced300 fffffa80`06cded50 00000000`00000000 : dxgmms1!VidSchWaitForCompletionEvent+0x196
fffff880`07b98ab0 fffff880`04837e7a : 00000000`00000000 fffffa80`070df010 00000000`00000080 fffffa80`090ef010 : dxgmms1!VidSchiScheduleCommandToRun+0x1b2
fffff880`07b98bc0 fffff800`03d26fee : 00000000`fffffc32 fffffa80`09130620 fffffa80`06a0b040 fffffa80`09130620 : dxgmms1!VidSchiWorkerThread+0xba
fffff880`07b98c00 fffff800`03a7d5e6 : fffff800`03c01e80 fffffa80`09130620 fffff800`03c0fcc0 00000000`00000000 : nt!PspSystemThreadStartup+0x5a
fffff880`07b98c40 00000000`00000000 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KxStartSystemThread+0x16


STACK_COMMAND:  .bugcheck ; kb

FOLLOWUP_IP: 
atikmpag+780c
fffff880`0400780c 4883ec28        sub     rsp,28h

SYMBOL_NAME:  atikmpag+780c

FOLLOWUP_NAME:  MachineOwner

MODULE_NAME: atikmpag

IMAGE_NAME:  atikmpag.sys

DEBUG_FLR_IMAGE_TIMESTAMP:  4e95eae3

FAILURE_BUCKET_ID:  X64_0x116_IMAGE_atikmpag.sys

BUCKET_ID:  X64_0x116_IMAGE_atikmpag.sys

Followup: MachineOwner
---------
Demnach wird der Bluescreen durch die 'atikmpag.sys' verursacht.
 
Hallo ihr beiden,

@distrophik: Das hat mir WhoCrashed auch bereits verraten aber kann man daraus auf einen genauen Verursacher schließen?

Ich habe nun nochmal 10 min Kombuster laufen lassen (da ist er vorher ja bereits immer abgestürtzt) nun lief er problemlos durch, dabei hat er wieder neue Maximalwerte gesetzt, die Chipsatz Temperatur hat dabei jedoch 46 C° nicht überschritten, ich habe mal nen screenshot angehängt!
 

Anhänge

  • CF_Bench_1.jpg
    CF_Bench_1.jpg
    228,5 KB · Aufrufe: 152
Zurück
Oben