Ungewöhnliches Setup friert nicht reproduzierbar ein

Deadlock

Lt. Commander
Registriert
Juli 2009
Beiträge
1.478
Moin zusammen,


Vorgeschichte/Einleitung
ich bastle gerne an ungewöhnlicher Hardware und Laptops herum. Ein Kumpel hat mir sein altes MSI GT683DX geschenkt und ich will das Gerät aufgrund der besseren Kühlung gerne anstelle meiner alten Kiste (siehe Signatur) verwenden.
Da die interne GTX 570M auf dem internen Monitor 4x das gleiche Bild, aber in jeweils einer anderen Farbe angezeigt hat und man nichts lesen konnte, habe ich die interne GPU ("dGPU" in der Hardwareliste unten) ausgebaut. Die interne Grafik (unten: "iGPU") des Prozessors kann dieser Laptop nicht nutzen, nur MSI weiß, warum das sinnvoll ist.
Die externe Grafikkarte (1050Ti 4GB, "eGPU" in der Hardwareliste unten) ist über einen mPCIe-Slot mit dem Laptop verbunden. Im mPCIe-Slot steckte vorher die WLAN-Karte. Dadurch bleibt der interne Monitor schwarz, die beiden externen Monitore bekommen ihr Signal von der eGPU.
Immer mal wieder (im Abstand von Minuten, Stunden oder auch Tagen) friert das System ein, die Monitore bekommen kein Signal mehr, der Laptoplüfter dreht noch und nur ein energischer Druck auf den Powerbutton führt zu irgendwelchen Änderungen. Eventuell könnte ich das System mittels Linux-Shell blind kontrolliert herunterfahren. Das werde ich mal testen.
Ausnahme: Memtest86+, das ich mit ESC blind beenden kann, woraufhin der Rechner neustartet.

System
Laptopmodell: MSI GT683DX
CPU: i7 2760QM
RAM: 2x4GB DDR3 1600, 2x4GB DDR3 1333
SSD: Crucial MX500 500GB
eGPU: 1050Ti 4GB
dGPU: defekt und ausgebaut
iGPU: von diesem Laptop nicht verwendbar

Problem
Nicht reproduzierbare Freezes. Die externen Bildschirme werden schwarz und erkennen keinen Input, der Lüfter dreht hoch.
Im Hintergrund scheint ab und an noch Software zu laufen: Vom Discord-Voicechat kommen Schnipsel an und Memtest86+ kann ich mittels ESC beenden und der Rechner fährt neu hoch.
Das Problem tritt unter Windows 10, unter Kubuntu und auch vor dem Laden irgendeines OS unter Memtest86+ auf; bei Spielen, im Idle, im Voicechat und auch einfach mal so. Ich habe bisher keine Systematik feststellen können.
Edit: Ich kann die Freezes mittlerweile reproduzieren, indem ich vom Schreibtisch aufstehe. Komplett bescheuert. Jetzt werde ich das ganze Setup einmal abbauen, alle Kabel checken und schauen, ob das Problem danach noch auftritt.
Unter Windows bekomme ich nach den Freezes Warnungen mit den Ereignis-IDs 4101 und 10016. Reproduzierbar. Der Treiber wird dann neu gestartet und ich kann weiterarbeiten. Unter Linux hilft nur noch ein Neustart.
Edit 2: Das vollständige Ab- und wieder Aufbauen des Setups hat nichts geändert. Behoben habe ich das Problem durch den Austausch eine Steckerleiste, die sich 3m von meinem Schreibtisch entfernt befindet. Warum auch immer.

Troubleshootingversuche und Fehlerquelleneingrenzung
Die CPU, sämtlicher RAM, die GPU und das Netzteil für die GPU liefen vorher rockstable +1 Jahr in der Kiste aus meiner Signatur.
Die CPU wird maximal 85°C warm und die Kühlung hat noch massig Luft.
Ich habe Memtest86+ angeworfen und an beliebigen Stellen oben genanntes Problem bekommen. Mit Prime95 genauso. Ich jage die Riegel gerade nochmal einzeln in der alten Kiste durch Memtest. Bisher keine Fehler.
Das Netzteil des Laptops hat Prime95 in der "max. heat"-Einstellung klaglos geschultert. An "stromhungrigen" Komponenten ist ja auch nur noch die CPU im Laptop, die zieht maximal 50W laut HWmonitor. Der alte Akku ist noch drin und hat noch etwa 50% seiner Nominalkapazität. D.h. ich kann meinen Blackscreen mit zwei Monitoren, die kein Signal bekommen und einem hochdrehenden Lüfter auch ohne Laptopnetzteil genießen. Das macht es für mich unwahrscheinlich, dass es am Netzteil oder am Akku liegt. Ich entnehme mal den Akku und teste ein anderes Netzteil.
Update: Weder ein anderes Netzteil noch ein entnommener Akku haben das Problem gelöst.

Frage
Woran könnte das Problem liegen? Ergibt meine Vermutung eines defekten Mainboards Sinn? Alternativ ein defektes Netzteil?
Was habt ihr noch für Vorschläge und Ideen?


Vielen Dank für eure Hilfe und viele Grüße,

Deadlock
 
Zuletzt bearbeitet:
Deadlock schrieb:
Ergibt meine Vermutung eines defekten Mainboards Sinn?
War auch mein erster Gedanke. Ich würde mal vorsichtig beim Betrieb das Gehäuse belasten. Z.B. mal die Ecken des Notebooks anheben. Freezt das Gerät dann muss es aber auch nicht zwingend das Mainboard sein...
 
Falls du be Schwächere CPU zb nen i5 da hast, probier ob es damit auch auftritt.
Die MSi 16F1 bis 16F4 und 1761 bis 1763 haben ab und an Probleme mit der gleichmässigen Spannungsversorgung der CPU. Dann geht der Laptop allerdings ganz aus.

Steht was in der Ereignisanzeige?
Stromsparfunktionen fuer die PCI Geräte haste ausgeschaltet?

.. und letztlich kann es auch am Board der des Externen PCI-E Steckplatz liegen, wenn nur die GPU aussteigt.
 
@SpamBot : Anheben bzw. Belasten hat keine Reaktion erzeugt.

@PixelMaler : Ich hab noch schwächere CPUs da. Werde ich mal probieren. Der Laptop ist allerdings noch nie ganz ausgegangen. In der Ereignisanzeige habe ich noch nicht nachgesehen, gute Idee.
Die Stromsparfunktion für PCI-Geräte ist aus.
Prinzipiell stimme ich dir zu, dass auch der externe PCIe-Slot defekt sein kann; gleichzeitig hat der jetzt +2Jahre funktioniert, die Probleme traten erst beim Wechsel auf diesen Laptop auf.
Ergänzung ()

Im Ereignisprotokoll stehen hilfreiche Dinge wie "Das System wurde zuvor am ‎13.‎04.‎2020 um 17:21:06 unerwartet heruntergefahren.", aber keine Fehler oder Warnungen, die Hinweise auf den Grund geben.

Ok, der Grund ist, dass ich den Powerknopf gedrückt habe, bis der Laptop ausging. Aber dem ging nichts voran, was im Ereignisprotokoll stehe. die Nachrichten vor der obigen um 17:21 Uhr gestern kommen entweder vom zugehörigen Bootvorgang oder von einer halben Stunde eher und erzählen mir, dass meine externe Festplatte keine Fehler hat.
 
Zuletzt bearbeitet:
Wenn wirklich alles ohne Bild weiter läuft, bleibt CPU unwahrscheinlich.
Aber bei den Boards geht das Wechseln der CPU schnell, also probieren schadet nix.

Alternativ kann auch das Netzteil am externen Board ein Problem haben.
Das würde aber vermutlich bei einem nachvollziehbaren Ereignis sich nochmal nachstellen lassen.
zb Beim Zocken oder wann eben genau es auftritt.

Welche Externe Lösung nutzt du denn eigentlich ?
Falls DIY eGPU mal Netzteil wechseln und evtl. mal andere GPU probieren.
Obwohl da über den MiniPCIe eh nur schmale Bandbreite kommt, wird entsprechend die GPU eigentlich eher weit unter den Möglichkeiten laufen.
 
Das Problem mit der CPU ist eher, dass die "Host-CPU" in einem Laptop sitzt, den ich komplett auseinandernehmen muss :D

Das mit dem Netzteil des externen Boards sehe ich auch so. Da der Aufbau mit anderem Laptop (Mainboard und Laptopnetzteil) problemlos ein Jahr funktioniert hat, halte ich es auch für unwahrscheinlich, dass die bisherigen Komponenten fehlerhaft sind, sobald sich der zugrundeliegende Laptop ändert.

Die externe Lösung ist ein GDC Beast mit einem 220W Dellnetzteil. Die eGPU hat keinen Stromanschliss, daher wandern die maximal 75W durch den PCIe-Bus. Eine andere GPU könnte ich probieren, aus den oben genannten Gründen halte ich das alte Setup aber nicht für die Fehlerquelle.
 
Naja, CPU-Wechsel bei einem 16F2 ( MSI GT680 ) braucht unter einer Minute ;-)
Hab sowas selber noch da... und auch zuweilen im Einsatz.

EGPU nutz ich eine 5Euro Lösung aus China mit HD7970m.
Da brauch ich aber 4Pin für PCIe + 1x8Pin +1x6Pin an GPU.
 
Frage Interessen halber:
wo kammst du beim Benchmark zb 3dMark06 mit der GTX1050ti in dieser Konfig hier raus ?
Furemark lief auch ohne Probleme / ohne Bildausfall ?
 
Update: Ich hab mir die Logfiles unter Kubuntu angesehen. "GPU has fallen off the bus" stand da vor dem letzten Zwangsneustart meinerseits. Ich habe mit
Code:
sudo nvidia-smi -pm 1
den persistent mode aktiviert. Ich berichte, ob das Problem damit behoben ist.

Update 2: Das Problem ist damit nicht behoben.

Update 3: Nach einer Installation des aktuellsten Nvidiatreibers gab es keine Änderung am Problem. In den Logfiles steht jetzt gar nichts mehr.

Update 4: Das vollständige Ab- und wieder Aufbauen des Setups hat nichts geändert.
Aber ich habe herausgefunden, dass das Problem nur auftritt, wenn ich ruckartig aufstehe. Dabei berühre ich den Schreibtisch noch nicht einmal. Ein Austausch aller Stromkabel, Steckerleisten und Netzteile hat keine Änderung gebracht. Ich bin etwas ratlos. Jetzt übe ich mich erstmal im sehr sachten Aufstehen, in Ermangelung einer besseren Lösung.
 
Zuletzt bearbeitet:
Im GeräteManager hattest du sicher auch bei allen Komponenten der eGPU bzw des Riser die Stromsparfunktion deaktiviert ?!
... ich kann gerade nicht mehr nach schauen. :-(

Update 4: Das vollständige Ab- und wieder Aufbauen des Setups hat nichts geändert.
Aber ich habe herausgefunden, dass das Problem nur auftritt, wenn ich ruckartig aufstehe. Dabei berühre ich den Schreibtisch noch nicht einmal. Ein Austausch aller Stromkabel, Steckerleisten und Netzteile hat keine Änderung gebracht. Ich bin etwas ratlos. Jetzt übe ich mich erstmal im sehr sachten Aufstehen, in Ermangelung einer besseren Lösung.

Hast du es als portable Lösung konstruiert ? ??
Bei mir war ein Wackler direkt im Slot! ( War weil.. hab die Platine gerade kaputt gemacht ..:-{ )
Also die Kontakte des PCIe Slot sind nicht straff genug und die GPU wackelt etwas im Slot hin und her.
Da bei mir die GPU nicht am Slot fixiert ist, wirds gerade noch schlimmer:
 
Das Problem tritt auch unter Ubuntu und auch vor dem Laden irgendeines OS auf. Aber ja, habe ich.
Nein, das Setup ist stationär. Ein Wackler bedeutet ja, dass ich ihn durch Wackeln provozieren kann. Das ist aber definitiv nicht der Fall, siehe unten.

Update 5: Ich kann das Problem nicht provozieren, indem ich an irgendeinem Teil des Aufbaus rüttle, auf der Stelle herumhüpfe, an der ich aufstehe oder indem ich auf einem anderen Stuhl sitze (bzw. aufstehe). Auch wenn ich direkt an der Grafikkarte rüttle, passiert rein gar nichts. Nur, wenn ich von meinem Schreibtischstuhl (teilweise Metall) aufstehe.
Also sitze ich jetzt auf einem Küchenstuhl (100% Holz).
Das legt die Vermutung nahe, dass das irgendwas mit elektromagnetischen Feldern und fehlender Abschirmung zu tun hat, aber auch eine Abschirmung des Kabels vom Laptop zur eGPU brachte keinen Unterschied. Also ist der Küchenstuhl erstmal die beste Lösung.
 
Zuletzt bearbeitet:
Zurück
Oben