PC friert in den letzten Wochen immer wieder ein

maschinenbauer

Cadet 4th Year
Registriert
Juli 2010
Beiträge
69
Hallo zusammen,

ich hoffe das ist hier im Unterforum richtig - das Problem ist nicht zwingen nur RAM-Spezifisch.

Seit 2-3 Wochen friert einer meiner PCs immer wieder ein, d.h. der Bildschirminhalt bleibt stehen, es werden von der Soundkarte die letzten 0,5 Sekunden Ton in einer Endlosschleife abgespielt, es findet kein Datenträgerzugriff mehr statt und über Netzwerk ist der Rechner nicht mehr zu erreichen. Dies tritt vor allem bei hoher Last - vor allem beim spielen von Ark - auf.

Hardware:
i5-760 mit nem EKL Brocken
AMD Radeon HD 7750 mit 1 GB RAM (passivgekühlt - bzw. nur über Gehäuselüfter vorne und hinten)
16 GB DDR3 RAM (1333 MHz, spezifiziert für 1,5 V - ich hatte auch mal DDR3-Module, die benötigten 1,65 V)
System auf 120 GB TakeMS-SSD mit Sandforce-Controller (80 GB für /, 40 GB für /home)
500 GB Samsung HDD
Kubuntu 16.04

Der PC ist inzwischen 6 Jahre alt. Von daher kann es durchaus sein, dass da gewisse Alterungserscheinungen auftreten. Daher habe ich zunächst erst einmal alle Elkos visuell überprüft, da geplatzte Elkos bereits 2 mal der Grund für ähnliche Probleme waren. Alle sind OK.

Ein anderer bisher bei mir aufgetretener Grund für so etwas waren Überhitzungen. Diese sind bei dem PC zwar unwahrscheinlich (bleibt sehr kühl) aber es könnte ja z.B. die Wärmeleitpaste zwischen CPU und Prozessor nicht mehr in Ordnung sein. Aber das Ergebnis war negativ (gemessen bei längeŕ Zeit mit Last):
CPU 4x~45°C
GPU ~60°C
Mainboard ~35°C, ~45°C, ~30°C
Der RAM hat leider keinen Sensor - die Heatspreader sind jedoch gleichmäßig etwa handwarm.
→Wenn überhaupt überhitzt der RAM, sonst definitiv alles OK

Des Weiteren habe ich die 5 und 12-V-Schiene des Netzteils mit einem Multimeter überprüft (3,3V kann ich so nicht Testen, da man die Spannung ja nicht so einfach abgreifen kann, die anderen habe ich unter Last und im Idle beobachtet):
12 V: 12,1+-0,02 V
5 V: 5,01+-0,01 V
→OK

Des weiteren habe ich die internen Spannungsensoren mit sensors bzw. ksysguard (Diagramm) ausgelesen. Leider kann ich nicht alle Spannungen eindeutig zuordnen:
+3.3V: +3.34 V [Anmerkung: vermutlich 3,3 V Schiene des Netzteils - auf Mainboard gemessen]
in1: +0.98 V (max = +2.04 V) [Anmerkung: CPU, abhängig von CPU-Last schwankend - gemessen 0.90 bis 1.24 V - laut Spezifikation schwankend zwischen 0,65 und 1,4 V aber vermutlich wurden die Extremwerte nicht erreicht, da weder extrem geringe Last erreicht wurde (Untergrenze), noch der Boost voll ausgereizt wurde (Obergrenze)]
in2: +0.80 V [Anmerkung: CPU, abhängig von CPU-Last parallel zu in1 schwankend - gemessen 0.74 bis 1.08 V]
in3: +0.94 V
in4: +1.10 V
in5: +1.49 V
in6: +1.63 V [Anmerkung: RAM]
3VSB: +3.23 V [Anmerkung: 3,3 V Standby Spannung]
Vbat: +3.17 V [Anmerkung: Bios - Batterie]
Bis auf in1 und in2 schwanken alle anderen Werte um maximal ±0,01 V.
→Meines Ermewssens auch OK

Des Weiteren habe ich den RAM mit Memtest86+ 5.01 überprüft (wird bei Kubuntu vorinstalliert und ist über Grub2 auswählbar). Hier konnte ich in den vergangenen Wochen genau eine RAM-Adresse ausfindig machen, die hin und wieder fehlerhaft ist. Der Fehler tritt nicht bei jedem Durchlauf auf. Auch tritt er bei wechselnden Tests auf. Der Fehler kann auch nicht rein Stochastisch auftreten sonder mindestens eine weitere Komponente spielt eine Rolle. Dies Lässt sich so Begründen: Ich habe testweise den geprüften RAM-Bereich auf das MB um den Fehler herum eingeschränkt und auf diese Weise alle Tests innerhalb einer Halben Stunde ca. 25000 durchführen lassen. Der Fehler trat dabei nur ein mal auf. Das würde jedoch bedeuten, dass ich ihn bei den Kompletttests nicht hätte finden können. Hier ist er jedoch bis zu diesem Zeitpunkt vier mal aufgetrenen (jeweils einmal während einer Nacht, wo der PC 2 Testdurchläufe geschafft hat).

Daher habe ich nach dem Ersten Fund mit Memtest testweise die Spannung des RAMs um 0,05V erhöht. Die Idee dahinter: Es könnte sein, dass der Spannungwandler des Mainboard davongedriftet ist oder dass der RAM inzwischen etwas mehr Spannung benötigt. Gemessen wird nun +1,63 V statt zuvor +1,61 V. Dennoch ist der PC mehrfach eingefrohren. Die weiteren Tests von Memtest sind bei erhöhter Spannung durchgeführt worden. Klar könnte ich die Spannung noch weiter erhöhen, aber das ist aufgrund der sich dann erhöhenden Temperatur und des höheren Verschleißes auch nicht gut. Alternativ könnte ich natürlich auch die Timing hochsetzen und/oder die Frequenz absenken - d.h. den RAM unterhalb der Spezifikationen betreiben. Da dies aber mit Performance-Einbußen einhergeht habe ich dies bisher noch nicht probiert.

Da ich den RAM-Fehler so nicht beheben konnte habe ich mich erst mal entschlossen damit zu leben und die fehlerhafte Adresse mit der Direktive GRUB_BADRAM="0x0039a483a80,0xffffffffffe" in /etc/default/grub zu deaktivieren (nach der Änderung der Datei habe ich die Änderungen mit sudo update-grub übernommen und neugestartet, die Adresse habe ich von Memtest übernommen und da es eine hexadezimal-Zahl ist 0x vorangestellt). Dies ging nun auch 5-6 Tage so gut. Nun ist der PC gestern aber erneut eingefroren. Also habe ich Memtest nochmal drüber laufen lassen. Diesmal wurde morgends eine mir bisher unbekannte Adresse als Fehlerhaft identifiziert. Daher habe ich den Test weiter laufen lassen - bis jetzt 23h bzw. 7 Durchläufe. Der bekannte Fehler ist dabei 4 mal aufgetreten, 2 neue 2 mal und 2 neue 1 mal. Auffällig ist, dass meistens das letzte Bit betroffen ist. In zwei Fällen ist es jedoch nicht das letzte Bit.

Nun frage ich mich, ob es sinnvoll ist auf diese Weise (Addressen sperren) fort zu fahren. Ich werde Morgen jedenfalls die 4 neue Adressen auch sperren.

- Wie würdet ihr weiter vorgehen?
- Könnt ihr mir noch andere Dinge empfehlen, die ich testen könnte?
- Glaubt ihr es liegt nur am RAM oder könnte es auch noch wo anders dran liegen (gerade da ja irgendetwas anderes da mit rein spielen muss als reiner Zufall)? Ein Austausch des RAMs macht meiner Meinung nach nur dann Sinn, wenn andere Fehlerursachen ausgeschlossen sind.
- Könnte es sein, dass ich beim Sperren etwas falsch gemacht habe - immerhin sind die Adressen 2 signifikante Stellen länger als die in der auskommentierten Beispielzeile, wobei diese dann nur mit maximal 4 GB umgehen könnten? Beispielzeile: #GRUB_BADRAM="0x01234567,0xfefefefe,0x89abcdef,0xefefefef"
- Wird auf dauer ein neuer PC fällig? Bzw. ist davon auszugehen, dass sich das Problem verschärfen wird?

Vielen Dank im Voraus.
 
Zuletzt bearbeitet:
Ich finde es erstaunlich, dass du - bei deinem ganzen Soft- und Hardwarewissen nicht auf die Idee kommst, einfach mal den Ram teilweise auszubauen anstatt mit Adresssperrungen zu arbeiten. Bei wahrscheinlich 4 Riegeln hast du 3, die du nacheinander weglassen kannst. Manchmal verabschiedet sich halt ein Riegel. Passiert. Genau so wie das Netzteil oder die (passiv gekühlte!) Grafikkarte gern an Altersschwäche leiden... wenn man nix sehen kann in Form von defekten ekos dann kann es - gerade bei dem Alter der Bauteile - eigentlich alles sein.
Übrigens: Nicht alle Elkos platzen, einige trocknen auch einfach nur schleichend aus, wenn man Pech hat. Und wenn das bei deinem PC schon mehrfach der Grund war (welches Bauteil denn?) dann würd ich falls es das Mainboard war ernsthaft den kompletten Tausch des Mainboards in Betracht ziehen. Dann haben die da halt ne schlechte Charge Elkos verbastelt. Und da dürfte n Gebrauchtkauf günstiger sein als alle Elkos einzeln zu tauschen :Freak
So teuer können die alten Sachen eigentlich nicht sein.
 
Zuletzt bearbeitet:
Mein Software-Wissen ist tatsächlich hoch, mein Hardwarewissen eher mittelmäßig. Ich rüste halt nicht ständig auf oder baue mir neue PCs und die Hardware-Defekte, die ich bisher in meiner Familie hatte waren eigentlich immer eindeutig (z.B. von Elko-Flüssigkeit total versifftes Mainboard - die ersten beiden Tower meiner Mutter (einmal Targa (Lidl) einmal Medion - beide bauen nur Schrott, vor allem was die Kühlung angeht - sind so kaputt gegangen) - tote Graka, Regenwasser in Monitor wegen defektem Dach, usw.). Da konnte ich also auch nicht viel lernen. Bei meinem PC ist es übrigens der erste (bekannte) Hardware-Fehler. Die bisherigen 6 Jahre lief er bis auf den plötzlichen Graka-Tot 1 Monat nach Garantieablauf der ersten Graka sowie einiger Software-Spinnereien (die ich in der Regel durch deinstallieren von gerade getätigten (Treiber-)Updates schnell beheben konnte) einwandfrei.

Über die RAM-Adressen weis ich, dass es DIMM 3 und 4 sind (vor allem 4 - 3/4 aller auftretender Fehler), die hin und wieder mal fehlerhafte Bits haben - wobei halt nur sehr selten. Da brauche ich nichts testen. Das testen könnte btw. bei der Methode und der Fehlerhäufung sehr lange dauern. Bis ich auf diese Weise alle durchgetestet hätte würden schnell mal 4 Wochen vergehen bis ich einzelne RAM-Riegel ausgebaut getestet hätte, da ich je Test den PC mindestens mal ne Woche, besser 2 laufen lassen müsste, wenn kein Freeze eintritt. Und selbst das würde ja nicht ausreichend, da 2 Riegel betroffen sind - d.h. weitere 4 Tests mit nur 8 GB - was dann oft arg knapp würde.

Bei der Graka habe ich in meinem Gehäuse keine Temperaturprobleme. Die Graka erreicht gerade mal 60-65°C unter Volllast und da wollen immerhin ~50 Watt Wärmeleistung abgeführt werden. Da erreichen viele hochgezüchtete Grakas oder Notebook-Grakas deutlich höhere Temperaturen ohne dass darüber groß Diskutiert wird. Klar, bei den leistungsstarken passiven Grakas kann man viel falsch machen - reine Thermik reicht für die Leistung definitiv nicht aus.

Beim Netzteil vermute ich den Fehler aktuell eher nicht, da es die Spannungen ja schön hält. Und mehr soll nen Netzteil ja auch nicht tun.

Bei nem Gebrauchtkauf sehe ich mehrere Probleme:
- die Hardware wäre ähnlich alt
- in der Regel nur über Privatverkäufer - d.h. hohes Risiko
- die Kühlung des fremd-Gehäuses ist völlig unbekannt - möglicherweise hat das viel höhere Temperaturen gesehen
- wurde ständig daran gebastelt (Beschädigungsgefahr)
- wurde der PC ständig von A nach B transportiert (bei nem Towerkühler könnte es da zu schäden kommen)
- möglicherweise übertaktet - ok, beim Mainboard nicht so schlimm, da die in der Regel dann ja dafür spezifiziert sind
Alles in allem würde ich gebraucht nur für nen extrem niedrigen Preis kaufen (ca. 10€ - bei Ebay kosten die entsprechenden Mainboards aber mindestens 50€) oder wenn ich den PC kenne - d.h. von nem Verwandten oder Bekannten.

Neukauf ist beim Mainboard und beim Prozessor unmöglich. Bei beidem bekommt man wenn überhaupt noch völlig überteuerte Ersatzteilbestände. Beim RAM macht es nur dann Sinn, wenn es definitiv der RAM ist - aber da bin ich mir ja nicht mal sicher, da die Fehler statistisch und in einem sehr großen Abstand auftreten, sowie durch vermehrte Wiederholung (Penetration defekter Adressen) nicht häufbar und somit extrem schlecht reproduzierbar sind. Ein neuer Rechner würde ja DDR4 nutzten.

Kann man ausgetrocknete Elkos irgendwie erkennen? btw. Elkos tauschen kann ich nicht (kann nicht löten und an nem Mainboard, wo die Bauteile eher miniaturisiert sind will ich's definitiv lernen/ausprobieren).

Alles in allem sieht es so aus, dass mir wenn ich den Fehler nicht unter Ausschluss nahezu aller anderen Fehlerursachen lokalisiert bekomme nur ein Neukauf bzw. Neubau unter Verwendung nur einiger bestehender Komponenten bleibt. DVD-Laufwerk, Kartenleser, Gehäuse (wobei ich das vermutlich wegen fehlendem USB3.0-Frontanschluss austuaschen würde), Netzteil (vielleicht wäre es da bei der Investition dann aber auch sicherer nen neues zu nehmen), SSD (die ist gerade mal 1,5 Jahre alt - eventuell würde ich aber auch ne NVMe M.2 SSD einbauen), ggf. HDD (müsste die eh bald aufrüsten, da die 500 GB fast voll sind) und die Graka (die sollte den Fehler nicht auslösen können, denn könnte ich übernehmen.
 
Zurück
Oben