Mein PC bleibt ohne Vorwarnung stehen oder schaltet sich aus

ManBla

Lt. Junior Grade
Registriert
Mai 2016
Beiträge
493
Hallo zusammen,
mein erster Beitrag hier im Forum. Sollte das beschriebene Problem hier nicht herpassen,
bitte ich um Verschiebung in die entsprechende Sparte.

Seit ca. 5 Jahren habe ich einen Desktop-Computer.

Mein Rechner:

Acer Aspire M3920 PT.SFTE2.056 Desktop-PC
Intel Core i7-2600 (3,4 GHz, 8 MB Cache)
NVIDIA GeForce GT545 mit 1,5 GB Speicher
Arbeitsspeicher 8,192 MB
Festplatte 1 TB Seagate Technology 1000524AS
USB-3.0-Anschluss

Auf dieser Festplatte befinden sich mehrere Partitionen: (kein Windows)
sda1 (PCLinuxOS) und sda4 (swap)
Erweiterte
sda6 sda7 sda8
Auf sda6 und sda7 weitere Linux-Distributionen
sda8 Daten

Seit ein paar Tagen kommen immer wieder seltsame Reaktionen des Computers:

Ich will mit der Maus auf etwas zeigen, da bleibt die Maus stehen, nichts rührt sich mehr,
auch nicht mit Hilfe der Tastatur. Nur reset-Taste hilft noch.

Ich starte sda7 (Gentoo-Linux) und boote bis level 3, um Updates durchzuführen.
Um festzustellen, wie das System die Internet-Verbindung findet, gebe ich einen Befehl ein:

dhcpcd --waitip --timeout 0

Kurz darauf werden mir Daten angezeigt, die erste und zweite Zeile kann ich noch lesen,
da schaltet der Computer ohne Vorwarnung aus.

Vor zwei Tagen will ich den Computer starten. 5 mal versuche ich es:
kein Beep - wie sonst gleich kurz nach dem Einschalten - leises Rumoren im PC,
kein Bootmenu - nichts.

Ich schalte wieder aus, trenne den Computer vom Stromnetz. Warte ca. eine halbe Stunde.
Schalte wieder ein. Beep kommt, PCLinuxOS auf sda1 bootet durch bis zum Login.

Was ich hier schreibe, läuft unter PCLinuxOS.

Meine Frage:
Läßt sich aus dieser Darstellung entnehmen, was da mit meinem PC passiert?
(Ergänzend noch: mein Sohn hat vor 4 Tagen den PC gründlich gereinigt)

Ist meine Vermutung richtig, daß die Festplatte möglicherweise nicht mehr zuverlässig arbeitet?
Kann es sein, daß die CPU oder der RAM-Speicher verrückt spielen?

Ich kann nur hoffen, daß ich hier irgendeinen Tipp bekommen kann,
der mir bei der Lösung des Problems behilflich ist.

Schon einmal im voraus vielen Dank fürs Lesen des Textes.

Gruß
Manfred
 
Zuletzt bearbeitet:
Dein Sohn hat bei der gründlichen Reinigung den Kühler von der CPU gelöst. Die wird jetzt so warm, dass der Rechner sich abschaltet.
 
Mein erster Tipp ist der RAM.

Gehe ich richtig in der Annahme das es zwei Riegel sind? Versuchs mal erstmal mit einem.

Sind sonst alle Kabel korrekt und fest eingesteckt?
 
Beim Reinigen sollte man in diesem Systemalter immer neue Leitpaste verbauen und das mit Sinn und Verstand. Danach sollte auch der Sitz des Kühlers geprüft werden und mit einem kurzen Test (z.B. Prime 95) die Kühlung gegen geprüft werden.

So wäre Überhitzung nun das erste was man ausschließen sollte.
Temperaturen sieht man evtl. im BIOS (bei Acer aber auch eher nicht) oder mit Tools wie HWInfo.
Generell gilt für OEM Systeme jedoch, dass es sein kann das keine Werte gelesen werden können.

Und die Einträge im Ereignisprotokoll wären sehr interessant.
 
Klingt nicht als ob es an der Platte liegt, aber poste mal die Ausgaben von smartctl -a /dev/sda, am Besten im Tag
Code:
, dann sollte man sehen könne wie es um sie steht.  Dann mache den RAM Test mit [URL=http://www.memtest86.com/download.htm]Memtest86[/URL] oder [URL=https://www.computerbase.de/downloads/systemtools/memtest86-plus/]Memtest86+[/URL], denn korrupte Dateien und Abstürze sind typische Zeichen für RAM Fehler. Teste alle Riegel so wie sie eingebaut sind, ändere da nichts und lass auch die BIOS Einstellungen so wie sie unter Windows betrieben werden, genau so müssen sie ja auch fehlerfrei laufen. Wenn es keine Fehler gibt, warte 6 PASS ob es so bleibt und wenn es Fehler gibt, teste zuerst mit den Standardeinstellungen neu, sollte übertaktet worden sein und danach teste die Riegel einzeln um zu sehen ob einer defekt ist oder ggf. eine andere Ursache vorliegt warum die möglicherweise auch fehlerfreien Riegel nicht fehlerfrei zusammenarbeiten wollen.
 
Wenn du die Möglichkeit hast, überprüf doch mal die Festplatten auf Fehler, kenne mich mit Linux allerdings nicht aus, welches Programm sich da anbietet.

Ansonsten ist der Gedanke von hisn auch gut, einfach mal überprüfen, ob irgendwas locker ist.
 
Deine Vermutung mit der Festplatte könnte schon stimmen. Ich würde dir raten mal eine Linux-Live Version von einem USB Stick zu starten.
Oder mal Memtest aus zu führen.
Ohne Eingrenzung ist das nur Rätselraten und hat eher was mit Glück zu tun.
(meine Festplatte hatte das auch vor 2 Monaten und war nach 3 Tagen hinüber)
Ich habe bei mir allerdings eher das Board in Verdacht, die Ersatzplatte (nicht neu) war nach 2 min auch hinüber.
Es kann so viel sein.
 
Zuletzt bearbeitet:
Nein, Software kann ausgeschlossen werden, ein Fehler trat direkt nach Start auf, als das System dort nicht mal den POST geschafft hat. Wenn es kein Kühler ist, tippe ich auf alte Kondensatoren vom Mainboard. Die mal bitte einer Sichtprüfung unterziehen (gewölbter Deckel oder gar schon offen?). Oder das Netzteil (wenn Betriebspannungen nicht mehr stabil sind, gibt es die Interessantesten Fehler, ohne stabile Spannungen jagst du die ganze Zeit Phantome). Würde als erstes ein neues Netzteil testen (geht schneller wie Mainboard Wechsel). Aber Obacht, wenn es das Mainboard ist, kann der Fehler mit neuem Netzteil auch verschwinden und dann später wieder auftauchen.
 
Zuletzt bearbeitet:
Ich habe inzwischen einmal smartmontools genutzt.

Verschiedene Befehle mit smartctl.

Doch kein Fehler auf der sda.

Inzwischen läuft PCLinuxOS schon wieder über 2 Stunden ohne irgendeinen Hänger.

Der PC ist nicht heiß. Im Programm gkrellm kann ich die Belastung der 8 CPU-Kerne beobachten,
die ohne Auffälligkeiten sind.

Alle anderen Vorschläge werde ich nach und nach durcharbeiten und dann mitteilen, was sich ergeben hat.

ich sage erst einmal vielen Dank für die schnellen Reaktionen auf meinen Thread.

Gruß
Manfred
 
Poste doch bitte die Ausgaben von smartctrl -a /dev/sda oder welchen Buchstaben die Platte nun haben mag.
 
Code:
smartctl -a /dev/sda               
smartctl 6.5 2016-05-07 r4318 [x86_64-linux-4.1.14-pclos1] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.12
Device Model:     ST31000524AS
Serial Number:    9VPC0R6N
LU WWN Device Id: 5 000c50 02e33dd20
Firmware Version: JC45
User Capacity:    1.000.204.886.016 bytes [1,00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue May 24 09:25:44 2016 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (  609) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.                                                                                                       
                                        Conveyance Self-test supported.                                                                                            
                                        Selective Self-test supported.                                                                                             
SMART capabilities:            (0x0003) Saves SMART data before entering                                                                                           
                                        power-saving mode.                                                                                                         
                                        Supports SMART auto save timer.                                                                                            
Error logging capability:        (0x01) Error logging supported.                                                                                                   
                                        General Purpose Logging supported.                                                                                         
Short self-test routine                                                                                                                                            
recommended polling time:        (   1) minutes.                                                                                                                   
Extended self-test routine
recommended polling time:        ( 173) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x103f) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   118   099   006    Pre-fail  Always       -       192373222
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   098   098   020    Old_age   Always       -       2300
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   085   060   030    Pre-fail  Always       -       353075537
  9 Power_On_Hours          0x0032   071   071   000    Old_age   Always       -       25914
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   098   098   020    Old_age   Always       -       2300
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   073   050   045    Old_age   Always       -       27 (Min/Max 22/27)
194 Temperature_Celsius     0x0022   027   050   000    Old_age   Always       -       27 (0 17 0 0 0)
195 Hardware_ECC_Recovered  0x001a   037   019   000    Old_age   Always       -       192373222
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       7
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       7
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       32409 (140 167 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2134955636
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       3405059313

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%     25910         31218446
# 2  Short offline       Completed without error       00%     25849         -
# 3  Short offline       Completed without error       00%      7538         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
 
Bis auf die 7 schwebenden Sektoren ist alles in Ordnung un die scheinen laut den Logs der Selbsttests ja auch erst nach dem erfolgreichen Test bei 25849 Betriebsstunden aufgetreten zu sein. Lies mal die Entwicklungsgeschichte der Barracuda Reihe, dann siehst Du, dass im Product Manual der ST31000524AS nur noch 2400 Betriebsstunden pro Jahr vorgesehen sind und diese hat damit mehr Betriebsstunden runter als in über 10 Jahren bei vorgesehnem Betrieb anfallen würden, dabei sind HDDs i.d.R. für 5 bis 7 Jahre Nutzungsdauer (Service Life) ausgelegt, die könnte also am Ende ihres Lebens angekommen sein.

Andererseits sind Schwebende Sektoren erstmal einfach nur Sektoren deren Daten nicht mehr zur ECC passen. Da die korrekten Daten nicht mehr feststellbar sind, gibt die Platte statt falscher Daten einen Lesefehler als Antwort wenn man versucht diese zu lesen. Das kann auch anderen Gründe als defekte Oberflächen haben, z.B. einen Stromausfall während eines Schreibvorgang der dazu führt, dass eben nicht die ganze Daten plus der neuen ECC geschrieben wurden oder wegen eines Stoßes oder Vibrationen ist der Kopf beim Schreiben aus der Spur gekommen und hat Daten auf der Nachbarspur überschrieben.

Die Controller merken sich die schwebenden Sektoren und prüfen die Daten nach dem erneuten Schreiben auf diese Sektoren, dann verschwinden diese einfach oder werden eben durch Reservesektoren ersetzt. Erst wenn diese Sektoren überschrieben werden und dabei wirklich Reservesektoren verbraucht werden, dann weiß man das der Zustand der Platte nicht mehr so gut bis schlecht ist.
 
Vielen Dank erst einmal für die Analyse.

Damit ist klar, daß ich doch in nächster Zeit an eine neue Festplatte denken sollte.

Mein Rechner ist in der Regel von morgens ca. 9 Uhr bis abends, 23.30 Uhr in Betrieb.

Nicht, daß ich ununterbrochen davorsitze, aber ich schalte den Rechner zwischendurch
nicht immer aus und dann wieder an. Vielleicht ist/war das ein Fehler.

Die nächsten Untersuchungen werden das Innere des Rechners betreffen.
Das kann noch dauern - aber wird in jedem Falle durchgeführt.

Soweit erst einmal. Und danke an alle, die sich hier geäußert haben.

Gruß
Manfred
Ergänzung ()

Würde diese Festplatte:

Seagate NAS HDD - 3 TB - interne Festplatte, ST3000VN000 (3,5 Zoll), 5900rpm, 64 MB Cache, SATA III für NAS-Betrieb

in meinen Rechner passen, wo bisher nur eine 1 TB Platte steckte?

Ich bin kein Computer-Fachmann, daher diese Frage.

Gruß
Manfred
 
Die ST3000VN000 wäre als eine NAS Platte für den Dauerbetrieb zugelassen und damit besser für so viele Betriebsstunden pro Tag geeignet. Die sollte auch passen, die 3.5" HDDs sind schon llänger alle nur 26mm noch und haben auch alle die gleichen Befestigungslöcher, von einigen großen HDDs mit 6TB und mehr mal abgesehen, weil bei denen dan die 6 Platter so hoch bauen, dass man auf die mittleren Befestigungslöcher verzichten musste oder diese versetzt hat. Aber bei 3TB HDDs ist das kein Thema, die passen da alle anstelle der ST31000524AS rein.

Das der Rechner plötzlich hängt oder aus geht, muss aber nicht an der HDD liegen, das könnte auch eine andere Ursache haben und alleine mit dem Wechsel der HDD nicht behoben sein.
 
Hallo,

kurze zwischen Frage:

Mein Rechner ist in etwa genau so lange am Tag an.
Wie sieht es denn mit SSD's aus für den Dauerbetrieb? und was wäre eine Alternative ohne große Geschwindigkeitsverluste gegenüber einer SSD?
 
SSDs ist der Dauerbetrieb egal. Ausnahmen sind vielleicht die mit dem alten Indilinx Barefoot, da dessen agressive Idle-GC offenbar im Idle die P/E Zyklen frisst und dann gewaltige Write Amplifications von über 100 produzieren kann, aber mit der letzten FW wurde es denen auch besser, aber im Prinzip verbraucht da der Controller im Idle schon noch massiv P/E Zyklen und auch wenn wenig geschrieben wird, steigt der Verschleiß der NANDs über die Betriebsstunden an und nach etwas über 20.000 Betriebsstunden sind die dann oft dem Ende nah. Ob und welche andere SSD ggf. ähnliche Probleme hat, kann ich nicht sagen, aber andere und vor allem aktuellere SSDs sollte diese Problem nicht mehr haben.

Von der Performance her gibt es keine Alternativen zu einer SSD, selbst ein RAID auf HDDs kann allenfalls bei den seq. Transferraten mithalte, aber niemals bei den Zugriffszeiten und IOPS, die aber für die Spontanität des System mit einer SSD sorgen.
 
Solche Endurance Tests gibt es viele, die zeigen solche Probleme wie die es alten Indilinx Barefoot aber nicht auf, weil dafür die Zeit zu kurz ist. Die NANDs der meisten SSDs dürfte ein gewöhnlicher Heimanwender nicht kaputt geschrieben bekommen, aber trotzdem dürfte die Lebenserwartung von SSD nicht unendlich sein, igrendwann geht halt was anders an der SSD kaputt und meist wird sie ja sowieso nach ein paar Jahren durch eine größere, schnellere SSD ersetzt. Allgemein ist HW eben nur auf eine Nutzungdauer von 5, 7 oder maximal 10 Jahren ausgelegt.
 
Eine erstaunliche Erfahrung:

Gestern habe ich den PC fast den ganzen Tag laufen gelassen. Wohlgemerkt nur PCLinuxOS auf sda1.

Dort ist VirtualBox installiert und in der verschiedene Distributionen, zB Windows 8.1 - viele Linux-Distributionen,
u.a. auch gentoo.

Dort hatte ich mit einer Neuinstallation von gentoo begonnen. Die Fortsetzung der Installation lief gestern.
Dabei werden die 8 CPU-Kerne ganz schön beansprucht. Das sehe ich am Programm gkrellm.

Und keinerlei Störungen, Unterbrechungen oder gar Ausschaltung des PCs.

Ich kann mich nur wundern. Die o.g. Störungen kamen erst, als ich mit der gentoo-Installation auf sda7 beschäftigt war. Und ein weiteres Mal, als ich die dritte Linux-Distribution genutzt habe.

Fazit: Wenn ich nur sda1 nutze, läuft alles störungsfrei - so der gestrige Tag.

Nun hoffe ich, daß es heute nicht anders kommt. Doch ich bin zuversichtlich.

Eine Idee geht mir noch durch den Kopf: ich sollte vielleicht sda7 wieder freimachen,
sprich neu formatieren. Dann kann ich sie eher für Daten nutzen. Die gentoo-Installation
hatte sowieso einige Probleme, zB nvidia-Treiber nur mit 4.5-er-Kernel, nicht mit 4.6, wie installiert.

Gruß
Manfred
Ergänzung ()

Kommando zurück.

Heute ist der Wurm drin - bereits zweimal ist der Rechner wieder hängen geblieben.

Nun ist wohl erst einmal Sendepause. Jedenfalls bis der Grund erforscht ist.

Gruß
Manfred
 
Bei einem 5 Jahre alten OEM Rechner könnte ich mir auch gut vorstellen, dass das Netzteil so langsam die Grätsche macht. Hast du die Möglichkeit ein anderes gegen zu testen?
 
Zurück
Oben