HDD Probleme mit ASRock J3455-ITX

DerDominik

Cadet 2nd Year
Registriert
Nov. 2015
Beiträge
17
Hallo zusammen,

ich nutze seit geraumer Zeit ein AsRock J3455-ITX als OpenMediaVault Server, was soweit auch super funktioniert hatte. Angeschlossen sind hierbei eine SSD als System-Platte und 3x HDD als Daten-Platten.

Vor einem halben Jahr fingen dann die ersten Probleme an. Eine Platte hatte sich immer mal wieder abgemeldet bzw. ist gar nicht hochgestartet. Neue Platte eingebaut, die alte konnte ich problemlos über einen USB-SATA Adapter auslesen.
Nach kurzer Zeit wieder das Problem, daraufhin hatte ich das Problem auf ein zu schwaches Netzteil geschoben. Neues verbaut, lief auch erstmal wieder.
Heute ging der Spaß wieder los. Im laufenden Betrieb verabschiedet sich eine Platte und nach Reboot kommen auch die wildesten Fehler, das die Platte nicht gelesen werden könnte.
Ausgebaut, über den Adapter angeschlossen - Läuft

Die jetzt zuletzt problematische HDD schließe ich dann eigentlich auch aus, auch wenn ich direkt eine neue bestellt habe.
Aber kann es sein, das evtl auch das Mainboard der Hauptschuldige ist?

Hat da jemand Erfahrung in der Kombi?


Danke vorab :-)
 
DerDominik schrieb:
Im laufenden Betrieb verabschiedet sich eine Platte und nach Reboot kommen auch die wildesten Fehler, das die Platte nicht gelesen werden könnte.
Macht es Dingdong, dass die Platte entfernt wurde oder ist tatsächlich schlagartig der Strom zur Platte gekappt?
Letzteres wäre schlecht und kann zu Schäden auf der Platte führen.

Was ist denn jetzt für ein Netzteil verbaut?
 
Blöde Frage: Hast du die SATA-Kabel getauscht?

Gggfls. nen SATA-Controller per PCIe nutzen?
 
TriceO schrieb:
Macht es Dingdong, dass die Platte entfernt wurde oder ist tatsächlich schlagartig der Strom zur Platte gekappt?
Letzteres wäre schlecht und kann zu Schäden auf der Platte führen.

Was ist denn jetzt für ein Netzteil verbaut?
Also mit verabschieden meinte ich, das auf einmal im laufenden Betrieb die Fehler kommen und die Platte nicht mehr erreichbar ist. Nach einem Reboot ist dann direkt kein Zugriff mehr möglich.

Als Netzteil habe ich jetzt ein 120W Netzteil eingesetzt

Quanar schrieb:
Blöde Frage: Hast du die SATA-Kabel getauscht?

Gggfls. nen SATA-Controller per PCIe nutzen?
Die Leitungen habe ich noch nicht getauscht. Das wäre evtl eine Möglichkeit, auch wenn da keine Bewegung dran war.

Einen SAta Controller würde ich eigentlich gern vermeiden, da ich dann auch ein neues Gehäuse bräuchte
 
DerDominik schrieb:
Als Netzteil habe ich jetzt ein 120W Netzteil eingesetzt
Also ein PicoPSU (oder vergleichbar)?
zB sowas:

41l2-6NHFCL._AC_.jpg



Hängen die vier Platten alle an einem Stromstecker?

Verabschiedet sich immer dieselbe Platte?
 
TriceO schrieb:
Also ein PicoPSU (oder vergleichbar)?
zB sowas:

Anhang anzeigen 1371240


Hängen die vier Platten alle an einem Stromstecker?

Verabschiedet sich immer dieselbe Platte?
Genau, also in dem Gehäuse ist Art 120W-PicoPSU verbaut, was dann von einem externen 120W Netzteil gespeist wird. Das Gehäuse ist ein Inter-Tech JX-500

Und mit dem Strang liegst du richtig. Die hängen letztendlich alle am selben Strang.
Verabschiedet haben sich bislang zwei unterschiedliche Platten

Ach ja, und bei dem Gehäuse nicht wundern. Die drei Daten-Platten sind alle extern in einem extra gelüftetem Gehäuse
 
Moin,
egal ob Windows, Linux oder BSD, es wäre sehr hilfreich, wenn die Logs der Betriebssysteme genutzt werden. Ansonsten raten alle nur ins Blaue und empfehlen irgendwas und es kann allenfalls Zufallstreffer geben.

Auf dem Terminal: journalctl -p 0..4 -r und den resultierenden Text bitte hier in Code Blöcken posten NACHDEM du die Logs überflogen hast und da deiner Meinung nichts drinnen steht, was du nicht verraten willst. Um herauszufinden was der Befehl macht, im Terminal hilfe man [Befehl] um das Manual/Handbuch der meisten Befehle anzuzeigen.

Achso und Angaben zum aktuell laufendem Kernel wären auch nett: uname -a
 
Wie warm wird es im Gehäuse (welches) ?

Welche Gehäuselüfter sind wo verbaut?
 
Piktogramm schrieb:
Moin,
egal ob Windows, Linux oder BSD, es wäre sehr hilfreich, wenn die Logs der Betriebssysteme genutzt werden. Ansonsten raten alle nur ins Blaue und empfehlen irgendwas und es kann allenfalls Zufallstreffer geben.

Auf dem Terminal: journalctl -p 0..4 -r und den resultierenden Text bitte hier in Code Blöcken posten NACHDEM du die Logs überflogen hast und da deiner Meinung nichts drinnen steht, was du nicht verraten willst. Um herauszufinden was der Befehl macht, im Terminal hilfe man [Befehl] um das Manual/Handbuch der meisten Befehle anzuzeigen.

Achso und Angaben zum aktuell laufendem Kernel wären auch nett: uname -a

Muss gestehen, das ich den Befehl zum rausziehen der Fehlermeldungen gar nicht kannte.
Hatte die Meldungen nur über mein SSH Programm gesehen, welche nach dem Reconnect aber weg waren. Wieder was dazugelernt :)

Hier einmal der Auszug, als es das letzte Mal passiert war -> https://pastebin.com/HwUMqBFw
Was mir da schon auffällt, war scheinbar doch nicht nur eine Platte, sondern zwei waren es.

Der verwendete Kernel lautet: "Linux nas 6.1.0-0.deb11.7-amd64 #1 SMP PREEMPT_DYNAMIC Debian 6.1.20-2~bpo11+1 (2023-04-23) x86_64 GNU/Linux"

Bezüglich der Temperatur.

Wie schon vorher geschrieben, die HDD sind in einem externen Gehäuse mit eigener Lüfter-Ansteuerung und liegen temperaturtechnisch max bei ca. 30 Grad.
Im ITX Gehäuse ist kein Lüfter drin.
Das Gehäuse hatte ich vor ca. 45 Minuten mal geöffnet und alle Platten wieder angeschlossen. Läuft seitdem erstmal wieder fehlerfrei durch. Mit lmsensors habe ich ca. 41 Grad CPU Temperatur ausgelesen
 
Ohje..
Im Logfile sind ata2 und ata4 auffällig. Die werden bei dem Board einmal vom SoC und einmal über einen ASmedia Chip bereitgestellt. Damit ist Firmware/Treiber des Sata-Controllers fast ausgeschlossen.

So wie das Log ausschaut, könnten die Platten schlichtweg defekt sein. Ein Hinweis darauf wäre schlichtweg die Geräuschentwicklung. Wenn die HDDs ungewöhnlich klingen, dann könnte das daran liegen, dass sie es schlicht nicht schaffen einige Blöcke auszulesen, es immer wieder versuchen bis es zum Timeout kommt und den Fehlermeldungen aus deinem Log kommt. Ein zweiter Indikator ist schlicht die Smart-Werte auszulesen smartctl -a /dev/sdX. Der Befehl braucht gegebenenfalls Rootrechte und das X ist durch a, b , c, d, e auszutauschen. Jenachdem wie viele Laufwerke dein System kennt.
Die Smart-Werte müssen nicht unbedingt anzeigen, dass die HDD ein Problem hat. Ich würde auf jeden Fall vermuten, dass Read Error und CRC-Error hohe Werte zeigt. Interessant wäre, ob pending sektors, reallocated sectors etc. ebenso eskalieren.

Da du es bereits mit einem USB zu Sata Controller versuchst und damit Erfolg hattest. Defekte Verkabelung bzw. Weckelkontakte sind eine Option, ich vermute aber eher Bugs der Firmware und/oder Treiber/Kernel.

"Wildes Probieren":
* Bios/Uefi Update auf die neuste Version.
Wenn danach die Fehler immer noch auftauchen
* Virtualisierungsfunktionen und Memoryprotection (Iommu) der CPU im Uefi deaktivieren.
Gerade letzteres ist kein guter Tip, ist aber eh nur zum Testen. Wenn der Teil eine Verbesserung bringt, können wir anfangen Kernelparameter zu setzen und die Funktionen im Uefi wieder zu aktivieren.
Wenn es darüber hinaus noch Probleme gibt, wird es echt problematisch.
 
Hallo Piktogramm

Piktogramm schrieb:
Ohje..
Im Logfile sind ata2 und ata4 auffällig. Die werden bei dem Board einmal vom SoC und einmal über einen ASmedia Chip bereitgestellt. Damit ist Firmware/Treiber des Sata-Controllers fast ausgeschlossen.

,,,,

erstmal Danke für die Unterstützung :-)

Das Ganze ist für mich gerade echt schwer nachvollziehbar. Seit dem letzten Ausfall laufen die Platten wieder ohne Probleme, warum auch immer. Hierbei ist auch kein besonderes Geräusch an den Platten zu vernehmen.
Als die Fehler auftraten hören man immer das typische Anlaufgeräusch einer Platte, was sich wiederholte. Nach x Versuchen war es dann still mit der Platte und der beschrieben Zugriff nicht möglich.

Die SMART Werte habe ich gerade mal ausgelesen und auch hochgeladen.

/dev/sdb - ATA3 - laut Log bislang keine Probleme -> Link
/dev/sdc - ATA2 -> Link
/dev/sdd - ATA4 -> Link
ATA4 war auch die Platte, die ich im 2023 schon getauscht hatte - Vorher war eine WD verbaut

Das Bios werde ich prüfen, aber ich meine da hatte ich Anfang des Jahres mal ein Update gemacht.
Die Virtualisierungsfunkion werde ich dann auch mal deaktivieren.

Hatte gestern auch mal im Netz ein bisschen gegooglet, und einen Hinweis auf Alterungserscheinungen bei dem Prozessor gefunden -> Link
Die beschriebenen Schnittstellen hören sich für mich erstmal nicht direkt nach SATA an, aber evtl wirkt das dennoch ein?
 
Es spricht dagegen, dass es der SoC ist. Wie gesagt ata2 und ata4 werfen Fehler und da befinden sich verschiedene Chips dahinter. Es wäre unwahrscheinlich, dass zeitnah zwei Controller gleichzeitig Fehler verursachen.

Die Smartwerte solltest du beobachten, ebenso wie das Log. Also auch wenn alles funktioniert würde ich da ein Auge drauf halten. Die Fehler von /dev/sdd sind auf einem Niveau, wo ich sie auf produktiven System rausschmeißen würde, auch wenn ich davon ausgehe, dass die Fehler hauptsächlich durch Fehlerhafte Kommunikation kommen.
 
Zurück
Oben