Wo bekommt man vernünftige SATA Kabel?

henfri

Lieutenant
Registriert
Juni 2020
Beiträge
521
Hallo,

ich habe schon häufiger dieses Problem gehabt:
Code:
[Sa Aug 20 12:27:04 2022] ata2: EH complete
[Sa Aug 20 12:27:09 2022] ata2: limiting SATA link speed to 3.0 Gbps
[Sa Aug 20 12:27:09 2022] ata2.00: exception Emask 0x10 SAct 0x800 SErr 0x850000 action 0x6 frozen
[Sa Aug 20 12:27:09 2022] ata2.00: irq_stat 0x08000000, interface fatal error
[Sa Aug 20 12:27:09 2022] ata2: SError: { PHYRdyChg CommWake LinkSeq }
[Sa Aug 20 12:27:09 2022] ata2.00: failed command: READ FPDMA QUEUED
[Sa Aug 20 12:27:09 2022] ata2.00: cmd 60/20:58:20:aa:ef/00:00:33:03:00/40 tag 11 ncq dma 16384 in
[Sa Aug 20 12:27:09 2022] ata2.00: status: { DRDY }
[Sa Aug 20 12:27:09 2022] ata2: hard resetting link
[Sa Aug 20 12:27:09 2022] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 320)


[Sa Aug 20 13:31:53 2022] ata3.00: exception Emask 0x10 SAct 0x40 SErr 0x850000 action 0x6 frozen
[Sa Aug 20 13:31:53 2022] ata3.00: irq_stat 0x08000000, interface fatal error
[Sa Aug 20 13:31:53 2022] ata3: SError: { PHYRdyChg CommWake LinkSeq }
[Sa Aug 20 13:31:53 2022] ata3.00: failed command: READ FPDMA QUEUED
[Sa Aug 20 13:31:53 2022] ata3.00: cmd 60/00:30:00:72:41/02:00:74:02:00/40 tag 6 ncq dma 262144 in
[Sa Aug 20 13:31:53 2022] ata3.00: status: { DRDY }
[Sa Aug 20 13:31:53 2022] ata3: hard resetting link
[Sa Aug 20 13:31:53 2022] ata3: SATA link up 6.0 Gbps (SStatus 133 SControl 300)

Und zwar an unterschiedlichen Rechnern, mit unterschiedlichen Platten.

Laut vielen Quellen deutet der Fehler auf eine schlechte SATA Verbindung hin.
Bisher habe ich immer Kabel von Amazon gekauft (meist Delock oder so). Wie finde ich denn mal Kabel, die etwas taugen?

Gruß,
Hendrik
 
Alternate, mindfactory.. Bei echten Shops die sich auch ein bißchen für ihre Kunden interessieren hast du ne chance.
Auf Amazon ist ungefiltert sehr viel Müll.
Wobei delock in der Regel recht gute Sachen vertreibt.
Zeig mal die smart stats
 
Hab noch nie Probleme gehabt mit den SATA Kabeln die auch beim Board dabei waren.Musste mir bis jetzt noch nie welche extra kaufen
Wenn man dem ganz aus dem Weg gehen möchte ,dann halt direkt auf eine NVME SSD wechseln,dann hat man ja keine Probleme mehr mit Kabeln ,vorausgesetzt die Technik ist vorhanden :p
 
Die Fehlerausgabe schaut sehr nach Linux aus. Ich würde stark darauf tippen, dass es nicht die Sata-Kabel sind sondern eine Mischung aus Sata Controller und CPU. Eigentlich sollten neuere Kernelversionen[1] Fixes enthalten, aber so schnell wie manche Hersteller Mist verbrechen patcht die Community nicht hinterher.

Es wäre interessant, welche CPU(s) und Controller im Einsatz sind. Als Problematisch bekannt sind meines Wissens vor allem Marvell Controller. Siehe:
https://bugzilla.kernel.org/show_bug.cgi?id=42679

[1]Linux 4.4.300, 4.9.298, 4.14.263, 4.19.226, 5.4.174, 5.10.94, 5.15.17, and 5.16.3. und später und auch nur wenn die genutzte Distribution Mainline Kernel nutzt.
 
Piktogramm schrieb:
Die Fehlerausgabe schaut sehr nach Linux aus. Ich würde stark darauf tippen, dass es nicht die Sata-Kabel sind sondern eine Mischung aus Sata Controller und CPU. Eigentlich sollten neuere Kernelversionen[1] Fixes enthalten, aber so schnell wie manche Hersteller Mist verbrechen patcht die Community nicht hinterher.
ich nutze einen selbst kompilierten Kernel 5.16.5. Das sollte also ok sein?

Der Controller ist dieser
Code:
       description: SATA controller
       product: 200 Series PCH SATA controller [AHCI mode]
       vendor: Intel Corporation
       physical id: 17
       bus info: pci@0000:00:17.0

Rickmer schrieb:
Ich hatte noch nie Ärger mit den SATA Kabeln, die diversen Mainboards beigelegt waren.

deleyCON ist eine Marke, die ich kenne. Die haben auch eine eigene Website, verkaufen aber über Amazon:
https://www.deleycon.de/category/produkte/kabel-adapter/sata-kabel/

Startech hat eine gute Auswahl an ausgefalleneren Formen:
https://www.startech.com/de-de/kabel/laufwerk/sata
Und die taugen beide was?

madmax2010 schrieb:
Wobei delock in der Regel recht gute Sachen vertreibt.
Zeig mal die smart stats

Hm, Delock ist auch ok... dann muss es ja daran liegen, dass ich die Kabel nicht ordentlich montiere...

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.16.5] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Red
Device Model: WDC WD120EMFZ-11A6JA0
Serial Number: x
LU WWN Device Id: 5 000cca 28edea60d
Firmware Version: 81.00A81
User Capacity: 12.000.138.625.024 bytes [12,0 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2, ATA8-ACS T13/1699-D revision 4
SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Sat Aug 20 14:49:29 2022 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x80) Offline data collection activity
was never started.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 101) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: (1220) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 001 Pre-fail Always - 0
2 Throughput_Performance 0x0004 135 135 054 Old_age Offline - 104
3 Spin_Up_Time 0x0007 081 081 001 Pre-fail Always - 384 (Average 384)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 267
5 Reallocated_Sector_Ct 0x0033 100 100 001 Pre-fail Always - 0
7 Seek_Error_Rate 0x000a 100 100 001 Old_age Always - 0
8 Seek_Time_Performance 0x0004 133 133 020 Old_age Offline - 18
9 Power_On_Hours 0x0012 100 100 000 Old_age Always - 1802
10 Spin_Retry_Count 0x0012 100 100 001 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 34
22 Helium_Level 0x0023 100 100 025 Pre-fail Always - 100
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 869
193 Load_Cycle_Count 0x0012 100 100 000 Old_age Always - 869
194 Temperature_Celsius 0x0002 054 054 000 Old_age Always - 30 (Min/Max 19/34)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 100 100 000 Old_age Always - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 2 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Sieht also gut aus.

Gruß,
Hendrik
 
Bei fehlerhaften Kabeln müssten die Werte für UDMA_CRC durch die Decke gehen. Es ist nicht ausgeschlossen, dass es die Kabel sind. Bei den Smart Werten, mehreren Rechnern, Laufwerken und damit vielen Kabeln halte ich es jedoch für unwahrscheinlich, dass es die Kabel sind.

Auf Verdacht gescheite Kabel Stecken, ok, der Kram ist günstig und Delock gut genug. Was ich probieren würde:
  • Wenn LinkPowerManagement und Schlafzustände der HDDs konfiguriert sind, diese deaktivieren
  • Falls verwendet, Übertaktung deaktivieren und da auch aus obskures Tuning der Boardhersteller unter kryptischem Namen beachten
  • Bios/Uefi des Boards updaten
  • Neueren Kernel verwenden (soweit mit vertretbarem Aufwand möglich, in der Hoffnung das ein obskurer Bug gefixt wurde)
 
Hallo,

interessanter Gedanke. Danke!
Ich habe jetzt einmal LinkPowerManagement abgeschaltet und den neusten Kernel installiert.

UEFI update ist nicht so einfach, da headless.

Zudem habe ich ein Skript geschrieben, was mir täglich das log nach o.g. Fehler durchsucht und mir bei "Erfolg" eine Mail schreibt.

hd-idle habe ich aktiv (gelassen). Das würde ich als nächstes deaktivieren, falls das Problem weiter besteht.

Werde berichten!

Gruß,
Hendrik
 
Hi, ich habe das gleiche Problem. Ich habe schon endlos in irgendwelchen Foren darüber gelesen. Immer wieder wird von defekten Kabeln geredet. Haben wir jetzt alle defekte Kabel?

Mein Setup: Non-ECC RAM Board als Server. Delock 10x SATA Karte. Voll belegt. Kernel 5.10., hab das Problem auch schon mit Kernel 4.19 gesehen.

Die Probleme traten aber auch schon auf, als die Karte nur 6x HDDs angeschlossen hatte.

Ich denke eher, dass es mit dem Controller zu tun hat. Schau mal in die letzte Antwort von:
https://www.linuxquestions.org/ques...r-hard-resetting-link-status-drdy-4175615631/
 
Zuletzt bearbeitet:
@godfuture
Der TE nutzt ein Intel Controller, Bugs von ASmedia Hardware scheinen da weniger relevant ;)

Ansonsten ist es erstaunlich, wie kaputt der ganze Hardwarekram ist. Habe mal nach ASmedia Bugs im Bugtracker vom Kernel geschaut, da gibt es wirklich absonderliche Sachen o.O
 
Hallo,

so, ich habe das Problem lösen können: ich habe hd-idle deaktiviert. Keine Probleme mehr im Log.
Dafür fahren die Platten jetzt auch nicht mehr runter :-(

Gruß,
Hendrik
 
Dann wäre die nächste Frage, wie du die HDDs überhaupt zum Schlafen bringst?!

Ansonsten, die WD120EMFZ haben recht viele Einträge, wo sie aus externen Laufwerken herausgeholt wurden. Wenn dem der Fall ist, könnte es auch sein, dass die Laufwerke darauf warten, dass sie über einen Pin des Powersteckers geweckt werden und ata wakeup nur mäßig beherrschen. Das ist aber wilde Spekulation.

Naja und auf Verdacht würde ich ein Update vom UEFI fahren, aber auch nur in der Hoffnung, dass es so "zufällig" das Problem erledigt und die alternative Suche der Fehlerquelle viel aufwendiger ist -.-
 
Hallo,

ich hab die HDDs über HD-idle zum Schlafen gebracht.
Seit HD-idle aus ist, habe ich keine Einträge wie oben mehr gehabt.

Die Platte ist tatsächlich aus einem externen Laufwer herausgeholt.

Das Problem ist jetzt aber, dass die Platten gar nicht mehr ins Idle gehen, obwohl ich sie über hdparm entsprechend konfiguriert habe. Das ist jetzt blöd...

Gruß,
Hendrik
 
Wenn du schreibst, dass du mit $tool irgendwas machst, schreib doch gleich dazu welche Befehle genau du absetzt und ob es Fehlermeldungen bzw. Logeinträge gibt -.-

Naja wenn du Pech hast, kann die Firmware der HDD keine Idle Timer, eben weil sie für USB-Laufwerke gedacht war. HD-Idle umgeht das ja, indem der Timer ins OS verlagert wird und von diesem aus ATA Sleep Commands an die HDD schickt. Etwas was hdparm -y auch macht. Da besteht dann aber die Gefahr, dass dies auch nur wieder deinen ursprüngliches Problem des ATA-Linkresets hervorruft.

An der Stelle wäre dann mal zu schauen, ob sich die Platte mittels Jumpern konfigurieren lässt oder durch das Abkleben einzelner Powerpins. Da gab/gibt es verrückte Sachen.
 
Ich nutze auf meinen Servern einfach ein Idle Detect Script - wenn z.b. 45 min gar kein Zugriff mehr erfolgt ist (und wenn raid ok und keiner per ssh eingeloggt und und und.... xD) fahre ich den komplett herunter - und bei Bedarf schalte ich den halt wieder an.

Das macht den HDDs bisher nichts aus sind ja maximal 2-3 Starts pro Tag.

Für Sachen die immer an sein sollen nutze ich einen "AlwayOnServer" auf Intel J4105 Basis der mit dem grossen per syncthing dann sich synchronisiert - denn oft braucht man ja die grossen Server doch gar nicht - zumindest wenn es nur um Daten geht (Virtualisierung ist da natürlich najo.... xD)
 
Zuletzt bearbeitet:
Hallo,

kurze Rückmeldung:
Ich hatte -obwohl hd-idle- aus geblieben ist weiter sporadische Fehler.
Diese habe ich jetzt weiter reduziert indem ich das sata-powermanagement auf max_performance gestellt habe:
for i in /sys/class/scsi_host/host[012345]/link_power_management_policy; do echo max_performance >$i; done
Das Problem besteht jedoch weiterhin noch beim Boot.

Gruß,
Hendrik
 
Ich habe das Powermanagement in der Firmware der HDDs angepasst - bei mir Seagate da gibt es ja super opensource tools für.
 
Zurück
Oben