ZFS Status: Degraded

will-lee

Lt. Junior Grade
🎅Rätsel-Elite ’25
Registriert
Juli 2025
Beiträge
380
Hallo,

im Moment tauchen bei mir die Probleme echt gehäuft auf, aber ich hoffe hier auf Hilfe. Mein Selbstbau-NAS läuft mit OMV 7. Das Betriebssystem ist auf einer 512 GB SSD mit Ext4. Daten auf zwei WD 4 TB im mirror-z. Eine ist neu, die andere mehrere Jahre alt. Bisher ist nur das Backup der OMV da drauf und ein paar leere Ordner.

Das Problem ist, dass die ältere Platte beim Scrub:

ZFS has finished a scrub:

eid: 201
class: scrub_finish
host: homeserver
time: 2025-09-14 08:00:52+0200
pool: data
state: DEGRADED
status: One or more devices are faulted in response to persistent errors.
Sufficient replicas exist for the pool to continue functioning in a
degraded state.
action: Replace the faulted device, or use 'zpool clear' to mark the device
repaired.
scan: scrub repaired 6.75M in 00:00:49 with 0 errors on Sun Sep 14 08:00:52 2025
config:

NAME STATE READ WRITE CKSUM
data DEGRADED 0 0 0
mirror-0 DEGRADED 0 0 0
ata-WDC_WD40EFPX-68C6CN0_WD-WX32D35A9K72 ONLINE 0 0 0
ata-WDC_WD40EFRX-68N32N0_WD-WCC7K1FK38EK FAULTED 25 0 36 too many errors

errors: No known data errors


Keine Datenfehler. SMART im grünen Bereich. Ich habe schon zpool clear probiert. Dann klappt es. Beim nächsten Scrub der gleiche Fehler. Da ich grad keine 100€ für eine Platte habe, die Frage: Was kann ich machen? Die Fehler beunruhigen mich. Ich sehe mehrere Möglichkeiten: Raid auflösen, eine Platte verwenden, die andere als Backup zusätzlich zu anderem Backup. Würdet ihr dann ausbauen oder drin lassen? Die läuft ja eigentlich nur an, wenn etwas geschrieben wird dann. Zusätzliches Backup auf externe an der Fritzbox und zusätzlich in der Cloud für wirklich wichtige Daten wie Fotos und Dokumente.

Oder den Pool bestehen lassen und den Fehler ignorieren (vermutlich dumm).

Wenn ich eine einzelne Platte benutze, von der Backups gemacht werden, dann trotzdem ZFS oder eher auf Ext4 wechseln? Ich würde das System wohl dann einmal komplett neu aufsetzen. So viel habe ich zum Glück noch nicht damit gemacht.

Schönen Sonntag euch!
 
Mist. Ich habe es befürchtet. ZFS dann bestehen lassen? Das Raid habe ich tatsächlich nur aufgesetzt, weil die zweite Platte ja noch da war. Also könnte auch gut mit einem 1 Bay NAS leben und dann eben ein Backup mehr ziehen. Ein Raid ist eigentlich nicht nötig, da das nur für piHole interessant wäre, welches ja eh auf der 512 laufen soll und mit auf der 4 TB gesichert wird. Dafür wollte ich eh irgendwann einen Raspi als Ausfallsicherheit nehmen.

Da mir gerade die Ideen fehlen: Ist die defekte noch für irgendwas gut außer der Tonne?

Warum bekomme ich eigentlich keine SMART-Fehler angezeigt? Ich dachte immer, die würden als erstes eine defekte Platte ankündigen. Kann ich einfach runterfahren, Platte entfernen und wieder hochfahren oder muss ich die erst aushängen und vorab aus dem Pool entfernen? Neue Platte dann später einfach rein und dem Pool nur hinzufügen? Rebuild macht er selbst?

Danke dir schon mal.
 
Zuletzt bearbeitet:
Solange du ein Backup hast, ist es ja kein Problem. Ein RAID ist ja nur hilfreich, damit bei einem Ausfall der Server weiterläuft und nicht komplett ausfällt. Bestes Beispiel ist dabei dein Pi-Hole. Aber das kann auch ein Geübter schnell im Notfall wiederherstellen oder umgehen bzw. deaktivieren.

Leider hat es dich schneller erwischt als gedacht. Ich hatte ja damals schon zu einer neueren und größeren Platte geraten, um langfristig in der Datenmenge gerüstet zu sein. Es gibt ja unterschiedliche Fehler. Du kannst die „defekte“ HDD ja noch mit anderen Tools genauer testen, um etwas mehr zu erfahren

Ob du die HDD für ein Backup oder Dateispeicher weiterverwendest, hängt immer von der Wichtigkeit der Daten ab. Die HDD kann noch Jahre für bestimmte Anwendungen gute Dienste leisten oder auch nicht. Letztendlich steckt man nie genau drin. Das gilt für neue und auch alte HDDs.

Kauf dir eine gute gebrauchte mit entsprechenden SMART-Werten oder eine größere, und lebe erst einmal mit dem Speicherverlust. Die kleineren HDDs sind sehr preisstabil pro TB und selten preislich gerechtfertigt.
 
Habe drüber nachgedacht und ich mache folgendes: Gute Platte: Fotos, Dokumente, also kritische Daten. Defekte Platte: Musik, die ich auf CD habe, Filme usw. ohne Sicherung, da ich die eh noch da habe. Einfach nur für Komfort per Netzwerk oder so. Nur die wichtige Platte wird auf eine Externe per Duplicati an der Fritzbox gesichert und Fotos und Dokumente zusätzlich in Clouds.
Wäre es in dem Szenario sinnvoller auf Ext4 zu gehen?
Das jetzt noch einmal aufzusetzen wäre kaum ein Problem, da ja noch quasi nix drauf ist und mich das Konfigurieren vielleicht 30 Minuten kostet.

Ich muss dazu sagen, dass die 4 TB eh mit so vielleicht einem erst belegt sind, eher weniger.
 
Die Sache sieht m.E. so aus: Du machst einen Scrub, bei dem viele Mismatches festgestellt werden. Diese werden dann korrigiert (also auf der entsprechenden Platte neu geschrieben), sind aber beim nächsten Scrub wieder da. Es besteht also m.E. ein Oberflächendefekt bei der einen Platte bzw. diese ist nicht mehr in der Lage, Daten "sicher" zu halten.

Die ist somit m.E. absolut durch und sollte für keinerlei Daten mehr verwendet werden.

will-lee schrieb:
Keine Datenfehler.

Ja, weil sie aus der Redundanz korrigiert werden konnten. Dabei wird eben der gesamte Pool betrachtet. Die eine einzelne Festplatte hatte Datenfehler.

will-lee schrieb:
Wäre es in dem Szenario sinnvoller auf Ext4 zu gehen?

Wie ohne ZFS willst du denn Fehler erkennen? Ohne ZFS hättest du die Datenfehler auf der einen Platte u.U. gar nicht bemerkt.

Also nein, EXT4 macht mMn keinen Sinn - außer du möchtest weniger Sicherheit für deine Daten. Auch ohne RAID kann man bei ZFS einen Scrub durchführen und so die Daten prüfen.
 
  • Gefällt mir
Reaktionen: will-lee und und tschüss
will-lee schrieb:
Ich muss dazu sagen, dass die 4 TB eh mit so vielleicht einem erst belegt sind, eher weniger.
Ich bin kein Freund davon, wie zu alten Zeiten alles auf unterschiedliche Platten zu verteilen. Auch wenn du nur bestimmte Ordner in das externe Backup verschieben willst, stellt das kein weiteres Problem dar. Schiebe alles auf eine Platte, wenn der Platz reicht. Ansonsten hast du wieder einen Grund für eine größere HDD.

Ob ein EXT4 für dich besser ist, musst du selbst entscheiden. Wenn es dir aber um die maximale Sicherheit geht, solltest du mit ZFS schon nicht schlecht bedient sein. Ein Kompensieren der defekten HDD mit einem anderen Filesystem wird nicht funktionieren. Defekt ist nun einmal defekt. Solange du ein Backup hast, ist doch alles ok. Natürlich wird es im Gegensatz zu einem RAID immer kleine Verluste geben in Bezug darauf, wie regelmäßig das Backup erfolgt. Die Dateien zwischen den Backups könnten verloren gehen.

Mach doch erst einmal einen SMART-Test der alten Platte. Scheinbar wird dieser eine erhöhte Anzahl von defekten Sektoren ausweisen? Die Fehlermeldung oben ist doch nicht wirklich etwas Aussagekräftiges über den aktuellen HDD-Zustand.
 
  • Gefällt mir
Reaktionen: will-lee und Banned
Habe jetzt einen SMART Short zunächst gemacht. Keinerlei Fehler. Ich lasse jetzt einen Long laufen. Der dauert allerdings bis kurz vor 21 Uhr.

Was würde es denn heißen, wenn ZFS Fehler ausgibt, SMART aber nicht? Was wäre denn da maßgeblich? Die wird ja von OMV eh dauerhaft überwacht und da gab es bisher keine Fehler. Also meine Tendenz ist defintiv, die dann nicht mehr zu nutzen wie @Banned sagt. Das hieße aber ja im Umkehrschluss, dass ich mich auf SMART nicht verlassen kann.

Kann ich die denn einfach rausnehmen und ZFS kommt damit klar?
 
will-lee schrieb:
Das hieße aber ja im Umkehrschlluss, dass ich mich auf SMART nicht verlassen kann.
Das halte ich für ein Gerücht. Die Ursache für diesen Fehler muss sich ja erklären lassen.
Solange die SMART-Werte nichts Auffälliges zeigen, würde ich die Platte weiter verwenden.
 
Ich lasse den Long erst mal durchlaufen und poste dann das Ergebnis hier.
 
will-lee schrieb:
Keine Datenfehler. SMART im grünen Bereich.

Das kann auch eine soft corruption sein. Es muss nicht immer ein Hardware Fehler auf der Festplatte vorliegen.

Es kann sein das die Platte nicht hinterher kam weil SMR. Es kann der RAM auch defekt sein, das Kabel zur Platte, etc.
 
  • Gefällt mir
Reaktionen: Banned und und tschüss
Ok, dann wäre die Lösung, falls es keine SMART-Fehler gibt, tatsächlich für mich nur mit einer Platte zu fahren und die zweite nur als zusätzliche Sicherungsplatte innerhalb des NAS zu nutzen. Defekten RAM schließe ich eigentlich aus, den habe ich ja bei Neubau innerhalb des letzten Monats mit Memtest mit 5 kompletten Durchläufen getestet. Da müsste ich jetzt schon extremes Pech haben. Kabel könnte ich mal ein zweites probieren, aber da ich im Grunde ja kein RAID brauche sondern es nur nice to have fand, wäre das oben genannte wohl die einfachste Lösung. Das piHole würde ja eh auf der systemplatte laufen, die nicht Teil des Raids ist und somit eh keine Ausfallsicherheit hat (und auch nicht braucht, da mal kurz ohne Internet hier kein Beinbruch darstellt, bzw. ich das ja auch schnell wieder umkonfigurieren kann im Fall der Fälle).

Beide Platten solten CMR sein. WD Red und WD Red Plus. Kann es eventuell daran liegen, dass die EFPX einen viermal so großen Cache wie die EFRX hat? Ansonsten sind die eigentlich gleich.

https://geizhals.de/?cmp=992027&cmp=2810977&active=1
 
Zuletzt bearbeitet:
Warte doch erst einmal das Testergebnis ab, und wenn dann nichts Auffälliges zu beobachten ist, würde ich den Scrub noch einmal ausführen und sehen, was dann passiert.

Ich denke, dass auch bei einem erweiterten Test nichts gefunden wird. Selbst ein einfacher Test ist oft überflüssig und beim Schadensfall nicht zu empfehlen. Es reicht oft aus, die vorhandenen und ausgelesenen Werte zu analysieren.

Wie @JumpingCat schon geschrieben hat, kann es weitere Ursachen haben, vom BIOS über das Mainboard, Kabel, Software usw. Der angezeigte Fehler ist so nur wenig aussagekräftig.
 
  • Gefällt mir
Reaktionen: JumpingCat
will-lee schrieb:
Was würde es denn heißen, wenn ZFS Fehler ausgibt, SMART aber nicht?

Das könnte theoretisch heißen, dass ZFS aufgrund seiner höheren Prüfsummenkomplexität Fehler erkennen konnte, die auf Sektorebene nicht erkannt werden konnten. Auch kann es kann sein, dass zwar schwebende Sektoren festgestellt werden, der Zähler aber durch das Neubeschreiben über die Redundanz wieder auf null gesetzt wird. (Siehe 197 hier: https://en.wikipedia.org/wiki/Self-...eporting_Technology#ATA_S.M.A.R.T._attributes)

Wird dir denn ein Rohwert beim Attribut Read Errors angezeigt?


will-lee schrieb:
Was wäre denn da maßgeblich? Die wird ja von OMV eh dauerhaft überwacht und da gab es bisher keine Fehler.

Gut, wenn in gewissem Intervall immer die Smartwerte geprüft werden, macht das die Sache etwas mysteriöser. Andererseits muss ein Sektor natürlich auch erst mal gelesen werden, um einen Fehler festzustellen.


will-lee schrieb:
Das hieße aber ja im Umkehrschluss, dass ich mich auf SMART nicht verlassen kann.

Verlassen ist immer so eine Sache. Absolute Sicherheit gibt es selten, und auch nicht mit SMART.


will-lee schrieb:
Kann ich die denn einfach rausnehmen und ZFS kommt damit klar?

Ob die Platte nun degraded und vorhanden, oder ob sie ausgebaut ist, wird keinen Unterschied machen. Sobald du eine neue einbaust, wird dann eben das Resilvering (Rebuild) starten.

Ich würde dir aber wirklich empfehlen, erst mal ein Backup anzulegen oder das System erstmal nicht mehr zu nutzen. Sofern du ein Backup hast und ich es überlesen habe, dann bitte ich um Verzeihung.
 
Zuletzt bearbeitet: (typo)
  • Gefällt mir
Reaktionen: und tschüss
Backup der gesamten Ordner aus meinem alten NAS habe ich auf meinem Rechner und jeweils zwei externen Platten. Fotos dazu noch zum absolut größten Teil in der iCloud. Hatte das noch nicht auf das neue rübergezogen. Das wollte ich tatsächlich heute machen und dann gab es eben den Fehler unabhängig davon heute morgen.
 
Das ist doch schon mal gut. Ob du jetzt wieder ein RAID bzw. Mirroring machst oder die gute HDD alleine verwendest, bleibt natürlich dir überlassen. Mit RAID hast du automatische Fehlerkorrektur bei einem Scrub (ansonsten werden dir die betroffenen Dateien angezeigt und du musst ein Backup einspielen) und höhere Lesegeschwindigkeit.

Die alte, wahrscheinlich defekte HDD als Spiegelung weiterzuverwenden und dabei noch höheren Stromverbrauch zu haben, macht mMn aber keinen Sinn.
 
Banned schrieb:
Auch kann es kann sein, dass zwar schwebende Sektoren festgestellt werden, der Zähler aber durch das Neubeschreiben über die Redundanz wieder auf null gesetzt wird.
Das lässt sich ja an den SMART-Werten nachvollziehen. Und wenn diese Sektoren „relocated“ sind, sollte das Problem behoben sein. Deshalb sind ja freie Sektoren auf jeder HDD vorhanden. Problematisch wird es erst dann, wenn keine neuen Sektoren mehr vorhanden sind. Um diese Werte auszulesen, muss man noch nicht einmal ein SMART-Test machen.

Ob die HDD wirklich defekt ist, wird man erst einmal sehen müssen. Das sagt der Fehler von ZFS nicht unbedingt aus, sondern nur, dass es „Unterschiede“ gibt, wodurch diese auch immer erzeugt wurden.
 
snoogans schrieb:
Das lässt sich ja an den SMART-Werten nachvollziehen. Und wenn diese Sektoren „relocated“ sind, sollte das Problem behoben sein

@will-lee schreibt doch das da alles ok sei. Ich würde daher den Fehler woanders Suchen und mich nicht weiter mit der Festplatte beschäftigen.
 
snoogans schrieb:
Das lässt sich ja an den SMART-Werten nachvollziehen.

Müsste man meinen; ist aber scheinbar nicht zwangsläufig immer der Fall:
However, some drives will not immediately remap such sectors when successfully read; instead the drive will first attempt to write to the problem sector, and if the write operation is successful the sector will then be marked as good (in this case, the "Reallocation Event Count" (0xC4) will not be increased). (Aus dem Wiki-Artikel)

snoogans schrieb:
Und wenn diese Sektoren „relocated“ sind, sollte das Problem behoben sein. Deshalb sind ja freie Sektoren auf jeder HDD vorhanden. Problematisch wird es erst dann, wenn keine neuen Sektoren mehr vorhanden sind.

Ja, ist trotzdem kein gutes Zeichen für den Gesundheitszustand einer HDD, wenn Sektoren neu zugewiesen werden müssen. Deshalb wird dieses Attribut allgemein auch als kritisch angesehen. Eine solche HDD sollte mMn zeitnah ersetzt werden. Es ist was anders als bei SSDs, wo Blöcke bzw. Sektoren einfach totgeschrieben werden können.
Wenn bei HDDs Oberflächenprobleme bestehen, ist es nicht unwahrscheinlich, dass diese auch bald an anderer Stelle auftreten.

snoogans schrieb:
Das sagt der Fehler von ZFS nicht unbedingt aus, sondern nur, dass es „Unterschiede“ gibt, wodurch diese auch immer erzeugt wurden.

Naja, ZFS erkannt schon, dass die Prüfsummen auf Dateisystemebene auf der einen HDD alle inkorrekt sind und auf der anderen nicht. Sonst wüsste es schließlich auch nicht, in welche Richtung korrigiert werden müsste. Entsprechend werden im Log die Fehler hier auch nur für das eine Laufwerk angegeben.

Wodurch jetzt die Fehler auf dem einen Laufwerk zustande kommen, weiß man nicht, stimmt. Aber man weiß, dass sie immer wieder auf demselben Laufwerk auftreten.
 
Zuletzt bearbeitet:
@JumpingCat
Das Ergebnis vom erweitert Test steht noch aus, wobei ich nicht glaube, dass sie etwas ändern wird:
will-lee schrieb:
Ich lasse den Long erst mal durchlaufen und poste dann das Ergebnis hier.
Und gerade bei einem Ausfall kann ein Test, egal ob einfach oder erweitert, der Todesstoß sein. Die einfachen SMART-Werte reichen oft zur Diagnose aus, wie ich schon hier geschrieben habe:
snoogans schrieb:
Selbst ein einfacher Test ist oft überflüssig und beim Schadensfall nicht zu empfehlen. Es reicht oft aus, die vorhandenen und ausgelesenen Werte zu analysieren.
Wenn ein fehlerhafter Sektor erkannt oder „relocated“ wird, wird dies auch automatisch in den SMART-Werten gespeichert. Ein Test ist mit einer erneuten Suche in unterschiedlichen Stufen (einfach oder erweitert) gleichzusetzen.

JumpingCat schrieb:
Ich würde daher den Fehler woanders Suchen und mich nicht weiter mit der Festplatte beschäftigen.
Da bin ich bei dir und war schon vorher skeptisch. Nur, weil ein Log irgendetwas schreibt, sollte man nicht blind irgendetwas tauschen. Es dient ja nur zur Hilfe, mit entsprechendem Wissen den Fehler einzugrenzen, um diesen dann anschließend beheben zu können.

Banned schrieb:
Aus dem Wiki-Artikel
Auch im Wiki stimmt nicht immer alles ;)

Banned schrieb:
Ja, ist trotzdem kein gutes Zeichen für den Gesundheitszustand einer HDD, wenn Sektoren neu zugewiesen werden müssen. Deshalb wird dieses Attribut allgemein auch als kritisch angesehen.
Das bestreite ich ja nicht, aber diese Werte wurden hier im Beitrag nicht veröffentlicht, um überhaupt etwas Aussagekräftiges zu schreiben oder eine Empfehlung abgeben zu können. Für diese Werte ist noch nicht einmal ein Test notwendig! Ich habe nichts gelesen, dass überhaupt defekte oder relocated Sektoren vorhanden sind.

Banned schrieb:
ZFS erkannt schon, dass die Prüfsummen auf Dateisystemebene auf der einen HDD alle inkorrekt sind und auf der anderen nicht. Sonst wüsste es schließlich auch nicht, in welche Richtung korrigiert werden müsste.
Deine Aussage bezieht sich nur auf die Fehlermeldung durch das ZFS. Es gibt ja noch andere mögliche Ursachen. Die Meldung sagt ja nur, dass es einen Unterschied gibt – nicht mehr und nicht weniger. Somit muss man weitere Tests machen, um den Fehler einzugrenzen. Dass ZFS höher als die SMART-Werte bei HDD-Problemen zu bewerten ist, ist für mich haltlos und kann ein sicheres Ergebnis nur in der Kombination liefern. Wir wollen ja hier nicht „Rate mal mit Rosenthal" spielen, sondern fachlich die Problematik annehmen und helfen.
 
  • Gefällt mir
Reaktionen: JumpingCat
Zurück
Oben