Volume 1 schreibgeschützt Synology RS3618xs

Sithys

Captain
Registriert
Dez. 2010
Beiträge
3.426
Moin zusammen,
nach einer quasi schlaflosen Nacht fasse ich kurz zusammen: Wir haben/hatten ein RS3618xs mit 6x 10Tb im RAID6, einem SSD-Cache mit zwei SATA SSDs. Auf dem NAS lief alles mögliche, DNS, Active Directory, diverse Platten für etliche Proxmox-VMs, UserProfile Ordner für den Terminalserver etc. Gestern morgen 7Uhr bimmelt das Handy "Ich kann mich auf dem Terminalserver nicht einloggen". Während ich dann im Kopf schon wieder das Standardprozedere abspiele (Passwort zurücksetzen, per Remote aufschalten weil die Leute den Login-Knopf nicht finden etc.) krieg ich 'ne WhatsApp von einem externen Mitarbeiter "VPN geht nicht". Die Meldungen haben sich dann gehäuft, also hab ich mich auf dem NAS eingeloggt und werde oben rechts mit so einem kleinen PopUp ganz freundlich begrüßt "Volume 1 schreibgeschützt". Da war mir dann schon klar, dass das wohl ein größeres Problem sein wird, schließlich gibts dazu ja schon die ein oder andere Horror-Geschichte im Netz.

Wir haben dann als erstes mal 'ne Bestandsaufnahme gemacht, welche Systeme inwieweit betroffen sind und dann ein Ticket bei Synology eröffnet. Anschließend bin ich 300km Auto gefahren um 4x 10Tb Platten zu organisieren, damit wir ein neues Volume erstellen können, auf welches wir dann die Daten von dem schreibgeschützten kopieren, wie im Support-Dokument vorgegeben. (https://kb.synology.com/en-my/DSM/tutorial/What_to_do_when_volume_is_read_only). Haben dann die Platten entsprechend eingebunden im NAS, was darin resultierte, dass das ganze NAS nicht mehr reagiert hat, auch nach Stunden nicht. Im Netz wurde von einem Neustart abgeraten, allerdings gab es ja nun keine Alternative, nachdem wir weder per GUI noch per SSH irgendwelche Möglichkeiten mehr hatten.

Nach dem Neustart war das Volume dann weg, die Support-Nachricht hatte sich auch geändert, da stand jetzt "Volume 1 ist abnormal. Um Ihre Daten zu Retten, melden Sie sich bei Ihrem Synology-Konto an und erstellen Sie eine technische Supportanfrage".

Synology hatte zwischenzeitlich auf das Ticket geantwortet, wir sollen einen Support-User anlegen, damit die von Extern drauf zugreifen können etc. leider ist die Oberfläche aber wieder abgeschmiert, wir haben dann noch mal neu gestartet, keine Reaktion mehr. Nach knapp 35 Minuten kam das Webinterface dann doch wieder online, wir haben den User für Synology erstellt. Wenn die sich das angeschaut haben und wir wieder Zugriff auf Volume 1 bekommen, gehts los... Daten verschieben dann jede Platte durchtesten, RAM testen etc. und hoffen, dass irgendwo ein Fehler auftaucht.

Aktuell warten wir drauf, dass Synology sich des Problems annimmt. Es scheint nur Synology mit DSM >= 7.0 (wir haben 7.2) betroffen zu sein. Mir aber insgesamt ein Rätsel, wie eine Kiste von einem auf den anderen Tag plötzlich alle Daten verliert, wenn das denn doch die Hauptaufgabe des Systems ist aber gut, höhere Magie :).

Wir haben natürlich 'n OffSite-Backup, einmal an einen zweiten Standort, 'ne 100% Kopie und nochmal die Wichtigsten zu Hetzner in die Cloud. Der Ausfall dauert aber natürlich, ich kann hier ja schließlich nicht mal eben 'n USB-Stick irgendwo reinstecken und dann sagen "in 2 Stunden ist alles wieder online".

So far... vielleicht hat ja noch jemand den passenden SSH Befehl um einfach alles wieder zum Laufen zu kriegen. Der Alternativvorschlag aus dem Netz war: Downgrade auf 6.2 :D !
 
Meine Empfehlung wäre:

  • wechsel von "Hobby Equiment" (Synology) zu Enterprise ECM (Dell, HP)
  • grundsätzlich stimmt Dein IT Konzept nicht, wenn eine Komponete ausfällt alles crashed

Daran solltet ihr arbeiten, nachdem das Problem gelöst wurde, damit es nicht wieder passiert.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Sithys
Ich kann trotzdem nur mit dem Arbeiten, was eben bezahlt wird. Keine Frage: Nach der Aktion geht der Geldbeutel weiter auf, aber du weißt doch sicherlich auch, wie das ist, wenn du mit der Geschäftsführung argumentieren musst etc.
Der Laden hat ungefähr 15-20 Mitarbeiter, ich denke, dass was wir da im Rahmen der finanziellen Möglichkeiten aufgebaut haben, ist durchaus in Ordnung und vertretbar - keine Frage: Besser (und evtl. teurer) geht immer! :)
 
  • Gefällt mir
Reaktionen: tRITON
Wer kennt es nicht ... Speicherplatz? "Ja warum gehen Sie denn nicht in den nächsten Elektromarkt und kaufen eine Festplatte?" ...

Ich rechne hier oft vor (mal deine Zahlen als Beispiel)

20 x 40.000€ Gehalt pro Jahr = 800.000€ Lohn kosten. Im Jahr gibt es ca. 250 Arbeitstage. 800.000€/250Tage = 3200€/Tag Also rund 3200€ pro Tag an welchem nicht gearbeitet wird, nur an Lohnkosten. Dazu kommt noch das nicht produziert, gearbeitet werden kann. Dazu gibt es auch Zahlen. Dann rechnest du noch die Wiederherstellungszeit (Kosten) dazu und hast eine Summe X, Wenn dann die Anschaffung unter dieser Summe liegt wurde meiner Meinung nach falsch investiert (zu wenig), da ein Ausfall deutlich teurer wird, als die Beschaffung, um diesen zu verhindern.

Meist lernen die Leiter der Firmen aus solchen Zwischenfällen, daher ist es gut sich auch Gedanken um ein besseres Konzept zu machen.

Redet auch mal über eine entsprechende SLA (Service Level Agreement), wie lange Ausfallszeiten sein dürfen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Sithys
Man sollte aber trotzdem nicht vergessen, dass eine Synology RS3618xs kein Hobby Equipment ist, sondern eben Enterprise Equipment. Ändert aber nichts daran, dass man ein Ausfalls und Backupszenario braucht.
Auch HP, Dell, Fujitsu können ausfallen. Hatte bei HP schon inkonsistenten Datenmüll der von einem Tag auf den anderen plötzlich die Daten zugemüllt hat. Backplane defekt... Backplane ersetzt, Backup rückgespielt. 36h Ausfallszeit, zum Glück ein kleines Unternehmen und übers Wochenende.
Dann braucht man guten Support und ja da sind die "klassischen" Enterprisepartner besser.
Noch viel besser wäre einen Systempartner in der Hinterhand zu haben, der einen im Notfall, zwar für teures Geld, aus der Patsche hilft.

Es ist technisch ganz einfach, aber wenns ums Geld geht, dann wirds kompliziert.
Simple Lösung: No single Point of Failure -> Ja aber das kostet. Ach und wir brauchen ein Backupszenario um zumindest nen Basisbetrieb fahren zu können. WAAAAAASSSS das kostet ja noch mehr.

Ja Chef und was kostet es sie wenn alle Daten weg sind oder was kostet 1 Tag Totalausfall. Nicht nur Geld, auch ansehen, Termintreue usw.

Zum Thema: Tut mir leid aber nen magischen SSH Befehl kenn ich nicht, ich kenne nur leider genau diese Probleme auch zur genüge.
 
  • Gefällt mir
Reaktionen: Mu Wupp und Sithys
Sithys schrieb:
Der Alternativvorschlag aus dem Netz war: Downgrade auf 6.2 :D !
Das geht entweder nur per Werksreset (Daten vorher sichern) oder nur inoffiziell und dann nur mit SSH. Unter Umständen kann es hinterher Fehlermeldungen im Webui geben (ich hatte z.B. eine wegen SMB, weil bei 7.x als App, bei 6.x Nativ und die App war noch da und ließ sich nicht Downgraden. Konnte ich aber mit Leben, weil Notlösung bis die Probleme mit 7.x Update Y behoben waren, dass man wieder upgraden konnte). Also fürn Produktiven Einsatz sollte dann nur die offizielle Methode mittels Werksreset durchgeführt werden.

Das Read-Only Problem habe ich zum Glück noch nicht gehabt (weder zu Hause noch auf der Arbeit).
 
  • Gefällt mir
Reaktionen: Sithys
BrollyLSSJ schrieb:
Das Read-Only Problem habe ich zum Glück noch nicht gehabt (weder zu Hause noch auf der Arbeit).
Wünscht man auch keinem... größter Müll, kann man nicht gebrauchen. Ich verstehe ja auch nicht, wie das einfach auftreten kann. Dateisystem kaputt... wahrscheinlich waren es geflippte Bits, wird der nächste Serverraum also doch als Blei-Bunker gebaut, damit keine kosmische Strahlung mehr eindringen kann :D . Naja der Synology-RAM ist ja ECC... keine Ahnung, ich bin ratlos. Am Ende wundere ich mich nur über die gehäufte Anzahl an Topics dazu im Netz seit DSM 7, vor allem das Support-Dokument sagt ja auch, betrifft DSM ab 7.0... vielleicht doch 'n Bug in dem Btrfs? Ich weiß es nicht.

Der Synology-Support ist per SSH mit der Kiste verbunden und versucht da was zu regeln... wir sehen ja aktuell, was die da machen. Am Ende das gleiche wie wir auch die halbe Nacht: Die versuchen das Volume 1 zu mounten und wundern sich, warum das nicht geht. Mount-Befehl gefolgt von top, logs gucken etc. so haben wirs auch gemacht. Ich vermute einfach mal das ist aktuell First Level Support, eventuell moven die das dann noch 'ne Kategorie nach oben?! Oder die schließen das Ticket gleich einfach, wegen unsupported hard drives oder sowas keine Ahnung, ich lass mich überraschen.

Das Problem ist, dass der Mount-Befehl freezed, da hat bei uns dann nur 'n Reboot geholfen. Der Herr oder die Dame vom Support guckt jetzt seit 'ner Stunde in top rein und hofft, dass was passiert :)

/Edit: Okay, sie haben auf das Ticket geantwortet. Sie können Volume 1 nicht mounten wegen Dateisystemfehlern, aber sie wollen versuchen, irgendwie einzuhängen damit wir an die Daten kommen - wie auch immer: Sie kommen aktuell nicht weiter, wir sollen das NAS hart neu starten und dann Info geben.
 
Sithys schrieb:
vielleicht doch 'n Bug in dem Btrfs?
Könnte sein. Ich habe noch gutes, altes EXT4 und nur (mehrere) RAID1 (zu Hause) oder RAID5 (Arbeit).
 
  • Gefällt mir
Reaktionen: Sithys und flo36
Feierabend in Taiwan, keine Rückmeldung mehr... denke morgen gehts weiter.
 
Sithys schrieb:
Feierabend in Taiwan...

Naja, Taipeh bzw. Taiwan liegt in den Zeitzonen 6 Stunden vor uns. Also rund 23:24 Uhr. Uns spät in der Nacht wird nur bei entsprechend teuren 7x24h Verträgen gearbeitet. Weiß nicht ob ihr so etwas habt.
 
xone92 schrieb:
Weiß nicht ob ihr so etwas habt.
Bietet Synology sowas an? Ich wüsste gar nicht, wo man das erwerben kann für das NAS?! Hätte ich ja sonst sofort für gelöhnt :).

Auf der Seite steht:

Support: +1 425 296 3177
Erreichbar: 24/7, auch an Feiertagen
 
Sithys schrieb:
Bietet Synology sowas an?

Weiß nicht, habe gestern Abend nur kurz auf der Synology Homepage geschaut - ganz verstanden habe ich es nicht. Aber ausschließen würde ich es nicht.
 
Zurück
Oben