MDADM / Software RAID zerlegt?

Powerbock

Cadet 4th Year
Registriert
Nov. 2006
Beiträge
124
Nach Stromausfall ist offensichtlich mein Software RAID unter UBUNTU weg.
Status:
Code:
cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md127 : inactive sdh[6](S) sdc[1](S) sdf[4](S) sdd[2](S) sdb[0](S) sdi[7](S) sdg[5](S)
      27340630016 blocks super 1.2

unused devices: <none>

Code:
sudo mdadm --detail /dev/md127
/dev/md127:
        Version : 1.2
     Raid Level : raid0
  Total Devices : 7
    Persistence : Superblock is persistent

          State : inactive

           Name : server:RAID  (local to host server)
           UUID : b96eaea6:19854fda:acaff950:9c5c90e1
         Events : 571724

    Number   Major   Minor   RaidDevice

       -       8       32        -        /dev/sdc
       -       8      112        -        /dev/sdh
       -       8       80        -        /dev/sdf
       -       8       48        -        /dev/sdd
       -       8       16        -        /dev/sdb
       -       8      128        -        /dev/sdi
       -       8       96        -        /dev/sdg

Code:
sudo fdisk -l /dev/sd[b-i]
Disk /dev/sdb: 3,7 TiB, 3999677808640 bytes, 7811870720 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes


Disk /dev/sdc: 3,7 TiB, 3999677808640 bytes, 7811870720 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes


Disk /dev/sdd: 3,7 TiB, 3999677808640 bytes, 7811870720 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes


Disk /dev/sde: 3,7 TiB, 3999677808640 bytes, 7811870720 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes


Disk /dev/sdf: 3,7 TiB, 3999677808640 bytes, 7811870720 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes


Disk /dev/sdg: 3,7 TiB, 3999677808640 bytes, 7811870720 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes


Disk /dev/sdh: 3,7 TiB, 3999677808640 bytes, 7811870720 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes


Disk /dev/sdi: 3,7 TiB, 3999677808640 bytes, 7811870720 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes

Habe ich tatsächlich was abgeschossen, oder besteht noch Hoffnung ? :(
Dann kann ich nachher beim Einkaufen mir gleich noch große Box Taschentücher mitbringen....

Powerbock
 
Ich bin zu lange raus mit md, aber da steht ja "nur" was von inactive. Musst du das Array eventuell einfach nur aktivieren!?
Ansonsten... Raid0... eine Platte tot = Daten weg, das ist dir klar? Daher, einfach das Backup wieder einspielen ;)

Irgendwas in der Richtung hier:
Code:
mdadm -A /dev/md127

Und dann wahrscheinlich noch mounten.
 
Zuletzt bearbeitet:
Code:
sudo mdadm -A /dev/md127
mdadm: /dev/md127 not identified in config file.

Bin Ü40, da ist nichts mehr mit Erinnerungen, aber mir ist so, das dies mal ein RAID5 war.
Datensicherung? Irgendwo habe ich dieses Wort schon mal gehört, konnte es aber nicht zuordnen...


KillerCow schrieb:
Ich bin zu lange raus mit md, aber da steht ja "nur" was von inactive. Musst du das Array eventuell einfach nur aktivieren!?
Ansonsten... Raid0... eine Platte tot = Daten weg, das ist dir klar? Daher, einfach das Backup wieder einspielen ;)

Irgendwas in der Richtung hier:
Code:
mdadm -A /dev/md127

Und dann wahrscheinlich noch mounten.
 
Zuletzt bearbeitet:
Dann fehlt das Array wohl in mdadm.conf-File... da gabs irgendwas mit --scan... schonmal die Suchmaschine deines Vertrauens befragt... oder die manpage von mdadm?

Code:
mdadm --assemble --scan /dev/md127
 
Es sieht sehr danach aus, als ob Dein Array nicht in der mdadm.conf vorhanden ist. Somit wird auch nach einem Reboot das Array nicht wieder eingehängt.

Schaue nach eingerichteten RAID Arrays und schreibe diese in die mdadm.conf
Code:
sudo mdadm --detail --scan | sudo tee -a /etc/mdadm/mdadm.conf

Führe ein Update im initramfs (Initiales RAM Dateisystem) duch. Damit stellst du sicher, dass der RAID Array gleich in den ersten Boot Schritten eingebunden wird
Code:
sudo update-initramfs -u

Wenn das RAID Array noch nicht in der /etc/fstab Datei ist, dann dieses mit folgendem Befehl hinzufügen
Code:
echo '/dev/md127 /mnt/md0 ext4 defaults,nofail,discard 0 0' | sudo tee -a /etc/fstab

Achtung!!

/mnt/md0 muss mit dem MountPoint ersetzt werden, welchen du beim Einrichten des RAIDs per mkdir .... erstellt hast und ext4 (Dateisystem) muss mit dem Dateisystem ersetzt werden, mit welchem du damals deine Platten formatiert hast.
 
Code:
sudo mdadm --assemble --scan /dev/md127
mdadm: /dev/md127 not identified in config file.

Code:
 sudo mdadm --detail --scan | sudo tee -a /etc/mdadm/mdadm.conf
INACTIVE-ARRAY /dev/md127 metadata=1.2 name=server:RAID UUID=b96eaea6:19854fda:acaff950:9c5c90e1

Code:
echo '/dev/md127 /media/daten ext4 defaults,nofail,discard 0 0' | sudo tee -a /etc/fstab
/dev/md127 /media/daten ext4 defaults,nofail,discard 0 0

Inhalt fstab:

Code:
UUID=da76fcb2-50f6-11e8-89fc-d0509933a26a / ext4 defaults 0 0
/swap.img       none    swap    sw      0       0
/dev/md127 /media/daten ext4 defaults,nofail,discard 0 0

update-initramfs durchgeführt, System Reboot durchgeführt:

Code:
 sudo mdadm --assemble --scan /dev/md127
mdadm: Unknown keyword INACTIVE-ARRAY
mdadm: /dev/md127 not identified in config file.

Code:
 sudo mdadm --assemble --scan /dev/md127
mdadm: Unknown keyword INACTIVE-ARRAY
mdadm: /dev/md127 not identified in config file.




HigH_HawK schrieb:
Es sieht sehr danach aus, als ob Dein Array nicht in der mdadm.conf vorhanden ist. Somit wird auch nach einem Reboot das Array nicht wieder eingehängt.

Schaue nach eingerichteten RAID Arrays und schreibe diese in die mdadm.conf
Code:
sudo mdadm --detail --scan | sudo tee -a /etc/mdadm/mdadm.conf

Führe ein Update im initramfs (Initiales RAM Dateisystem) duch. Damit stellst du sicher, dass der RAID Array gleich in den ersten Boot Schritten eingebunden wird
Code:
sudo update-initramfs -u

Wenn das RAID Array noch nicht in der /etc/fstab Datei ist, dann dieses mit folgendem Befehl hinzufügen
Code:
echo '/dev/md127 /mnt/md0 ext4 defaults,nofail,discard 0 0' | sudo tee -a /etc/fstab

Achtung!!

/mnt/md0 muss mit dem MountPoint ersetzt werden, welchen du beim Einrichten des RAIDs per mkdir .... erstellt hast und ext4 (Dateisystem) muss mit dem Dateisystem ersetzt werden, mit welchem du damals deine Platten formatiert hast.
 
Ok, ich hatte das "INACTIVE-ARRAY" aussen vor gelassen.

Versuche zunächst einmal das "defekte" Array zu stoppen:
Code:
mdadm --stop /dev/md127

Führe nun noch einmal die oben genannten 3 Schritte aus.
 
STOP-Behl ausgeführt, dananch keine Reaktion auf den Befehl "sudo mdadm --detail --scan", somit wird auch kein Eintrag in der /etc/mdadm/mdadm.conf erstellt

Code:
@server:~$ sudo mdadm --detail --scan
@server:~$

den gleichen Befehl, ohne vorher STOP md127:


Code:
sudo mdadm --detail --scan
INACTIVE-ARRAY /dev/md127 metadata=1.2 name=server:RAID UUID=b96eaea6:19854fda:acaff950:9c5c90e1


HigH_HawK schrieb:
Ok, ich hatte das "INACTIVE-ARRAY" aussen vor gelassen.

Versuche zunächst einmal das "defekte" Array zu stoppen:
Code:
mdadm --stop /dev/md127

Führe nun noch einmal die oben genannten 3 Schritte aus.
 
Na da hat es aber ganz schön geknackst.

Kannst du uns bitte mal den Inhalt von cat /etc/fstab und cat /etc/mdadm/mdadm.conf geben?
 
Code:
cat /etc/fstab
UUID=da76fcb2-50f6-11e8-89fc-d0509933a26a / ext4 defaults 0 0
/swap.img       none    swap    sw      0       0
/dev/md127 /media/daten ext4 defaults,nofail,discard 0 0

Code:
cat /etc/mdadm/mdadm.conf
# mdadm.conf
#
# !NB! Run update-initramfs -u after updating this file.
# !NB! This will ensure that initramfs has an uptodate copy.
#
# Please refer to mdadm.conf(5) for information about this file.
#

# by default (built-in), scan all partitions (/proc/partitions) and all
# containers for MD superblocks. alternatively, specify devices to scan, using
# wildcards if desired.
#DEVICE partitions containers

# automatically tag new arrays as belonging to the local system
HOMEHOST <system>

# instruct the monitoring daemon where to send mail alerts
MAILADDR root

# definitions of existing MD arrays

# This configuration was auto-generated on Thu, 26 Apr 2018 19:09:16 +0000 by mkconf


HigH_HawK schrieb:
Na da hat es aber ganz schön geknackst.

Kannst du uns bitte mal den Inhalt von cat /etc/fstab und cat /etc/mdadm/mdadm.conf geben?
 
So wie es aussieht, ist in deiner mdadm.conf kein RAID Array vermerkt, somit würde auch ein einfaches Assemble nicht helfen. Bei einem einfachen Assemble versucht er nämlich auf die Info in der mdadm.conf zurückzugreifen.

Als erstes muss nun das Array wieder aktiv geschaltet werden, danach kann es mit dem Befehl sudo mdadm --detail --scan | sudo tee -a /etc/mdadm/mdadm.conf hinzugefügt werden, wonach es dann keine Schwierigkeiten beim Neustart geben sollte.

Zunächst stoppen:
Code:
sudo mdadm --stop /dev/md127

Force Assemble mit den Platten die offensichtlich da sind:
Code:
sudo mdadm --assemble --force /dev/md127 /dev/sd[b-i]

Nun sollte der RAID wieder als aktiv angezeigt werden:
Code:
cat /proc/mdstat

Wenn das erfolgreich war, dann den Array in der mdadm.conf hinzufügen:
Code:
sudo mdadm --detail --scan | sudo tee -a /etc/mdadm/mdadm.conf

Ich drücke die Daumen! Ansonsten fällt mir nur noch ein I/O Error ein, nur bei RAID0 ist da dann Schicht :(
 
:) das wird doch was mit uns ...

Code:
sudo mdadm --stop /dev/md127
mdadm: stopped /dev/md127

Code:
sudo mdadm --assemble --force /dev/md127 /dev/sd[b-i]
mdadm: forcing event count in /dev/sdb(0) from 571724 upto 573940
mdadm: forcing event count in /dev/sdc(1) from 571724 upto 573940
mdadm: forcing event count in /dev/sdd(2) from 571724 upto 573940
mdadm: forcing event count in /dev/sdf(4) from 571724 upto 573940
mdadm: forcing event count in /dev/sdg(5) from 571724 upto 573940
mdadm: forcing event count in /dev/sdh(6) from 571724 upto 573940
mdadm: clearing FAULTY flag for device 3 in /dev/md127 for /dev/sde
mdadm: Marking array /dev/md127 as 'clean'
mdadm: /dev/md127 has been started with 7 drives (out of 8) and 1 spare.

... da hat es mir wohl doch eine Platte entschärft ?


Code:
cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md127 : active raid5 sdb[0] sde[8] sdi[7] sdh[6] sdg[5] sdf[4] sdd[2] sdc[1]
      27340626432 blocks super 1.2 level 5, 512k chunk, algorithm 2 [8/7] [UUU_UUUU]
      [>....................]  recovery =  0.0% (1997468/3905803776) finish=553.7min speed=117498K/sec

unused devices: <none>

Code:
sudo mdadm --detail --scan | sudo tee -a /etc/mdadm/mdadm.conf
ARRAY /dev/md127 metadata=1.2 spares=1 name=server:RAID UUID=b96eaea6:19854fda:acaff950:9c5c90e1

Recovery läuft, über /media/daten habe ich kurz geschaut, optisch ist erstmal (was) wieder da...
Dein Daumendrücken hilft offensichtlich, puh...

Ergänzung:
Wohl zu früh gefreut.
Recovery stand ganze weile bei 1,4%, die Zeit für das Recovery ging massiv nach oben.
Nun bekomme ich:

Code:
 cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md127 : active raid5 sdb[0](F) sde[8](S) sdi[7] sdh[6](F) sdg[5] sdf[4] sdd[2] sdc[1](F)
      27340626432 blocks super 1.2 level 5, 512k chunk, algorithm 2 [8/4] [__U_UU_U]

unused devices: <none>

Aber: meine Dateien sind wieder weg. Die Festplatten Aktivitäts LED am Gehäuse ist auch aus

Code:
sudo mdadm --stop /dev/md127
mdadm: Cannot get exclusive access to /dev/md127:Perhaps a running process, mounted filesystem or active volume group?

Code:
sudo mdadm --assemble --force /dev/md127 /dev/sd[b-i]
mdadm: /dev/sdb is busy - skipping
mdadm: /dev/sdc is busy - skipping
mdadm: /dev/sdd is busy - skipping
mdadm: /dev/sde is busy - skipping
mdadm: /dev/sdf is busy - skipping
mdadm: /dev/sdg is busy - skipping
mdadm: /dev/sdh is busy - skipping
mdadm: /dev/sdi is busy - skipping

Medium "sde" defekt? Ich kann diese Austauschen, eine nagelneue 4TB HD liegt bereit, daran soll es nicht scheitern.



HigH_HawK schrieb:
So wie es aussieht, ist in deiner mdadm.conf kein RAID Array vermerkt, somit würde auch ein einfaches Assemble nicht helfen. Bei einem einfachen Assemble versucht er nämlich auf die Info in der mdadm.conf zurückzugreifen.

Als erstes muss nun das Array wieder aktiv geschaltet werden, danach kann es mit dem Befehl sudo mdadm --detail --scan | sudo tee -a /etc/mdadm/mdadm.conf hinzugefügt werden, wonach es dann keine Schwierigkeiten beim Neustart geben sollte.

Zunächst stoppen:
Code:
sudo mdadm --stop /dev/md127

Force Assemble mit den Platten die offensichtlich da sind:
Code:
sudo mdadm --assemble --force /dev/md127 /dev/sd[b-i]

Nun sollte der RAID wieder als aktiv angezeigt werden:
Code:
cat /proc/mdstat

Wenn das erfolgreich war, dann den Array in der mdadm.conf hinzufügen:
Code:
sudo mdadm --detail --scan | sudo tee -a /etc/mdadm/mdadm.conf

Ich drücke die Daumen! Ansonsten fällt mir nur noch ein I/O Error ein, nur bei RAID0 ist da dann Schicht :(
 
Zuletzt bearbeitet:
Powerbock schrieb:
Code:
cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md127 : active raid5 sdb[0] sde[8] sdi[7] sdh[6] sdg[5] sdf[4] sdd[2] sdc[1]
      27340626432 blocks super 1.2 level 5, 512k chunk, algorithm 2 [8/7] [UUU_UUUU]
      [>....................]  recovery =  0.0% (1997468/3905803776) finish=553.7min speed=117498K/sec

unused devices: <none>

Es sind insgesamt 3(!) Platten mit [F] (Fault) markiert. Also sind entweder die 3 Platten hin, die Spannungsversorgung instabil, die Satakabel mist, der Sata-Controller macht Probleme und/oder dein Ram macht probleme. Alles in allem würde ich dringend davon abraten mit den Platten weiterzuarbeiten. Also zieh dir Möglichst Kopien von jeder Platte bevor du weiter versuchst irgendwas am Raid zu machen!


Ich wünsche mir:

für alle devices
Code:
smartctl -a /dev/sda

(bitte als root)
Code:
lshw -c storage

und einen Durchlauf von Memtest (mindestens 2x komplett)

--------------------------------

Ansonsten noch ein kleiner Hinweis. Einfach mit mdadm --force auf ein Raid loszugehen ist äußerst problematisch! An sich sollte man mal mindestens in Journal schauen ob da irgendwelche Probleme aufgetreten sind die man beachten sollte und vorher sollte man auf jeden Fall ein
Code:
sudo mdadm --examine /dev/sda1
auf die Devices loslassen. Bei deinem mdadm --force wurden die Evencounter die deutlich auseinanderliefen stark angepasst. Wobei derart stark auseinanderlaufende Event counter kein gutes Zeichen sind (an der Stelle hätte man schon Images von den HDDs ziehen sollen)
 
Es sind doch eigentlich sogar vier Platten, die ein Problem signalisiert haben. sde wurde ja im "--force" durchlauf wieder für gut befunden.
Ich kann mich Piktogramm nur anschließen, häng alle Platten ab und teste erst einmal das System auf Speicherfehler, die CPU auf Überhitzung / Fehler.
Danach tauscht Du am besten alle Sata Kabel aus und postest die Smartwerte. (am besten auf einer pastebin Seite)
 
Wird dieses Wochenende durchgeführt, bin bisher noch nicht dazu gekommen. Rückmeldung folgt

Was ich selbst aber gern noch testen würde, unabhängig der derzeitig verfügbaren Daten, ist ein Austausch des Datenträgers "sde" gegen eine neue Festplatte.
Wie müsste ich dies durchführen?


Piktogramm schrieb:
Es sind insgesamt 3(!) Platten mit [F] (Fault) markiert. Also sind entweder die 3 Platten hin, die Spannungsversorgung instabil, die Satakabel mist, der Sata-Controller macht Probleme und/oder dein Ram macht probleme. Alles in allem würde ich dringend davon abraten mit den Platten weiterzuarbeiten. Also zieh dir Möglichst Kopien von jeder Platte bevor du weiter versuchst irgendwas am Raid zu machen!


Ich wünsche mir:

für alle devices
Code:
smartctl -a /dev/sda

(bitte als root)
Code:
lshw -c storage

und einen Durchlauf von Memtest (mindestens 2x komplett)

--------------------------------

Ansonsten noch ein kleiner Hinweis. Einfach mit mdadm --force auf ein Raid loszugehen ist äußerst problematisch! An sich sollte man mal mindestens in Journal schauen ob da irgendwelche Probleme aufgetreten sind die man beachten sollte und vorher sollte man auf jeden Fall ein
Code:
sudo mdadm --examine /dev/sda1
auf die Devices loslassen. Bei deinem mdadm --force wurden die Evencounter die deutlich auseinanderliefen stark angepasst. Wobei derart stark auseinanderlaufende Event counter kein gutes Zeichen sind (an der Stelle hätte man schon Images von den HDDs ziehen sollen)
 
Eine einzelne Platte zu tauschen wenn dir bei deinem letzten harakiri Experimenten mit --force drei Platten als fehlerhaft markiert wurden ist mit Verlaub Irrsinn! Wobei beim letzten Versuch /dev/sde nichteinmal als faulty markiert wurde. Das deutet stark darauf hin, dass entweder mehrere Platten im Eimer sind oder aber es an ganz anderer Stelle Probleme gibt. Jedweder Versuch Platten auszutauschen und Rebuilds zu starten birgt eine sehr hohe Chance weiter Daten zu vernichten!

Es bleibt dabei, die sichere Variante wäre ersteinmal alle Platten einzeln zu klonen und danach die genaue Analyse.

Deswegen auch keine Anleitung wie du einzelne Platten austauschen kannst, das wäre einfach ein Schuss ins Knie.
 
Zurück
Oben