Hardware RAID5 streikt

Carcass

Newbie
Dabei seit
Juni 2005
Beiträge
5
tach!

vorweg mein system:
OS: Redhat Linux 9 (kernel 2.4.20-8)
RAID-Controller: Promise FastTrak SX4000
Modus: RAID 5 mit 4x160 GB SAMSUNG platten, stripe-größe 64 kb
Dateisystem: ReiserFS

mir ist in der konfigurations-software ein dummer fehler unterlaufen, da ich ausversehen etwas ausgewählt habe, was ich gar nicht wollte: "migrate array". der rechner hat sofort zu werkeln angefangen.
habe natürlich gleich abgebrochen und abgewartet, der server wurde immer langsamer, bis irgendwann gar nix mehr ging, hab einen system-hänger vermutet und neugestartet (dummer fehler)
nach dem neustart gabs erstmal kernel-panic mit allen möglichen fehler-ausgaben, glaub nen irq-konflikt war auch dabei...
als ich mit einer bootbaren linux-cd meinem system mitgeteilt habe, dass er den raid nicht automatisch beim booten einbinden soll hab ich auch gleich ne aktuellere version des treibers installiert.
nun, booten konnte ich wieder, nur kommt beim laden des kernel-treibers jetzt jedes mal diese meldung:
Code:
SCSI subsystem driver Revision: 1.00
Promise FastTrak SX4000 Linux Driver Version 1.01.00.58 (8.Sep.2004)
FastTrak: Installed FastTrak SX4000 Local DIMM - 128MB..
scsi0 : FastTrak SX4000
FastTrak|  1|4131|Error|Array 1, Status Offline
FastTrak|  2|4131|Error|Array 1, Status Offline
  Vendor:           Model:         !  À¤pÁ  Rev:
  Type:   Direct-Access                      ANSI SCSI revision: 00
Attached scsi disk sda at scsi0, channel 0, id 0, lun 0
sda : READ CAPACITY failed.
sda : status = 0, message = 00, host = 4, driver = 25
sda : sense not available.
sda : block size assumed to be 512 bytes, disk size 1GB.
 sda:SCSI disk error : host 0 channel 0 id 0 lun 0 return code = 25040000
 I/O error: dev 08:00, sector 0
SCSI disk error : host 0 channel 0 id 0 lun 0 return code = 25040000
 I/O error: dev 08:00, sector 2
SCSI disk error : host 0 channel 0 id 0 lun 0 return code = 25040000
 I/O error: dev 08:00, sector 4
SCSI disk error : host 0 channel 0 id 0 lun 0 return code = 25040000
 I/O error: dev 08:00, sector 6
SCSI disk error : host 0 channel 0 id 0 lun 0 return code = 25040000
 I/O error: dev 08:00, sector 0
SCSI disk error : host 0 channel 0 id 0 lun 0 return code = 25040000
 I/O error: dev 08:00, sector 2
SCSI disk error : host 0 channel 0 id 0 lun 0 return code = 25040000
 I/O error: dev 08:00, sector 4
SCSI disk error : host 0 channel 0 id 0 lun 0 return code = 25040000
 I/O error: dev 08:00, sector 6
 unable to read partition table
und danach gibt der controller ein dauerndes pfeiffgeräusch aus, was ich aber zum glück mit der software ausstellen kann...
schaut auch fast so aus, als ob die partitionstabelle zerstört ist, ne?

weder mounten noch bearbeiten mit fdisk funktioniert, weil der raid-device /dev/sda nicht gelesen werden kann.
ähnlich sieht es mit rescue-programmen wie testdisk und parted aus, die bei der analyse des arrays jedesmal zum gnadenstoss des systems führen...

und jetzt das seltsame:
- das controller-bios setzt den array-status auf: "functionally"
- die controller-software im OS zeigt den array-status mit "offline" an, also mehr oder weniger ein schutzmechanismus, damit keine schreibzugriffe mehr gemacht werden um das schlimmste noch zu verhindern!

nun, wie gehts weiter? was kann ich nun machen? wiegesagt, diese rescue-programme führen beim zugriff auf das array-device immer zum absturz... kennt sich jemand mit sowas aus?
speziell mit promise raid-controller?

ich hab bisher von der möglichkeit gehört, die definition des array's zu löschen und identisch neu zu erstellen, aber das ist 1. gefährlich ohne backup und 2. weiss ich nicht, wie es mir in dem fall helfen soll... wird dadurch ein rekonstruieren durch redundanz möglich? oder kann ich dadurch eine neue partitionstabelle erstellen lassen??
wie erstelle ich ein backup, wenn ich das array nicht mal mounten kann??

es kann doch nicht sein, dass 480 GB daten futsch sind, obwohl die festplatten mechanisch wie auch elektrisch unversehrt sind und beim controller gehe ich davon auch aus...

fragen über fragen...


danke schonmal im vorraus!

gruss, phil
 
Zuletzt bearbeitet:
F

Fiona

Gast
Überprüfe mal dein Bios vom Raid-Kontroller.
Im vorletzten Bios gab es ein Patch wo einen Fehler behebt, daß wenn du während array migration bootest und das Bios beim nächsten Start hängen bleibt.;
1. Fixed the problem that BIOS hangs during boot if system is rebooted during array migration.

Link dazu gibt es hier;
http://www.promise.com/support/download/download2_eng.asp?productID=94&category=all&os=100#

Wäre vielleicht mal als erstes anzuschauen.

Gibt aber noch ein neueres Bios wo normalerweise alle Fixes implementiert sind.

Viele Grüße

Fiona
 
Zuletzt bearbeitet:

Carcass

Newbie
Ersteller dieses Themas
Dabei seit
Juni 2005
Beiträge
5
hallöchen

danke für den hinweise fiona, aber das bios läuft astrein! das ist noch nie abgekackt oder so.
aber ein neues bios werd ich sicherheitshalber mal draufspielen, da meins auch schon leicht veraltet ist (2.0.0.4) und dadurch das problem vielleicht echt behoben werden kann, bevor ich die sache am ende falsch angehe und dann doch noch alles kaputt mache...
 

Carcass

Newbie
Ersteller dieses Themas
Dabei seit
Juni 2005
Beiträge
5
öhm naja, das bios update hat nix gebracht!
hab das system mal an ein windows-system gehängt, da zeigt mir das konfigurations-tool auch alles an, aber da kann ich einen rebuild machen, bringt mir das was?
ich weiss ja nicht mal welche platte ich rebuilden soll, weil ja keine ne macke hat und das auch so angezeigt wird, trotzdem is das array offline...
hiiiilfeee :/

soll ich es mal wagen die raid-definition zu löschen und identisch neu zu definieren? oder wäre das zu gefährlich?
(ich hab da irgendwie so ein gefühl, dass es auch ohne gehen muss...)
 
Zuletzt bearbeitet:

Carcass

Newbie
Ersteller dieses Themas
Dabei seit
Juni 2005
Beiträge
5
PROBLEM GELÖST!
hab den wagemutigen schritt gewagt und die raid-definition gelöscht und identisch neu-erstellt, nachm hochfahren war alles beim alten...
naja, das dateisystem hat scheinbar doch ein bissel was abbekommen, da ich ab und zu fehlermeldungen bekomme, das nen fehler im dateisystem aufgetreten ist:
Code:
Jun 14 17:46:30 server kernel: is_tree_node: node level 2442 does not match to the expected one 1
Jun 14 17:46:30 server kernel: vs-5150: search_by_key: invalid format found in block 720648. Fsck?
Jun 14 17:46:30 server kernel: vs-13070: reiserfs_read_inode2: i/o failure occurred trying to find stat data of [1333 85304 0x0 SD]
Jun 14 17:46:30 server kernel: is_tree_node: node level 58861 does not match to the expected one 1
Jun 14 17:46:30 server kernel: vs-5150: search_by_key: invalid format found in block 30044. Fsck?
Jun 14 17:46:30 server kernel: vs-13070: reiserfs_read_inode2: i/o failure occurred trying to find stat data of [1333 82545 0x0 SD]
naja, werd ich schon noch hinkriegen ...

*juchuuuu*
 
Top