Problem mit Raid Recovery

  • Guten Abend,
    ich habe seit einiger Zeit das Problem, dass nach einem fehlgeschlagenen Versuch zur Kapazitätserweiterung mein Raid degraded ist und nicht wieder recovered.


    Mein System: QNAP TS-459 Pro II mit FW 4.1.0 beta von 12/2013
    alte Platten: 4 x Western Digital Red 3000GB, SATA 6Gb-s (WD30EFRX)
    neue Platten: 4 x Western Digital Red 4000GB, SATA 6Gb-s (WD40EFRX)
    RAID-Modus: RAID-5 mit Bitmap
    Problem: Kein Rebuild


    Da ich nicht ganz firm mit Linux bin, habe ich nicht so Recht eine Idee, wo ich weiter ansetzen kann.
    Mit Putty und SSH auf die Box ist kein Problem.
    Für Hilfe wäre ich sehr dankbar!


    Der derzeitige Stand:

  • Das neue Laufwerk an einen PC stöpseln und alle Partitionen entfernen (keine neuen erstellen).
    Anschliessend die Platte wieder ins NAS schieben.

  • Danke. Genau dies habe ich bereits gemacht:
    Alle 4 TB Platten an einen PC gesteckt, alle Partitionen gelöscht und wieder in die NAS gesteckt. leider ohne Erfolg! ;-/
    Gibt es viell. sonst Möglichkeiten. Evtl über SSH/Putty?

  • Steht etwas brauchbares in den Logs?
    BTW: Wenn es läuft, gib mal Bescheid, wie lange die Aktion gedauert hat.

  • Die Logs geben leider nur oberflächliche Meldungen wie:
    [RAID5 Disk Volume: Drive 1 2 3 4] RAID device in degraded mode.


    [RAID5 Disk Volume: Drive 1 2 3 4] Drive 1 removed.


    Drive 1 plugged out.


    [RAID5 Disk Volume: Drive 1 2 3 4] Add drive 1 to the volume failed.


    Leider nichts, worn man festmachen könnte, was zu tun ist.


    Heute habe ich die Firmware auf die aktuelle 4.1.0 vom 30.05.2014 upgedatet, jedoch alles genauso unbefriedigend wie zuvor. :(


    Unglücklicherweise, wird seit heute beim 2 Drive eine SMART-Warnung (smart current pending sector) ausgegeben. Viel Zeit habe ich wohl nicht mehr, bis alle Daten hinüber sind... hat jemand viell. noch Ideen?




    Ist schon merkwürdig, jahrelang überhaupt keine Probleme und nun alles auf einmal...

  • Die HDD2 hat einen Schlag, die HDD1 wurde noch nicht rebuilded.


    Damit sind die Daten nun in höchster Gefahr, folglich ist im Augenblick nichts wichtiger, als die Daten des RAID unverzüglich zu sichern bzw. das vorhandene Backup zu aktualisieren, so lange dies noch möglich ist.


    Wie lange ist die HDD1 bereits aus dem System raus, war der RAID Status vor dem Austausch der HDD1 noch in Ordnung (also nicht "degraded") und wurde nach dem Austausch der HDD1 bereits wieder auf das RAID geschrieben ?


    GLG GBD

  • Zitat von "Nordstern"

    Viel Zeit habe ich wohl nicht mehr, bis alle Daten hinüber sind... hat jemand viell. noch Ideen?


    Zeit genug hattest du ja nun eigentlich, ein Backup anzufertigen.


    Zitat von "Nordstern"

    Gibt es viell. sonst Möglichkeiten. Evtl über SSH/Putty?


    Code
    cat /proc/mdstat
    fdisk -l
    mdadm -D /dev/md0
    cat /etc/config/raidtab
    cat /etc/config/mdadm.conf
    cat /etc/storage.conf
    dmesg


    Die Ausgabe jedes Befehls bitte hier in einer eigenen Codebox posten.

  • News:
    Ich habe gestern ein Firmwareupdate gemacht : v4.1.0 vom 30.05.2014
    Danach eine der 4 TB eingesteckt (welche ich bereits vorher schon einmal drin hatte) und siehe da das Rebuild lief an! :)
    Soweit so gut. Gestartet habe ich gestern Abend etwa gegen 19:00 Uhr. Heute morgen gegen 6:00 war er bei über 90 % des Rebuilds.
    Als ich 9 h später von der Arbeit kam, war das Webinterface vom Speichermanager nicht mehr erreichbar. :(
    Ich gehe daher davon aus, dass etwas schief gelaufen sein muss, da die restlichen 10 % in etwa 1,5 h hätten durchlaufen müssen.
    Daher habe ich die NAS manuell neu gestartet (ein Reboot ging nicht weil die NAS hing).
    Nach einem Neustart war die HDD 1 auch Bestandteil des Raid 5, jedoch lief das Raid nicht an. Es lief sich auch nicht durch "Wiederherstellen" der Raid-Verwaltung aktivieren... (Log: RAID Recovery failed)
    Der aktuelle Stand:



    Nun die Antworten auf eure Fragen:


    Zitat

    Damit sind die Daten nun in höchster Gefahr, folglich ist im Augenblick nichts wichtiger, als die Daten des RAID unverzüglich zu sichern bzw. das vorhandene Backup zu aktualisieren, so lange dies noch möglich ist.


    -> Wohin mit 8,5 TB Daten?


    Zitat

    Wie lange ist die HDD1 bereits aus dem System raus,


    -> Seitdem ich gepostet habe, jedoch habe ich die NAS eigentlich nicht meh an gehabt, um Datenverlust zu vermeiden.


    Zitat

    war der RAID Status vor dem Austausch der HDD1 noch in Ordnung (also nicht "degraded") und wurde nach dem Austausch der HDD1 bereits wieder auf das RAID geschrieben ?


    -> Ja und nein (außer FW-Update)


    ...und nun die Code-Blöcke:


    Code
    [~] # cat /proc/mdstatPersonalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath]md4 : active raid1 sdd2[2](S) sdc2[3](S) sdb2[1] sda2[0]                 530048 blocks [2/2] [UU]md13 : active raid1 sdc4[0] sda4[3] sdb4[2] sdd4[1]                 458880 blocks [4/4] [UUUU]                 bitmap: 0/57 pages [0KB], 4KB chunkmd9 : active raid1 sdc1[0] sdb1[3] sda1[2] sdd1[1]                 530048 blocks [4/4] [UUUU]                 bitmap: 1/65 pages [4KB], 4KB chunkunused devices: <none>


    Code
    [~] # fdisk -lDisk /dev/sdb: 3000.5 GB, 3000592982016 bytes255 heads, 63 sectors/track, 364801 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytes   Device Boot      Start         End      Blocks   Id  System/dev/sdb1               1      267350  2147483647+  ee  EFI GPTDisk /dev/sdc: 3000.5 GB, 3000592982016 bytes255 heads, 63 sectors/track, 364801 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytes   Device Boot      Start         End      Blocks   Id  System/dev/sdc1               1      267350  2147483647+  ee  EFI GPTDisk /dev/sdd: 3000.5 GB, 3000592982016 bytes255 heads, 63 sectors/track, 364801 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytes   Device Boot      Start         End      Blocks   Id  System/dev/sdd1               1      267350  2147483647+  ee  EFI GPTDisk /dev/sda: 4000.7 GB, 4000787030016 bytes255 heads, 63 sectors/track, 486401 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytes   Device Boot      Start         End      Blocks   Id  System/dev/sda1               1      267350  2147483647+  ee  EFI GPTDisk /dev/sda4: 469 MB, 469893120 bytes2 heads, 4 sectors/track, 114720 cylindersUnits = cylinders of 8 * 512 = 4096 bytesDisk /dev/sda4 doesn't contain a valid partition tableDisk /dev/sdx: 515 MB, 515899392 bytes8 heads, 32 sectors/track, 3936 cylindersUnits = cylinders of 256 * 512 = 131072 bytes   Device Boot      Start         End      Blocks   Id  System/dev/sdx1               1          17        2160   83  Linux/dev/sdx2              18        1910      242304   83  Linux/dev/sdx3            1911        3803      242304   83  Linux/dev/sdx4            3804        3936       17024    5  Extended/dev/sdx5            3804        3868        8304   83  Linux/dev/sdx6            3869        3936        8688   83  LinuxDisk /dev/md9: 542 MB, 542769152 bytes2 heads, 4 sectors/track, 132512 cylindersUnits = cylinders of 8 * 512 = 4096 bytesDisk /dev/md9 doesn't contain a valid partition tableDisk /dev/md4: 542 MB, 542769152 bytes2 heads, 4 sectors/track, 132512 cylindersUnits = cylinders of 8 * 512 = 4096 bytesDisk /dev/md4 doesn't contain a valid partition table


    Code
    [~] # mdadm -D /dev/md0mdadm: md device /dev/md0 does not appear to be active.


    Code
    [~] # cat /etc/config/raidtabraiddev /dev/md0        raid-level      5        nr-raid-disks   4        nr-spare-disks  0        chunk-size      4        persistent-superblock   1        device  /dev/sda3        raid-disk       0        device  /dev/sdb3        raid-disk       1        device  /dev/sdc3        raid-disk       2        device  /dev/sdd3        raid-disk       3


    Code
    [~] # cat /etc/config/mdadm.confARRAY /dev/md0 devices=/dev/sda3,/dev/sdb3,/dev/sdc3,/dev/sdd3


    Code
    [~] # cat /etc/storage.conf[VOLUME 1]device name = /dev/md0raid level = 5raid disks = 1,2,3,4spare raid disks =status = -2record_time = Wed Jun  4 18:35:23 2014filesystem = 104[Global]Available Disk = 4



    Ihr seht, ihr bekommt alle Infos, die ihr benötigt...
    Tausend Dank für Eure Hilfe!!!

  • Wohin mit den 8,5TB Daten ? Auf externe Festplatten oder auf eine zweite NAS.
    Ein RAID5 wurde nie erfunden, um ein Backup zu ersetzen und Datensicherheit kostet Geld, da beisst die Maus keinen Faden ab.
    --> http://forum.qnapclub.de/viewtopic.php?f=242&t=18680


    Einen Rebuild mit einer bereits angeschlagenen Platte im System durchzuführen ist keinesfalls zu empfehlen, daher war der weitere Verlauf bis zu dieser Stelle in meinen Augen absehbar. Die HDD2 macht Leseprobleme, damit ist ein erfolgreicher Rebuild nicht mehr sichergestellt, das RAID könnte sogar ganz abschmieren. Daher die Empfehlung als allererstes jetzt die Daten zu sichern, solange es noch geht.


    Mal sehen, was Prof. Dr. Linux Mike vielleicht noch tun kann.


    Mein nächster Versuch wäre nun gewesen, die alte HDD1 wieder einzusetzen und die "toxische" HDD2 zu entfernen. Damit würde das RAID zwar immer noch "degraded" sein, nun aber aus "unauffälligen" Platten bestehen. Dann in den Schacht 2 eine der neuen 4TBs und den Rebuild wieder starten lassen. Das alles selbstverständlich NACHDEM die Daten gesichert wurden, an einem instabilen, ungesicherten System sollten sich imho nur Leute mit Spezialkenntnissen "vergreifen".


    GLG GBD

  • Zitat von "GorillaBD"

    Die HDD2 macht Leseprobleme, damit ist ein erfolgreicher Rebuild nicht mehr sichergestellt, das RAID könnte sogar ganz abschmieren.


    Nicht nur nicht sichergestellt, sondern unmöglich. Das entspricht in etwa dem partiellen Ausfall zweier Platten im RAID5.

    Zitat von "Nordstern"
    Code
    [  274.615026] md/raid:md0: cannot start dirty degraded array.


    Zitat von "GorillaBD"

    Mal sehen, was Prof. Dr. Linux Mike vielleicht noch tun kann.


    In der momentanen Situation gar nichts - siehe oben.


    Zitat von "GorillaBD"

    Mein nächster Versuch wäre nun gewesen, die alte HDD1 wieder einzusetzen und die "toxische" HDD2 zu entfernen......Das alles selbstverständlich NACHDEM die Daten gesichert wurden....


    So sehe ich das auch. Zumal noch erschwerend hinzukommt, dass das RAID quasi randvoll ist.