Problem mit Raid Recovery

Nordstern · 28. April 2014

Guten Abend,
ich habe seit einiger Zeit das Problem, dass nach einem fehlgeschlagenen Versuch zur Kapazitätserweiterung mein Raid degraded ist und nicht wieder recovered.

Mein System: QNAP TS-459 Pro II mit FW 4.1.0 beta von 12/2013
alte Platten: 4 x Western Digital Red 3000GB, SATA 6Gb-s (WD30EFRX)
neue Platten: 4 x Western Digital Red 4000GB, SATA 6Gb-s (WD40EFRX)
RAID-Modus: RAID-5 mit Bitmap
Problem: Kein Rebuild

Da ich nicht ganz firm mit Linux bin, habe ich nicht so Recht eine Idee, wo ich weiter ansetzen kann.
Mit Putty und SSH auf die Box ist kein Problem.
Für Hilfe wäre ich sehr dankbar!

Der derzeitige Stand:

Nordstern · 7. Mai 2014

Niemand hier, der mir weiterhelfen könnte?

dr_mike · 7. Mai 2014

Das neue Laufwerk an einen PC stöpseln und alle Partitionen entfernen (keine neuen erstellen).
Anschliessend die Platte wieder ins NAS schieben.

Nordstern · 16. Mai 2014

Danke. Genau dies habe ich bereits gemacht:
Alle 4 TB Platten an einen PC gesteckt, alle Partitionen gelöscht und wieder in die NAS gesteckt. leider ohne Erfolg! ;-/
Gibt es viell. sonst Möglichkeiten. Evtl über SSH/Putty?

Pretender · 16. Mai 2014

Steht etwas brauchbares in den Logs?
BTW: Wenn es läuft, gib mal Bescheid, wie lange die Aktion gedauert hat.

Nordstern · 26. Mai 2014

In welche logs könnte ich schauen?

GorillaBD · 27. Mai 2014

In das Systemereignisprotokoll: --> http://docs.qnap.com/nas/4.1/Home/de/system_logs.htm

GLG GBD

Nordstern · 3. Juni 2014

Die Logs geben leider nur oberflächliche Meldungen wie:
[RAID5 Disk Volume: Drive 1 2 3 4] RAID device in degraded mode.

[RAID5 Disk Volume: Drive 1 2 3 4] Drive 1 removed.

Drive 1 plugged out.

[RAID5 Disk Volume: Drive 1 2 3 4] Add drive 1 to the volume failed.

Leider nichts, worn man festmachen könnte, was zu tun ist.

Heute habe ich die Firmware auf die aktuelle 4.1.0 vom 30.05.2014 upgedatet, jedoch alles genauso unbefriedigend wie zuvor.

Unglücklicherweise, wird seit heute beim 2 Drive eine SMART-Warnung (smart current pending sector) ausgegeben. Viel Zeit habe ich wohl nicht mehr, bis alle Daten hinüber sind... hat jemand viell. noch Ideen?

Ist schon merkwürdig, jahrelang überhaupt keine Probleme und nun alles auf einmal...

GorillaBD · 3. Juni 2014

Die HDD2 hat einen Schlag, die HDD1 wurde noch nicht rebuilded.

Damit sind die Daten nun in höchster Gefahr, folglich ist im Augenblick nichts wichtiger, als die Daten des RAID unverzüglich zu sichern bzw. das vorhandene Backup zu aktualisieren, so lange dies noch möglich ist.

Wie lange ist die HDD1 bereits aus dem System raus, war der RAID Status vor dem Austausch der HDD1 noch in Ordnung (also nicht "degraded") und wurde nach dem Austausch der HDD1 bereits wieder auf das RAID geschrieben ?

GLG GBD

dr_mike · 3. Juni 2014

Zitat von "Nordstern"

Viel Zeit habe ich wohl nicht mehr, bis alle Daten hinüber sind... hat jemand viell. noch Ideen?

Zeit genug hattest du ja nun eigentlich, ein Backup anzufertigen.

Zitat von "Nordstern"

Gibt es viell. sonst Möglichkeiten. Evtl über SSH/Putty?

Code

cat /proc/mdstat
fdisk -l
mdadm -D /dev/md0
cat /etc/config/raidtab
cat /etc/config/mdadm.conf
cat /etc/storage.conf
dmesg

Die Ausgabe jedes Befehls bitte hier in einer eigenen Codebox posten.

Nordstern · 4. Juni 2014

News:
Ich habe gestern ein Firmwareupdate gemacht : v4.1.0 vom 30.05.2014
Danach eine der 4 TB eingesteckt (welche ich bereits vorher schon einmal drin hatte) und siehe da das Rebuild lief an!
Soweit so gut. Gestartet habe ich gestern Abend etwa gegen 19:00 Uhr. Heute morgen gegen 6:00 war er bei über 90 % des Rebuilds.
Als ich 9 h später von der Arbeit kam, war das Webinterface vom Speichermanager nicht mehr erreichbar.
Ich gehe daher davon aus, dass etwas schief gelaufen sein muss, da die restlichen 10 % in etwa 1,5 h hätten durchlaufen müssen.
Daher habe ich die NAS manuell neu gestartet (ein Reboot ging nicht weil die NAS hing).
Nach einem Neustart war die HDD 1 auch Bestandteil des Raid 5, jedoch lief das Raid nicht an. Es lief sich auch nicht durch "Wiederherstellen" der Raid-Verwaltung aktivieren... (Log: RAID Recovery failed)
Der aktuelle Stand:

Nun die Antworten auf eure Fragen:

Zitat

Damit sind die Daten nun in höchster Gefahr, folglich ist im Augenblick nichts wichtiger, als die Daten des RAID unverzüglich zu sichern bzw. das vorhandene Backup zu aktualisieren, so lange dies noch möglich ist.

-> Wohin mit 8,5 TB Daten?

Zitat

Wie lange ist die HDD1 bereits aus dem System raus,

-> Seitdem ich gepostet habe, jedoch habe ich die NAS eigentlich nicht meh an gehabt, um Datenverlust zu vermeiden.

Zitat

war der RAID Status vor dem Austausch der HDD1 noch in Ordnung (also nicht "degraded") und wurde nach dem Austausch der HDD1 bereits wieder auf das RAID geschrieben ?

-> Ja und nein (außer FW-Update)

...und nun die Code-Blöcke:

Code

[~] # cat /proc/mdstatPersonalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath]md4 : active raid1 sdd2[2](S) sdc2[3](S) sdb2[1] sda2[0]                 530048 blocks [2/2] [UU]md13 : active raid1 sdc4[0] sda4[3] sdb4[2] sdd4[1]                 458880 blocks [4/4] [UUUU]                 bitmap: 0/57 pages [0KB], 4KB chunkmd9 : active raid1 sdc1[0] sdb1[3] sda1[2] sdd1[1]                 530048 blocks [4/4] [UUUU]                 bitmap: 1/65 pages [4KB], 4KB chunkunused devices: <none>

Code

[~] # fdisk -lDisk /dev/sdb: 3000.5 GB, 3000592982016 bytes255 heads, 63 sectors/track, 364801 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytes   Device Boot      Start         End      Blocks   Id  System/dev/sdb1               1      267350  2147483647+  ee  EFI GPTDisk /dev/sdc: 3000.5 GB, 3000592982016 bytes255 heads, 63 sectors/track, 364801 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytes   Device Boot      Start         End      Blocks   Id  System/dev/sdc1               1      267350  2147483647+  ee  EFI GPTDisk /dev/sdd: 3000.5 GB, 3000592982016 bytes255 heads, 63 sectors/track, 364801 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytes   Device Boot      Start         End      Blocks   Id  System/dev/sdd1               1      267350  2147483647+  ee  EFI GPTDisk /dev/sda: 4000.7 GB, 4000787030016 bytes255 heads, 63 sectors/track, 486401 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytes   Device Boot      Start         End      Blocks   Id  System/dev/sda1               1      267350  2147483647+  ee  EFI GPTDisk /dev/sda4: 469 MB, 469893120 bytes2 heads, 4 sectors/track, 114720 cylindersUnits = cylinders of 8 * 512 = 4096 bytesDisk /dev/sda4 doesn't contain a valid partition tableDisk /dev/sdx: 515 MB, 515899392 bytes8 heads, 32 sectors/track, 3936 cylindersUnits = cylinders of 256 * 512 = 131072 bytes   Device Boot      Start         End      Blocks   Id  System/dev/sdx1               1          17        2160   83  Linux/dev/sdx2              18        1910      242304   83  Linux/dev/sdx3            1911        3803      242304   83  Linux/dev/sdx4            3804        3936       17024    5  Extended/dev/sdx5            3804        3868        8304   83  Linux/dev/sdx6            3869        3936        8688   83  LinuxDisk /dev/md9: 542 MB, 542769152 bytes2 heads, 4 sectors/track, 132512 cylindersUnits = cylinders of 8 * 512 = 4096 bytesDisk /dev/md9 doesn't contain a valid partition tableDisk /dev/md4: 542 MB, 542769152 bytes2 heads, 4 sectors/track, 132512 cylindersUnits = cylinders of 8 * 512 = 4096 bytesDisk /dev/md4 doesn't contain a valid partition table

Code

[~] # mdadm -D /dev/md0mdadm: md device /dev/md0 does not appear to be active.

Code

[~] # cat /etc/config/raidtabraiddev /dev/md0        raid-level      5        nr-raid-disks   4        nr-spare-disks  0        chunk-size      4        persistent-superblock   1        device  /dev/sda3        raid-disk       0        device  /dev/sdb3        raid-disk       1        device  /dev/sdc3        raid-disk       2        device  /dev/sdd3        raid-disk       3

Code

[~] # cat /etc/config/mdadm.confARRAY /dev/md0 devices=/dev/sda3,/dev/sdb3,/dev/sdc3,/dev/sdd3

Code

[~] # cat /etc/storage.conf[VOLUME 1]device name = /dev/md0raid level = 5raid disks = 1,2,3,4spare raid disks =status = -2record_time = Wed Jun  4 18:35:23 2014filesystem = 104[Global]Available Disk = 4

Code

[~] # dmesg
616] md/raid1:md4: active with 1 out of 1 mirrors
[  107.945425] md4: detected capacity change from 0 to 542769152
[  108.954381]  md4: unknown partition table
[  111.002903] Adding 530044k swap on /dev/md4.  Priority:-1 extents:1 across:530044k
[  115.197872] md: bind<sdb2>
[  115.213597] RAID1 conf printout:
[  115.213607]  --- wd:1 rd:2
[  115.213616]  disk 0, wo:0, o:1, dev:sda2
[  115.213623]  disk 1, wo:1, o:1, dev:sdb2
[  115.213744] md: recovery of RAID array md4
[  115.217545] md: minimum _guaranteed_ speed: 5000 KB/sec/disk.
[  115.221285] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[  115.225175] md: using 128k window, over a total of 530048k.
[  117.274690] md: bind<sdc2>
[  119.376787] md: bind<sdd2>
[  119.699677] md: md0 stopped.
[  119.720952] md: md0 stopped.
[  119.848792] md: bind<sdb3>
[  119.852564] md: bind<sdc3>
[  119.856199] md: bind<sdd3>
[  119.859652] md: bind<sda3>
[  119.864068] md/raid:md0: not clean -- starting background reconstruction
[  119.867305] md/raid:md0: device sdd3 operational as raid disk 3
[  119.870534] md/raid:md0: device sdc3 operational as raid disk 2
[  119.873684] md/raid:md0: device sdb3 operational as raid disk 1
[  119.876753] NR_STRIPES is 4096 for total 769120 ram pages
[  119.891771] md/raid:md0: allocated 68992kB
[  119.894952] md/raid:md0: cannot start dirty degraded array.
[  119.898066] RAID conf printout:
[  119.898073]  --- level:5 rd:4 wd:3
[  119.898080]  disk 0, o:1, dev:sda3
[  119.898087]  disk 1, o:1, dev:sdb3
[  119.898094]  disk 2, o:1, dev:sdc3
[  119.898100]  disk 3, o:1, dev:sdd3
[  119.906756] md/raid:md0: failed to run raid set.
[  119.909830] md: pers->run() failed ...
[  120.921911] md: md0 stopped.
[  120.924922] md: unbind<sda3>
[  120.933041] md: export_rdev(sda3)
[  120.936074] md: unbind<sdd3>
[  120.945018] md: export_rdev(sdd3)
[  120.948143] md: unbind<sdc3>
[  120.956019] md: export_rdev(sdc3)
[  120.958887] md: unbind<sdb3>
[  120.969017] md: export_rdev(sdb3)
[  123.173351] md: md0 stopped.
[  126.557231] md: md0 stopped.
[  126.567807] md: bind<sdb3>
[  126.570823] md: bind<sdc3>
[  126.573757] md: bind<sdd3>
[  126.576647] md: bind<sda3>
[  126.580632] md/raid:md0: not clean -- starting background reconstruction
[  126.583402] md/raid:md0: device sdd3 operational as raid disk 3
[  126.586195] md/raid:md0: device sdc3 operational as raid disk 2
[  126.588873] md/raid:md0: device sdb3 operational as raid disk 1
[  126.591485] NR_STRIPES is 4096 for total 769120 ram pages
[  126.606151] md/raid:md0: allocated 68992kB
[  126.608837] md/raid:md0: cannot start dirty degraded array.
[  126.611470] RAID conf printout:
[  126.611476]  --- level:5 rd:4 wd:3
[  126.611484]  disk 0, o:1, dev:sda3
[  126.611490]  disk 1, o:1, dev:sdb3
[  126.611497]  disk 2, o:1, dev:sdc3
[  126.611503]  disk 3, o:1, dev:sdd3
[  126.620242] md/raid:md0: failed to run raid set.
[  126.622820] md: pers->run() failed ...
[  126.634175] md: md0 stopped.
[  126.636480] md: unbind<sda3>
[  126.650029] md: export_rdev(sda3)
[  126.652279] md: unbind<sdd3>
[  126.663018] md: export_rdev(sdd3)
[  126.665106] md: unbind<sdc3>
[  126.675017] md: export_rdev(sdc3)
[  126.676971] md: unbind<sdb3>
[  126.683017] md: export_rdev(sdb3)
[  128.814230] md: md0 stopped.
[  129.175121] md: md4: recovery done.
[  129.219936] RAID1 conf printout:
[  129.219946]  --- wd:2 rd:2
[  129.219952]  disk 0, wo:0, o:1, dev:sda2
[  129.219958]  disk 1, wo:0, o:1, dev:sdb2
[  129.231742] RAID1 conf printout:
[  129.231747]  --- wd:2 rd:2
[  129.231752]  disk 0, wo:0, o:1, dev:sda2
[  129.231757]  disk 1, wo:0, o:1, dev:sdb2
[  129.231761] RAID1 conf printout:
[  129.231764]  --- wd:2 rd:2
[  129.231769]  disk 0, wo:0, o:1, dev:sda2
[  129.231774]  disk 1, wo:0, o:1, dev:sdb2
[  132.151221] md: md0 stopped.
[  132.160621] md: bind<sdb3>
[  132.162829] md: bind<sdc3>
[  132.164994] md: bind<sdd3>
[  132.167069] md: bind<sda3>
[  132.170206] md/raid:md0: not clean -- starting background reconstruction
[  132.172233] md/raid:md0: device sdd3 operational as raid disk 3
[  132.174436] md/raid:md0: device sdc3 operational as raid disk 2
[  132.176561] md/raid:md0: device sdb3 operational as raid disk 1
[  132.178616] NR_STRIPES is 4096 for total 769120 ram pages
[  132.192696] md/raid:md0: allocated 68992kB
[  132.194872] md/raid:md0: cannot start dirty degraded array.
[  132.196998] RAID conf printout:
[  132.197015]  --- level:5 rd:4 wd:3
[  132.197023]  disk 0, o:1, dev:sda3
[  132.197030]  disk 1, o:1, dev:sdb3
[  132.197036]  disk 2, o:1, dev:sdc3
[  132.197043]  disk 3, o:1, dev:sdd3
[  132.205837] md/raid:md0: failed to run raid set.
[  132.207947] md: pers->run() failed ...
[  132.228688] md: md0 stopped.
[  132.230738] md: unbind<sda3>
[  132.240033] md: export_rdev(sda3)
[  132.242215] md: unbind<sdd3>
[  132.256022] md: export_rdev(sdd3)
[  132.258036] md: unbind<sdc3>
[  132.264017] md: export_rdev(sdc3)
[  132.266040] md: unbind<sdb3>
[  132.276017] md: export_rdev(sdb3)
[  135.732415] bonding: Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011)
[  135.734541] bonding: MII link monitoring set to 100 ms
[  135.799913] bonding: bond0: setting mode to 802.3ad (4).
[  135.805793] 8021q: adding VLAN 0 to HW filter on device bond0
[  135.891695] e1000e: eth0 NIC Link is Down
[  135.983546] 8021q: adding VLAN 0 to HW filter on device eth0
[  135.986194] bonding: bond0: enslaving eth0 as a backup interface with a down link.
[  136.065681] e1000e: eth1 NIC Link is Down
[  136.156487] 8021q: adding VLAN 0 to HW filter on device eth1
[  136.159511] bonding: bond0: enslaving eth1 as a backup interface with a down link.
[  139.382082] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx
[  139.404049] bonding: bond0: link status definitely up for interface eth0, 1000 Mbps full duplex.
[  139.527088] e1000e: eth1 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx
[  139.606033] bonding: bond0: link status definitely up for interface eth1, 1000 Mbps full duplex.
[  169.795972] warning: `proftpd' uses 32-bit capabilities (legacy support in use)
[  183.708850] rule type=2, num=0
[  184.830643] Loading iSCSI transport class v2.0-871.
[  184.867175] iscsi: registered transport (tcp)
[  184.894204] iscsid (7868): /proc/7868/oom_adj is deprecated, please use /proc/7868/oom_score_adj instead.
[  274.500470] md: md0 stopped.
[  274.564416] md: bind<sdb3>
[  274.568260] md: bind<sdc3>
[  274.571920] md: bind<sdd3>
[  274.575437] md: bind<sda3>
[  274.580025] md/raid:md0: not clean -- starting background reconstruction
[  274.583363] md/raid:md0: device sdd3 operational as raid disk 3
[  274.586774] md/raid:md0: device sdc3 operational as raid disk 2
[  274.590028] md/raid:md0: device sdb3 operational as raid disk 1
[  274.593262] NR_STRIPES is 4096 for total 769120 ram pages
[  274.611531] md/raid:md0: allocated 68992kB
[  274.615026] md/raid:md0: cannot start dirty degraded array.
[  274.618390] RAID conf printout:
[  274.618397]  --- level:5 rd:4 wd:3
[  274.618404]  disk 0, o:1, dev:sda3
[  274.618411]  disk 1, o:1, dev:sdb3
[  274.618418]  disk 2, o:1, dev:sdc3
[  274.618424]  disk 3, o:1, dev:sdd3
[  274.627463] md/raid:md0: failed to run raid set.
[  274.630831] md: pers->run() failed ...
[  277.154986] md: md0 stopped.
[  277.158375] md: unbind<sda3>
[  277.166028] md: export_rdev(sda3)
[  277.169481] md: unbind<sdd3>
[  277.181018] md: export_rdev(sdd3)
[  277.184596] md: unbind<sdc3>
[  277.195018] md: export_rdev(sdc3)
[  277.198242] md: unbind<sdb3>
[  277.209017] md: export_rdev(sdb3)
[  282.586599] md: md0 stopped.
[  282.611721] md: md0 stopped.

Alles anzeigen

Ihr seht, ihr bekommt alle Infos, die ihr benötigt...
Tausend Dank für Eure Hilfe!!!

GorillaBD · 4. Juni 2014

Wohin mit den 8,5TB Daten ? Auf externe Festplatten oder auf eine zweite NAS.
Ein RAID5 wurde nie erfunden, um ein Backup zu ersetzen und Datensicherheit kostet Geld, da beisst die Maus keinen Faden ab.
--> http://forum.qnapclub.de/viewtopic.php?f=242&t=18680

Einen Rebuild mit einer bereits angeschlagenen Platte im System durchzuführen ist keinesfalls zu empfehlen, daher war der weitere Verlauf bis zu dieser Stelle in meinen Augen absehbar. Die HDD2 macht Leseprobleme, damit ist ein erfolgreicher Rebuild nicht mehr sichergestellt, das RAID könnte sogar ganz abschmieren. Daher die Empfehlung als allererstes jetzt die Daten zu sichern, solange es noch geht.

Mal sehen, was Prof. Dr. Linux Mike vielleicht noch tun kann.

Mein nächster Versuch wäre nun gewesen, die alte HDD1 wieder einzusetzen und die "toxische" HDD2 zu entfernen. Damit würde das RAID zwar immer noch "degraded" sein, nun aber aus "unauffälligen" Platten bestehen. Dann in den Schacht 2 eine der neuen 4TBs und den Rebuild wieder starten lassen. Das alles selbstverständlich NACHDEM die Daten gesichert wurden, an einem instabilen, ungesicherten System sollten sich imho nur Leute mit Spezialkenntnissen "vergreifen".

GLG GBD

dr_mike · 4. Juni 2014

Zitat von "GorillaBD"

Die HDD2 macht Leseprobleme, damit ist ein erfolgreicher Rebuild nicht mehr sichergestellt, das RAID könnte sogar ganz abschmieren.

Nicht nur nicht sichergestellt, sondern unmöglich. Das entspricht in etwa dem partiellen Ausfall zweier Platten im RAID5.

Zitat von "Nordstern"

Code

[  274.615026] md/raid:md0: cannot start dirty degraded array.

Zitat von "GorillaBD"

Mal sehen, was Prof. Dr. Linux Mike vielleicht noch tun kann.

In der momentanen Situation gar nichts - siehe oben.

Zitat von "GorillaBD"

Mein nächster Versuch wäre nun gewesen, die alte HDD1 wieder einzusetzen und die "toxische" HDD2 zu entfernen......Das alles selbstverständlich NACHDEM die Daten gesichert wurden....

So sehe ich das auch. Zumal noch erschwerend hinzukommt, dass das RAID quasi randvoll ist.

Problem mit Raid Recovery

Multiple Vulnerabilities in Media Streaming Add-on

QuTS hero h5.2.0.2737 Build 20240417 Public Beta

QTS 5.2.0.2737 Build 20240417 Public Beta

QTS 5.2.0.2737 Build 20240417

Lüftersteuerung bei TS-464

Qnap TS-133 Plex Server Stromverbrauch reduzieren

TS-859 Pro+ Kein Zugriff nach File Check

Migration TS-431P2 zu TS-473A-8G

Probleme mit Schreibgeschwindigkeit auf QNAP TS-412

Screenshots erstellen und im Forum einbinden (Windows)

(Betriebs)- System vs. Systemvolume - Hinweise zum Verständnis

QuDedup: Backup Job neu verlinken - Ein Ritt ins Verderben

[QUICK HOW-TO] Apps manuell auf ein anderes Volume verschieben

[QUICK HOW TO] QNAP Disks unter Windows mit UFS Explorer auslesen

Kodi-Headless Server als Docker-Container

Hardware Praxis – „Hör mal wer da surrt“: Ein Erfahrungsbericht aus dem IT-Alltag

Hardware Praxis – Tipps zum Einbau einer neuen Festplatte: Ergänzung

Foren Update im Juli / August geplant

IT-Geschichten – Die verrückte Tastatur