TS-859 Pro+ RAID 6 Rebuild gegen die Wand gefahren

1x1speed · 17. Januar 2020

Hallo zusammen,

mein altes TS 879 Pro+ hatte vor ein paar Tagen eine Platte mit SMART Fehlern und dem Zustand Normal WD RE 4TB WD4000FYYZ ich hab diese gegen eine WD Gold 4TB WD4003FRYZ ausgetauscht. Der Rebuild ist gestartet und lief zwar langsam aber stätig. Hatte gestern Abend nach etwa 3 Tagen 35% Rebuild durch. Leider ist das System dann gestern Nacht durchgestartet. Stromausfall ist ausgeschlossen, da es an einer USV hängt, die mir einen Fehler protokolliert hätte.

Nun sind die Freigabeordner nicht mehr verfügbar weil das RAID 6 im Speichermanager zwar sichtbar ist, aber nicht eingehängt. Der erste Versuch das Raid über die GUI per Wiederherstellen zu beleben scheiterte mit "Raid Recovery failed.

Nun habe ich mich per SSH verbunden:

Code

# mount  
/proc on /proc type proc (rw)
none on /dev/pts type devpts (rw,gid=5,mode=620)
sysfs on /sys type sysfs (rw)
tmpfs on /tmp type tmpfs (rw,size=64M)
tmpfs on /dev/shm type tmpfs (rw)
tmpfs on /share type tmpfs (rw,size=16M)
none on /proc/bus/usb type usbfs (rw)
/dev/sda4 on /mnt/ext type ext3 (rw)
/dev/md9 on /mnt/HDA_ROOT type ext3 (rw,data=ordered)
tmpfs on /samba type tmpfs (rw,size=64M)
tmpfs on /mnt/rf/nd type tmpfs (rw,size=1m)
none on /sys/kernel/config type configfs (rw)

Alles anzeigen

/dev/md0 ist nicht nach /share/MD0_DATA eingehangen

Code

# mdadm --detail /dev/md0
mdadm: md device /dev/md0 does not appear to be active.

mdam bringt für md0 auch keine infos

Code

# e2fsck_64 -fp -C 0 /dev/md0
e2fsck_64: Invalid argument while trying to open /dev/md0
/dev/md0:
The superblock could not be read or does not describe a valid ext2/ext3/ext4
filesystem.  If the device is valid and it really contains an ext2/ext3/ext4
filesystem (and not swap or ufs or something else), then the superblock
is corrupt, and you might try running e2fsck with an alternate superblock:
e2fsck -b 8193 <device>
or
e2fsck -b 32768 <device>

Dateisystemcheck auf md0 ist erfolglos

Code

# cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath]
md8 : active raid1 sdf2[6](S) sde2[5](S) sdd2[4](S) sdc2[3](S) sdb2[2] sda2[0]
530128 blocks super 1.0 [2/2] [UU]

md13 : active raid1 sda4[0] sdd4[5] sde4[8] sdf4[7] sdc4[9] sdb4[3]
458880 blocks super 1.0 [8/6] [UUUUUU__]
bitmap: 7/8 pages [28KB], 32KB chunk

md9 : active raid1 sda1[0] sdf1[12] sde1[11] sdd1[10] sdc1[9] sdb1[8]
530112 blocks super 1.0 [8/6] [UUUUUU__]
bitmap: 8/9 pages [32KB], 32KB chunk

unused devices: <none>

Alles anzeigen

mdstat bringt die obrige Ausgabe

Code

# e2fsck_64 -fp -C 0 /dev/md0
e2fsck_64: Invalid argument while trying to open /dev/md0
/dev/md0:
The superblock could not be read or does not describe a valid ext2/ext3/ext4
filesystem.  If the device is valid and it really contains an ext2/ext3/ext4
filesystem (and not swap or ufs or something else), then the superblock
is corrupt, and you might try running e2fsck with an alternate superblock:
e2fsck -b 8193 <device>
or
e2fsck -b 32768 <device>

Filesystem Check auf md0 ist nicht möglich

Code

# mdadm --examine /dev/md0
mdadm: No md superblock detected on /dev/md0.

Hat jemand eine Idee wie ich hie über die Shell weiter komme und das RAID wieder zum laufen bekomme?

Ich habe in einem Forum noch ein ähnliches Thema gefunden bei dem jemand ein RAID 5 mit 4 Platten nach einem ähnlichen "Rebuild failed" wieder an den Start gebracht hat, schreibt aber nicht dazu, ob die Daten noch da waren mit dem madam --create Kommando

Code

#mdadm --create -v --force --run --assume-clean /dev/md1 --raid-devices=4 --level=5 --metadata=1.0 --chunk=64 /dev/sda3 /dev/sdb3 /dev/sdc3 /dev/sdd3
# /etc/init.d/init_lvm.sh

FSC830 · 17. Januar 2020

Der init_lvm.sh dürfte nur auf HAL Firmware funktionieren, bei Legacy Geräten habe ich den noch nicht gefunden.

Von was für einem NAS reden wir eigentlich, im Titel ist es ein TS 859, im Thread ein TS 879?

Mir ist während eines Rebuilds auch mal ein NAS rebootet, das war mit Sicherheit ein FW Bug, denn das NAS hängt an einer USV. Zufällig war ich auch gerade anwesend und es gab keinen Stromausfall. Da das NAS mit dieser FW aber sowieso alle 2-4 Tage ohne erkenntlichen Grund rebootet hat, habe ich es in den Ruhstand geschickt.

Ich habe zusammengefasst, wie ich das Raid bei mir wieder herstellen konnte. Du musst das auf Deine Konfiguration anpassen.

Gruss

Code

Ausgangssituation:
TS859 Pro, Raid5 (Disks 1-7) Disk 8 Hot spare

Disk 1 fiel aus, Disk 8 (Hot spare) springt ein, Rebuild startet.
Irgendwann währen des Rebuilds brebootet das NAS :(.

Danach war das Raid "offline"

[~] # md_checker

Welcome to MD superblock checker (v1.4) - have a nice day~

Scanning system...

Legacy Firmware Detected!
Scanning disks...

RAID metadata found!
UUID:           3e553e2f:9b6be76c:bf90ef24:8c1aca80
Level:          raid5
Devices:        7
Name:           md0
Chunk Size:     64K
md Version:     1.0
Creation Time:  Jan 27 10:16:22 2018
Status:         OFFLINE
===============================================================================
 Disk | Device | # | Status |   Last Update Time   | Events | Array State
===============================================================================
   8  /dev/sdh3  0  Rebuild   May 29 13:27:03 2018    44547   Uuuuuuu
   2  /dev/sdb3  1   Active   May 29 13:27:03 2018    44547   uUuuuuu
   3  /dev/sdc3  2   Active   May 29 13:27:03 2018    44547   uuUuuuu
   4  /dev/sdd3  3   Active   May 29 13:27:03 2018    44547   uuuUuuu
   5  /dev/sde3  4   Active   May 29 13:27:03 2018    44547   uuuuUuu
   6  /dev/sdf3  5   Active   May 29 13:27:03 2018    44547   uuuuuUu
   7  /dev/sdg3  6   Active   May 29 13:27:03 2018    44547   uuuuuuU
===============================================================================

+++ Versuch das Raid online zu nehmen +++

[~] #  mdadm -AfR  /dev/md0 /dev/sda3 /dev/sdb3 /dev/sdc3 /dev/sdd3 /dev/sde3 /dev/sdf3 /dev/sdg3
mdadm: no recogniseable superblock on /dev/sda3
mdadm: /dev/sda3 has no superblock - assembly aborted

+++ Versuch mit der aktuellen Konfiguration (Disk 8) schlug ebenfalls fehl (Input/output error) +++
+++ deshalb Versuch das Raid ohne die defekte Disk 1 zu starten -> Erfolg +++

[~] # mdadm -AfR  /dev/md0  /dev/sdb3 /dev/sdc3 /dev/sdd3 /dev/sde3 /dev/sdf3 /dev/sdg3
mdadm: /dev/md0 has been started with 6 drives (out of 7).


[~]# mdadm --detail /dev/md0
/dev/md0:
        Version : 01.00.03
  Creation Time : Sat Jan 27 10:16:22 2018
     Raid Level : raid5
     Array Size : 17572185216 (16758.14 GiB 17993.92 GB)
  Used Dev Size : 2928697536 (2793.02 GiB 2998.99 GB)
   Raid Devices : 7
  Total Devices : 6
Preferred Minor : 0
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Tue May 29 16:12:20 2018
          State : active, degraded
 Active Devices : 6
Working Devices : 6
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 64K

           Name : 0
           UUID : 3e553e2f:9b6be76c:bf90ef24:8c1aca80
         Events : 44551

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3
       4       8       67        4      active sync   /dev/sde3
       5       8       83        5      active sync   /dev/sdf3
       6       8       99        6      active sync   /dev/sdg3
 
+++ Die defekte Disk 1 wird nun erneut zugefügt und der Rebuild startet !? +++
+++ Allerdings zeigte die GUI das Raid besteht aus Disk 2-8! +++

 
 [~] # mdadm /dev/md0 --add /dev/sda3
mdadm: added /dev/sda3

[~]# cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath]
md0 : active raid5 sda3[7] sdb3[1] sdg3[6] sdf3[5] sde3[4] sdd3[3] sdc3[2]
                 17572185216 blocks super 1.0 level 5, 64k chunk, algorithm 2 [7/6] [_UUUUUU]
                 [>....................]  recovery =  0.0% (241796/2928697536) finish=1009.2min speed=48359K/sec
                 bitmap: 6/11 pages [24KB], 131072KB chunk

md8 : active raid1 sda2[0](S) sdh2[8] sdg2[7](S) sdf2[6](S) sde2[5](S) sdd2[4](S) sdc2[3](S) sdb2[2]
                 530128 blocks super 1.0 [2/2] [UU]

md13 : active raid1 sda4[4] sdh4[14] sdg4[13] sdf4[12] sde4[11] sdd4[10] sdc4[9] sdb4[8]
                 458880 blocks super 1.0 [8/8] [UUUUUUUU]
                 bitmap: 1/8 pages [4KB], 32KB chunk

md9 : active raid1 sda1[15] sdb1[8] sdh1[14] sdg1[13] sdf1[12] sde1[11] sdd1[10] sdc1[9]
                 530112 blocks super 1.0 [8/8] [UUUUUUUU]
                 bitmap: 0/9 pages [0KB], 32KB chunk

unused devices: <none>

+++ Der Rebuild dauerte ca. 16h, danach war das Raid wieder online. Laut GUI immer noch Disk 2-8, laut CLI Disk 1-7! +++


[~] # cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath]
md0 : active raid5 sda3[7] sdb3[1] sdg3[6] sdf3[5] sde3[4] sdd3[3] sdc3[2]
                 17572185216 blocks super 1.0 level 5, 64k chunk, algorithm 2 [7/7] [UUUUUUU]
                 bitmap: 0/11 pages [0KB], 131072KB chunk

md8 : active raid1 sda2[0](S) sdh2[8] sdg2[7](S) sdf2[6](S) sde2[5](S) sdd2[4](S) sdc2[3](S) sdb2[2]
                 530128 blocks super 1.0 [2/2] [UU]

md13 : active raid1 sda4[4] sdh4[14] sdg4[13] sdf4[12] sde4[11] sdd4[10] sdc4[9] sdb4[8]
                 458880 blocks super 1.0 [8/8] [UUUUUUUU]
                 bitmap: 0/8 pages [0KB], 32KB chunk

md9 : active raid1 sda1[15] sdb1[8] sdh1[14] sdg1[13] sdf1[12] sde1[11] sdd1[10] sdc1[9]
                 530112 blocks super 1.0 [8/8] [UUUUUUUU]
                 bitmap: 0/9 pages [0KB], 32KB chunk

unused devices: <none>

+++ NAS manuell neu gestartet, es startet ein neuer Rebuild, diesmal auf Disk 8. GUI und CLI sind jetzt dergleichen Meinung :) ! +++

[~] # mdadm --detail /dev/md0
/dev/md0:
        Version : 01.00.03
  Creation Time : Sat Jan 27 10:16:22 2018
     Raid Level : raid5
     Array Size : 17572185216 (16758.14 GiB 17993.92 GB)
  Used Dev Size : 2928697536 (2793.02 GiB 2998.99 GB)
   Raid Devices : 7
  Total Devices : 7
Preferred Minor : 0
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Wed May 30 08:40:21 2018
          State : active, degraded, recovering
 Active Devices : 6
Working Devices : 7
 Failed Devices : 0
  Spare Devices : 1

         Layout : left-symmetric
     Chunk Size : 64K

 Rebuild Status : 0% complete

           Name : 0
           UUID : 3e553e2f:9b6be76c:bf90ef24:8c1aca80
         Events : 60901

    Number   Major   Minor   RaidDevice State
       7       8      115        0      spare rebuilding   /dev/sdh3
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3
       4       8       67        4      active sync   /dev/sde3
       5       8       83        5      active sync   /dev/sdf3
       6       8       99        6      active sync   /dev/sdg3
[~] #
[~] # cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath]
md0 : active raid5 sdh3[7] sdb3[1] sdg3[6] sdf3[5] sde3[4] sdd3[3] sdc3[2]
                 17572185216 blocks super 1.0 level 5, 64k chunk, algorithm 2 [7/6] [_UUUUUU]
                 [>....................]  recovery =  0.1% (3967872/2928697536) finish=3965.4min speed=12292K/sec
                 bitmap: 6/11 pages [24KB], 131072KB chunk

md8 : active raid1 sdh2[8](S) sdg2[7](S) sdf2[6](S) sde2[5](S) sdd2[4](S) sdc2[3](S) sdb2[2] sda2[0]
                 530128 blocks super 1.0 [2/2] [UU]

md13 : active raid1 sda4[4] sdc4[9] sdd4[10] sde4[11] sdf4[12] sdg4[13] sdh4[14] sdb4[8]
                 458880 blocks super 1.0 [8/8] [UUUUUUUU]
                 bitmap: 1/8 pages [4KB], 32KB chunk

md9 : active raid1 sda1[15] sdh1[14] sdg1[13] sdf1[12] sde1[11] sdd1[10] sdc1[9] sdb1[8]
                 530112 blocks super 1.0 [8/8] [UUUUUUUU]
                 bitmap: 0/9 pages [0KB], 32KB chunk

unused devices: <none>
[~] #

+++ Nach diesem Rebuild war das Raid wieder ok. +++

Alles anzeigen

1x1speed · 17. Januar 2020

Danke für Die ausführliche Doku. Der md_checker war nicht auf dem System, konnte den aber nachladen:

Code

# md_checker
-sh: md_checker: command not found
# cd /home/
# wget http://download.qnap.com/Storage/tsd/utility/md_checker
--2020-01-17 12:49:50--  http://download.qnap.com/Storage/tsd/utility/md_checker
Connecting to 192.168.15.160:3128... connected.
Proxy request sent, awaiting response... 200 OK
Length: 13812 (13K) [binary/octet-stream]
Saving to: âmd_checkerâ


md_checker  100%[======================================================================================================================>]  13.49K  --.-KB/s   in 0.04s


2020-01-17 12:49:50 (314 KB/s) - âmd_checkerâ saved [13812/13812]


# chmod +x md_checker
# ./md_checker


Welcome to MD superblock checker (v1.4) - have a nice day~


Scanning system...


Legacy Firmware Detected!
Scanning disks...


RAID metadata found!
UUID:  1dc34b97:6eb35e70:ab17f63f:02dd998d
Level:  raid6
Devices: 6
Name:  md0
Chunk Size: 64K
md Version: 1.0
Creation Time: Oct 20 16:09:34 2017
Status:  OFFLINE
===============================================================================
Disk | Device | # | Status |   Last Update Time   | Events | Array State
===============================================================================
1  /dev/sda3  0   Active   Jan 16 22:28:42 2020  1381201   Uuuuuu
2  /dev/sdb3  1   Active   Jan 16 22:28:42 2020  1381201   uUuuuu
3  /dev/sdc3  2  Rebuild   Jan 16 22:28:42 2020  1381201   uuUuuu
4  /dev/sdd3  3   Active   Jan 16 22:28:42 2020  1381201   uuuUuu
5  /dev/sde3  4   Active   Jan 16 22:28:42 2020  1381201   uuuuUu
6  /dev/sdf3  5   Active   Jan 16 22:28:42 2020  1381201   uuuuuU
===============================================================================

# mdadm -AfR  /dev/md0  /dev/sda3 /dev/sdb3 /dev/sdd3 /dev/sde3 /dev/sdf3
mdadm: device /dev/md0 already active - cannot assemble it

+++ komischerweise war das Array wieder aktiv
+++ Das RAID war tatsächlich wieder mit einem Status verfügbar jedoch nicht eingehangen wie mdadm --detail zeigt

# mdadm --detail /dev/md0
/dev/md0:
        Version : 01.00.03
  Creation Time : Fri Oct 20 16:09:34 2017
     Raid Level : raid6
  Used Dev Size : 3905449536 (3724.53 GiB 3999.18 GB)
   Raid Devices : 6
  Total Devices : 6
Preferred Minor : 0
    Persistence : Superblock is persistent

    Update Time : Thu Jan 16 22:28:42 2020
          State : active, degraded, Not Started
 Active Devices : 5
Working Devices : 6
 Failed Devices : 0
  Spare Devices : 1

     Chunk Size : 64K

           Name : 0
           UUID : 1dc34b97:6eb35e70:ab17f63f:02dd998d
         Events : 1381201

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
       7       8       35        2      spare rebuilding   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3
       6       8       67        4      active sync   /dev/sde3
       5       8       83        5      active sync   /dev/sdf3

Alles anzeigen

Ich werde nun mal abwarten ob der Rebuild erfolgreich ist. Dann werde ich das Array erst wieder einhängen, oder das NAS rebooten und schauen was passiert.

Gruss

chef1 · 20. Januar 2020

Zitat von 1x1speed

Hatte gestern Abend nach etwa 3 Tagen 35% Rebuild durch. Leider ist das System dann gestern Nacht durchgestartet. Stromausfall ist ausgeschlossen, da es an einer USV hängt, die mir einen Fehler protokolliert hätte.

Zitat von FSC830

Mir ist während eines Rebuilds auch mal ein NAS rebootet, das war mit Sicherheit ein FW Bug, denn das NAS hängt an einer USV. Zufällig war ich auch gerade anwesend und es gab keinen Stromausfall. Da das NAS mit dieser FW aber sowieso alle 2-4 Tage ohne erkenntlichen Grund rebootet hat, habe ich es in den Ruhstand geschickt.

Das braucht kein FW-Bug zu sein. Eine andere mögliche Ursache könnte eine Überlastung sein. Gerade bei schwächeren QNAP NAS mit begrenzten Hauptspeicherressourcen habe ich spontane Reboots erlebt. Wenn ich zu jenem Zeitpunkt eine GUI-Sitzung offen hatte, sah ich eine entsprechende Warnmeldung, entweder dass die CPU überlastet sei oder wegen hoher Speicher- und Swapbelegung das System einen Neustart durchführe. Das scheint an einem Heartbeatmonitor in QTS zu liegen. Habe diesen aber noch nicht näher identifizieren können, geschweige denn Konfigurationsmöglichkeiten desselben kennengelernt. Eine typische Begleiterscheinung, wenn diese Warnung auch umgesetzt wird, ist kein klassischer Reboot, sondern ein Kaltstart ohne vorherigen Shutdown! Das führt dann zur Warnung beim Booten, dass auch noch ein Dateisystemcheck empfohlen wird, was wieder zur Gefahr einer temporären Überlastung führt. Von daher stufe ich dies nicht als einen FW-Bug ein sondern als eine Inkonsistenz im Design (von QTS). Und naja, dass dieser Heartbeat nicht wenigstens versucht, zunächst einen Shutdown durchzuführen, lässt sich m.E. durchaus als FW-Bug einstufen. Das ist aber nur ein Teil des von mir beobachteten Verhalten. Wenn also der von Euch beobachtete Reboot nicht die von Euch erwartete Notiz in Systemprotokollen hinterlassen hat, gab es dann Einträge über nicht ordentlich herunter gefahrenes System und empfohlenen Dateisystemcheck im Zusammenhang mit Euren Reboot-Beobachtungen?

TS-859 Pro+ RAID 6 Rebuild gegen die Wand gefahren

QuTS hero h5.1.6.2734 Build 20240414

QTS 5.1.6.2722 Build 20240402

Vulnerability in XZ Utils

Vulnerability in Network ＆ Virtual Switch

Raid 5 statisches Volume erweitern, Re-Check

Statisches Volume entnehmen?

"Downgrade" auf alte/kleinere Platten nach missglückter RAID5-Erweiterung möglich?

NAS neu aufsetzen TS-453

Raid5 über mehrere Gehäuse

Screenshots erstellen und im Forum einbinden (Windows)

(Betriebs)- System vs. Systemvolume - Hinweise zum Verständnis

QuDedup: Backup Job neu verlinken - Ein Ritt ins Verderben

VPN - ganz allgemein

[QUICK HOW-TO] Apps manuell auf ein anderes Volume verschieben

Kodi-Headless Server als Docker-Container

Hardware Praxis – „Hör mal wer da surrt“: Ein Erfahrungsbericht aus dem IT-Alltag

Hardware Praxis – Tipps zum Einbau einer neuen Festplatte: Ergänzung

Foren Update im Juli / August geplant

IT-Geschichten – Die verrückte Tastatur