TVS-863 RAID 5 - status FAILED, Rescue nach falschen Festplatten ziehen

steinche · 20. Februar 2022

Hallo liebe QNAP Gemeinde,

bei meinem RAID5 Verbund mit 8 x 6GB Platten war die DISK3 ausgefallen. Das habe ich zum Anlass genommen, alle Platten zu tauschen und gleichzeitig die Speicherkapazität zu erhöhen. Daher habe ich als ersten die defekte DISK3 gegen eine 16TG Platte ersetzt. Danach war wieder alles gut

Also mit den Platten 1, 2, 4, 5, 6, 7 weiter gemacht. Alles wunderbar. Nach jedem Plattentausch hat der Resync ca. 14 Stunden gedauert. Und dann war die Euphorie beim letzten Plattentausch, die mich hat unachtsam sein lassen

Über den Speichermanager hatte ich jeweils die zu tauschende Festplatte angewählt und ersetzt. Bei der letzte Platte habe ich jedoch statt der DISK8 die DISK7 gezogen. Als ich die neue Platte einsetzen wollte, ist mir das Missgeschick aufgefallen! DISK7 war gezogen und DISK8 war noch die alte Platte. Und jetzt wurde es richtig doof. Anstatt, dass ich die DISK7 wieder stecke und abwarte, was passiert, habe ich DISK8 gezogen

Im dem Moment, als ich die Platte gezogen habe frage ich mich, was ich da mache, aber da war es natürlich schon zu spät. Also habe ich die alte DISK8 wieder zurück gesteckt und die DISK7 auch wieder gesteckt.

Über die Konsole habe ich nun folgende Ausgaben:

Code

cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath]
md1 : active (read-only) raid5 sdd3[14] sdc3[13] sdb3[12] sda3[11] sdj3[10] sdi3[9] sdf3[8]
      40953970176 blocks super 1.0 level 5, 512k chunk, algorithm 2 [8/7] [UUUUUU_U]

md322 : active raid1 sdg5[6](S) sde5[5](S) sdd5[4](S) sdc5[3](S) sdb5[2](S) sda5[9](S) sdj5[8] sdi5[7]
      7235136 blocks super 1.0 [2/2] [UU]
      bitmap: 0/1 pages [0KB], 65536KB chunk

md256 : active raid1 sdg2[6](S) sde2[5](S) sdd2[4](S) sdc2[3](S) sdb2[2](S) sda2[9](S) sdj2[8] sdi2[7]
      530112 blocks super 1.0 [2/2] [UU]
      bitmap: 0/1 pages [0KB], 65536KB chunk

md13 : active raid1 sdg4[38] sde4[7] sdd4[37] sdc4[36] sdb4[35] sda4[34] sdj4[33] sdi4[32]
      458880 blocks super 1.0 [32/8] [UUUUUUUU________________________]
      bitmap: 1/1 pages [4KB], 65536KB chunk

md9 : active raid1 sdg1[38] sde1[7] sdd1[37] sdc1[36] sdb1[35] sda1[34] sdj1[33] sdi1[32]
      530048 blocks super 1.0 [32/8] [UUUUUUUU________________________]
      bitmap: 1/1 pages [4KB], 65536KB chunk

unused devices: <none>

Alles anzeigen

Code

mdadm --misc --detail /dev/md1
/dev/md1:
        Version : 1.0
  Creation Time : Mon May  6 12:54:23 2019
     Raid Level : raid5
     Array Size : 40953970176 (39056.75 GiB 41936.87 GB)
  Used Dev Size : 5850567168 (5579.54 GiB 5990.98 GB)
   Raid Devices : 8
  Total Devices : 7
    Persistence : Superblock is persistent

    Update Time : Sat Feb 19 20:20:49 2022
          State : active, FAILED, Rescue
 Active Devices : 7
Working Devices : 7
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 512K

           Name : 1
           UUID : f57bd9fd:8805d6be:9b17436c:19414863
         Events : 4792426

    Number   Major   Minor   RaidDevice State
      10       8      147        0      active sync   /dev/sdj3
      11       8        3        1      active sync   /dev/sda3
       9       8      131        2      active sync   /dev/sdi3
      12       8       19        3      active sync   /dev/sdb3
      13       8       35        4      active sync   /dev/sdc3
      14       8       51        5      active sync   /dev/sdd3
      12       0        0       12      removed
       8       8       83        7      faulty

Alles anzeigen

Code

ls -la /dev/sd*
brw------- 1 admin administrators 8,   0 2022-02-19 20:06 /dev/sda
brw------- 1 admin administrators 8,   1 2022-02-16 16:17 /dev/sda1
brw------- 1 admin administrators 8,   2 2022-02-16 16:17 /dev/sda2
brw------- 1 admin administrators 8,   3 2022-02-16 16:17 /dev/sda3
brw------- 1 admin administrators 8,   4 2022-02-19 03:31 /dev/sda4
brw------- 1 admin administrators 8,   5 2022-02-16 16:17 /dev/sda5
brw------- 1 admin administrators 8,  16 2022-02-19 20:06 /dev/sdb
brw-rw---- 1 admin              6 8,  17 2022-02-17 07:18 /dev/sdb1
brw------- 1 admin administrators 8,  18 2022-02-17 07:18 /dev/sdb2
brw------- 1 admin administrators 8,  19 2022-02-17 07:18 /dev/sdb3
brw------- 1 admin administrators 8,  20 2022-02-19 03:33 /dev/sdb4
brw------- 1 admin administrators 8,  21 2022-02-17 07:18 /dev/sdb5
brw------- 1 admin administrators 8,  32 2022-02-19 20:06 /dev/sdc
brw------- 1 admin administrators 8,  33 2022-02-17 22:25 /dev/sdc1
brw------- 1 admin administrators 8,  34 2022-02-17 22:25 /dev/sdc2
brw------- 1 admin administrators 8,  35 2022-02-17 22:25 /dev/sdc3
brw------- 1 admin administrators 8,  36 2022-02-19 03:34 /dev/sdc4
brw------- 1 admin administrators 8,  37 2022-02-17 22:25 /dev/sdc5
brw------- 1 admin administrators 8,  48 2022-02-19 20:06 /dev/sdd
brw-rw---- 1 admin              6 8,  49 2022-02-18 12:51 /dev/sdd1
brw------- 1 admin administrators 8,  50 2022-02-18 12:51 /dev/sdd2
brw------- 1 admin administrators 8,  51 2022-02-18 12:51 /dev/sdd3
brw------- 1 admin administrators 8,  52 2022-02-19 03:35 /dev/sdd4
brw------- 1 admin administrators 8,  53 2022-02-18 12:51 /dev/sdd5
brw-rw---- 1 admin              6 8,  64 2022-02-19 20:34 /dev/sde
brw------- 1 admin administrators 8,  65 2022-02-19 20:34 /dev/sde1
brw------- 1 admin administrators 8,  66 2022-02-19 20:34 /dev/sde2
brw-rw---- 1 admin              6 8,  67 2022-02-19 20:34 /dev/sde3
brw------- 1 admin administrators 8,  68 2022-02-19 20:34 /dev/sde4
brw------- 1 admin administrators 8,  69 2022-02-19 20:34 /dev/sde5
brw-rw---- 1 admin              6 8,  96 2022-02-19 20:35 /dev/sdg
brw------- 1 admin administrators 8,  97 2022-02-19 20:35 /dev/sdg1
brw------- 1 admin administrators 8,  98 2022-02-19 20:35 /dev/sdg2
brw-rw---- 1 admin              6 8,  99 2022-02-19 20:35 /dev/sdg3
brw------- 1 admin administrators 8, 100 2022-02-19 20:35 /dev/sdg4
brw------- 1 admin administrators 8, 101 2022-02-19 20:35 /dev/sdg5
brw------- 1 admin administrators 8, 112 2022-02-04 12:57 /dev/sdh
brw------- 1 admin administrators 8, 113 2022-02-04 12:57 /dev/sdh1
brw------- 1 admin administrators 8, 114 2022-02-04 12:57 /dev/sdh2
brw------- 1 admin administrators 8, 115 2022-02-04 12:57 /dev/sdh3
brw------- 1 admin administrators 8, 116 2022-02-04 12:57 /dev/sdh4
brw------- 1 admin administrators 8, 117 2022-02-04 12:57 /dev/sdh5
brw------- 1 admin administrators 8, 118 2022-02-04 12:57 /dev/sdh6
brw------- 1 admin administrators 8, 128 2022-02-19 20:06 /dev/sdi
brw------- 1 admin administrators 8, 129 2022-02-14 17:47 /dev/sdi1
brw------- 1 admin administrators 8, 130 2022-02-14 17:47 /dev/sdi2
brw------- 1 admin administrators 8, 131 2022-02-14 17:47 /dev/sdi3
brw------- 1 admin administrators 8, 132 2022-02-19 03:32 /dev/sdi4
brw------- 1 admin administrators 8, 133 2022-02-14 17:47 /dev/sdi5
brw------- 1 admin administrators 8, 144 2022-02-19 20:06 /dev/sdj
brw------- 1 admin administrators 8, 145 2022-02-15 23:08 /dev/sdj1
brw------- 1 admin administrators 8, 146 2022-02-15 23:08 /dev/sdj2
brw------- 1 admin administrators 8, 147 2022-02-15 23:08 /dev/sdj3
brw------- 1 admin administrators 8, 148 2022-02-19 03:30 /dev/sdj4
brw------- 1 admin administrators 8, 149 2022-02-15 23:08 /dev/sdj5

Alles anzeigen

Seit fast 19 Stunden ist der der "md1_raid5" Prozess konstant zwischen 18 und 30%. Auf die Weboberfläche komme ich leider nicht mehr, da ich das NAS herunter fahren wollte. Es popt der Fenster auf, dass das NAS herunter gefahren.

Code

Mem: 13988228K used, 1377320K free, 249644K shrd, 6142792K buff, 546496K cached
CPU: 34.4% usr 10.2% sys  0.0% nic  0.0% idle 55.2% io  0.0% irq  0.0% sirq
Load average: 198.67 197.08 190.89 4/2190 24131
  PID  PPID USER     STAT   VSZ %VSZ CPU %CPU COMMAND
 6615     2 admin    RW<      0  0.0   1 20.7 [md1_raid5]
 8550  7616 admin    S    1103m  7.3   0 20.7 container-station/dockerd -H tcp://0.0.0.0:2376 -H unix:///var/run/docker.sock --bridge=lxcbr0 --tlsverify --tlscacert=/etc/docker/tls/ca.pem --tlscert=/etc/docker/tls/server.pem --tlskey=/et
 8198  8171 admin    S    1147m  7.6   3  0.5 container-station/containerd --config /var/run/system-docker/containerd/containerd.toml --log-level debug
 8171  7616 admin    S    1175m  7.8   3  0.5 container-station/dockerd -H unix:///var/run/system-docker.sock --bridge=docker0 --storage-driver=overlay2 --dns 10.0.5.1 --data-root=/var/lib/system-docker --exec-root=/var/run/system-docker
 7739     2 admin    SW       0  0.0   0  0.4 [notify thread]

Jetzt habe ich schon sehr Vieles gelesen und hatte versucht, die DISK8 mit mdadm /dev/md1 -r /dev/sdf3 aus dem Verbund zu nehmen, um sie mit mdadm /dev/md1 -a /dev/sdf3 wieder einzubinden, aber nach dem absetzen des ersten Befehls passiert minutenlang nichts.

Was mich auch wundert, dass die DISK7 als removed angezeigt wird. Auch ein ziehen und erneutes Stecken ändert an diesem Zustand nichts. Daher war mein Gedanke, erst mal wieder die DISK8 einzubinden und sich dann um DISK7 zu kümmern. Wobei ich beim Schreiben dieser Zeilen setzt unsicher bin, ob ich in SLOT7 wirklich die korrekt synchronisierte DISK 7 oder die leere DISK8 eingesetzt habe. Denn diesmal habe ich die neuen Platten nicht mit den Steckplätzen beschriftet

Tja und jetzt sitze ich hier und traue mich keinen Schritt weiter. Denn was dazu kommt, der Stand meines Backups ist eine Woche alt. Und ausgerechnet in dieser Zeit habe ich einen Berg Videodaten von meiner Tochter "zwischengespeichert" und diese, wie soll es in so einer Situation auch anders sein, noch nicht gesichert

Anbei ein Screenshot des letzten "erfolgreichen" Synchronisationsprozesses von DISK 7

Viele Grüße und einen schönen Sonntag!

Eric

FRS3263 · 20. Februar 2022

Hätte, hätte, Fahradkette: Jedes Resync ist überpropotinaler Stress für die Festplatten. Selbst wenn du nichts falsch machst, ist das Risiko eines weiteren Ausfalls ungleich höher. Ein aktualisiertes Backup vor Austausch der defekten Platte wäre angebracht gewesen.

Crazyhorse · 20. Februar 2022

Raid 5 kann genau den Ausfall einer HD vertragen, in dem Moment wo du noch eine zweite HD gezogen hast, kannst du die Daten abschreiben.

Schreibe QNAP per Ticket an, ob die hier helfen können.

Bitmap im Raid Pool könnte in dem Fall von HD 7 helfen, denn wenn keine Änderungen erfolgten, ist die HD dank Bitmap in wenigen Sekunden wieder ins Raid integrierbar.

Das war aber vermutlich nicht an, denn sonst hätte die HD 7 sich ggf. gerade eben so wieder online melden können, bevor die HD 8 gezogen wurde.

steinche · 20. Februar 2022

@Crazyhorse

Denn versuche ich mal mein Glück beim QNAP Support

TVS-863 RAID 5 - status FAILED, Rescue nach falschen Festplatten ziehen

Vulnerabilities in Squid

Multiple Vulnerabilities in QuFirewall

Vulnerability in Media Streaming Add-on

Multiple Vulnerabilities in QTS, QuTS hero, and QuTScloud (PWN2OWN 2023)

Datenträger kann nicht als Volumen gewählt werden / frei(Belegt)

Alte QNAP Festplatte auslesen, aber: Speicherpool nicht verfügbar

Einzelnes HDD-Ziehen aus RAID5, um "Brummer" ausfindig zu machen?

RAID herabgestuft, lässt sich nicht mehr initialisieren

Statisches Volume entnehmen?

Screenshots erstellen und im Forum einbinden (Windows)

(Betriebs)- System vs. Systemvolume - Hinweise zum Verständnis

QuDedup: Backup Job neu verlinken - Ein Ritt ins Verderben

[QUICK HOW-TO] Apps manuell auf ein anderes Volume verschieben

[QUICK HOW TO] QNAP Disks unter Windows mit UFS Explorer auslesen

Kodi-Headless Server als Docker-Container

Hardware Praxis – „Hör mal wer da surrt“: Ein Erfahrungsbericht aus dem IT-Alltag

Hardware Praxis – Tipps zum Einbau einer neuen Festplatte: Ergänzung

Foren Update im Juli / August geplant

IT-Geschichten – Die verrückte Tastatur

Tags