RAID5 Volume lässt sich nicht mehr mounten

Dilling · 14. Juni 2018

Hallo Commuintors,

da der Support nach 2 Wochen noch immer nicht geantwortet hat, hoffe ich, bei euch Hilfe zu finden.

Ich habe ein TS-453A NAS mit bisher einem Data Thick Volume auf RAID5 mit 4 Seagate Platten.

Nach einem nicht abgeschlossenen shutdown und einem 'harten' abschalten und neu booten, bekam ich vom QTS die Empfehlung eines Volume checks. Der lief aber nicht durch, bzw. bin ich mir da nicht sicher, denn ich konnte lange nicht flüssig auf das NAS zugreifen und bekam auch keinen Status des FSCheck angezeigt. Also habe ich nochmal einen reboot durchgeführt mit dem gleichen problem des nicht runterfahrens und 'hart' abschaltens.

Nach dem wieder hochfahren, habe ich nun das problem, dass das Volume mit 'unmounted' im Storage Manager aufgeführt wird. Und das ist auch ganz klar so, da alle Datenpartitionen nicht mehr zur Verfügung stehen und viele Dienste nicht mehr laufen.

Ein check des Raid 5 per SSH sieht soweit positiv aus. Es scheint aktiv und in ordnung zu sein. Aber die Daten Partition scheint nicht gemounted zu sein lässt sich aber auch nicht neu mounten.

Ich habe hier im Forum bereits einige Beiträge zu dem Problem gefunden, aber leider passte keine Lösung ausreichend für mein Problem. Ich würde mich freuen, wenn mit mir jemand Schritt für Schritt hier durch die Analyse gehen könnte!

Danke und Grüße
Delil

FSC830 · 14. Juni 2018

Eine Schritt für Schritt Anleitung gibt es so nicht da jeder Fehler und das, was man danach bereits gemacht habt, meist sehr individuell ist.

Wieso bist Du Dir nicht sicher ob der Check durchgelaufen ist? Der Check kann mehrere Stunden dauern, im Log ist das auch ersichtlich.

Was heisst "check per SSH sieht gut aus"? Was hast Du da genau gemacht?

Wie ist der aktuelle Status wenn Du cat /proc/mdstat eingibst und md_checker ausführst?

Gruss

Dilling · 14. Juni 2018

Hallo FSC830,

mit Schritt für Schritt, meinte ich genau die Unterstützung durch jemanden, der da Kundig ist und mögliche Schritte mit mir durch geht.

Mit kurzem Check meinte ich genau die von dir aufgeführten Befehle:

Code

[~] # cat /proc/mdstat

Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath]

md1 : active raid5 sda3[0] sdd3[3] sdc3[2] sdb3[1]

11691190848 blocks super 1.0 level 5, 64k chunk, algorithm 2 [4/4] [UUUU]

bitmap: 0/30 pages [0KB], 65536KB chunk


md322 : active raid1 sdd5[3](S) sdc5[2](S) sdb5[1] sda5[0]

7235136 blocks super 1.0 [2/2] [UU]

bitmap: 0/1 pages [0KB], 65536KB chunk


md256 : active raid1 sdd2[3](S) sdc2[2](S) sdb2[1] sda2[0]

530112 blocks super 1.0 [2/2] [UU]

bitmap: 0/1 pages [0KB], 65536KB chunk


md13 : active raid1 sda4[0] sdc4[34] sdb4[33] sdd4[32]

458880 blocks super 1.0 [32/4] [UUUU____________________________]

bitmap: 1/1 pages [4KB], 65536KB chunk


md9 : active raid1 sda1[0] sdc1[34] sdb1[33] sdd1[32]

530048 blocks super 1.0 [32/4] [UUUU____________________________]

bitmap: 1/1 pages [4KB], 65536KB chunk


unused devices: <none>

Alles anzeigen

Code

[~] # md_checker

Welcome to MD superblock checker (v1.4) - have a nice day~

Scanning system...

HAL firmware detected!
Scanning Enclosure 0...

RAID metadata found!
UUID:        cc3da534:d5750d08:9d944a85:119f9a91
Level:        raid5
Devices:    4
Name:        md1
Chunk Size:    64K
md Version:    1.0
Creation Time:    Dec 21 23:58:42 2016
Status:         ONLINE (md1) [UUUU]
===============================================================================
 Disk | Device | # | Status |   Last Update Time   | Events | Array State
===============================================================================
   1  /dev/sda3  0   Active   Jun 14 16:10:55 2018   524527   AAAA                     
   2  /dev/sdb3  1   Active   Jun 14 16:10:55 2018   524527   AAAA                     
   3  /dev/sdc3  2   Active   Jun 14 16:10:55 2018   524527   AAAA                     
   4  /dev/sdd3  3   Active   Jun 14 16:10:55 2018   524527   AAAA                     
===============================================================================

Alles anzeigen

Das Raid selbst scheint demnach OK zu sein.

FSC830 · 14. Juni 2018

Zitat von Dilling

...Aber die Daten Partition scheint nicht gemounted zu sein lässt sich aber auch nicht neu mounten...

Ok, es ist neueres QTS mit HAL Firmware.

Was passiert wenn Du versuchst manuell zu mounten?

Gruss

Dilling · 14. Juni 2018

Danke für deine Unterstützung!

Blöderweise habe ich nach einem anderen Forumsbeitrag den Befehl /etc/init.d/init_lvm.sh durchgeführt, der aber mit einer Reihe Fehlermeldungen abgebrochen ist. Jetzt fehlt das bis dahin vorhandene /share/CACHEDEV1_DATA Verzeichnis, wohin das Volume ursprünglich gemounted war.

Wenn ich

Code

mount -t ext4 /dev/md1 /share/CACHEDEV1_DATA

ausgeführt habe als das Verzeichnis noch existierte, kam die Fehlermeldung '/dev/md1 already mounted or /share/CACHEDEV1_DATA busy'.

Ich bin auch nicht ganz sicher, welcher mountbefehl richtig wäre. In einem weiteren Beitrag, war die rede davon, dass der LVM manager das mounting übernimmt und das nur über diesen machbar ist.

FSC830 · 14. Juni 2018

Meinst Du evtl. diesen Beitrag bzw. diese Befehle?

Evtl. musst Du den Ordner neu anlegen, ist schwierig jetzt nachzuvollzuziehen was Du schon alles versucht hast und wie sich das ausgewirkt hat.

Obligatorische Frage: ein Backup ist hoffentlich vorhanden?

Gruss

Dilling · 14. Juni 2018

Ne, den hier:

TS-251 nach Stromausfall Volume verschwunden

Ich denke Konfigurations ändernd war nur dieses Scrip.

Ansonsten habe ich nur versucht etwaige Dienste zu beenden um das device frei zu bekommen, oder herrauszufinden, in welchem Zustand sich die Konfiguration und der aktuelle Status des NAS befindet.

Wie auch immer. Weis man was das Script genau macht, oder meinst du also es reicht das Verzeichnis mit mkdir wieder anzulegen und darauf aufzubauen?

FSC830 · 14. Juni 2018

Das Script sichert erst mal was weg und ruft dann eine executable auf (storage_util), was die genau macht weiss ich leider nicht.

Wenn Du aber kein Backup hast wäre ich jetzt vorsichtig und würde auf den Support warten (kann leider dauern).

Gruss

Dilling · 14. Juni 2018

Für das wichtigste gibt es Backups, aber für einen großen Teil nicht. Wäre nicht tragisch aber ärgerlich.

TheColorfulDude · 14. Juni 2018

Hallo Dilling,

generell empfehle ich Dir auf den Support zu warten. Denn Du weist nicht an welcher Stelle das Volumen beschädigt ist.

Scheint ja als wäre das RAID online. ALso könne wir das auslassen

Kannst du mal den Auszug folgender Befehle posten?

Code

# pvs

# lvs -a 

# dmsetup ls

# df

Dilling · 15. Juni 2018

Code

[~] # pvs
  Found duplicate PV chXItZ1EuD1eFuQypxW3qmkZHb4erjYR: using /dev/drbd1 not /dev/md1
  Using duplicate PV /dev/drbd1 from subsystem DRBD, ignoring /dev/md1
  Found duplicate PV chXItZ1EuD1eFuQypxW3qmkZHb4erjYR: using /dev/drbd1 not /dev/md1
  Using duplicate PV /dev/drbd1 from subsystem DRBD, ignoring /dev/md1
  PV         VG   Fmt  Attr PSize  PFree
  /dev/drbd1 vg1  lvm2 a--  10.89t    0

Code

[~] # lvs -a 
  Found duplicate PV chXItZ1EuD1eFuQypxW3qmkZHb4erjYR: using /dev/drbd1 not /dev/md1
  Using duplicate PV /dev/drbd1 from subsystem DRBD, ignoring /dev/md1
  LV               VG   Attr       LSize   Pool Origin Data%  Meta%  Move Log Cpy%Sync Convert
  lv1              vg1  Vwi---t---   8.54t tp1                                                
  lv1312           vg1  -wi-a-----   1.11g                                                    
  lv544            vg1  -wi------- 111.49g                                                    
  snap10001        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10002        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10063        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10067        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10071        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10075        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10079        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10083        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10087        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10091        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10095        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10099        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10103        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10107        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10111        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10115        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10119        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10123        vg1  Vwi---t---   8.54t tp1  lv1                                           
  snap10127        vg1  Vwi---t---   8.54t tp1  lv1                                           
  tp1              vg1  twi---t---  10.71t                                                    
  [tp1_tierdata_0] vg1  vwi---v---   4.00m                                                    
  [tp1_tierdata_1] vg1  vwi---v---   4.00m                                                    
  [tp1_tierdata_2] vg1  Twi-------  10.72t                                                    
  [tp1_tmeta]      vg1  ewi-------  64.00g

Alles anzeigen

Code

[~] # dmsetup ls
vg1-lv1312    (252:1)

Code

[~] # df
Filesystem                Size      Used Available Use% Mounted on
none                    250.0M    199.9M     50.1M  80% /
devtmpfs                  7.8G      8.0K      7.8G   0% /dev
tmpfs                    64.0M    844.0K     63.2M   1% /tmp
tmpfs                     7.8G         0      7.8G   0% /dev/shm
tmpfs                    16.0M         0     16.0M   0% /share
tmpfs                    16.0M         0     16.0M   0% /mnt/snapshot/export
/dev/md9                493.5M    492.7M    740.0K 100% /mnt/HDA_ROOT
cgroup_root               7.8G         0      7.8G   0% /sys/fs/cgroup
/dev/sde2                 2.7T      2.7T     63.8G  98% /share/external/DEV3304_2
/dev/sde4               128.0M     38.5M     89.5M  30% /share/external/DEV3304_4
/dev/sdf2                 5.5T      4.7T    812.7G  85% /share/external/DEV3601_2
/dev/md13               355.0M    344.1M     10.9M  97% /mnt/ext
/dev/ram2               433.9M      2.3M    431.6M   1% /mnt/update
tmpfs                    64.0M      2.3M     61.7M   4% /samba
tmpfs                    16.0M     36.0K     16.0M   0% /samba/.samba/lock/msg.lock
tmpfs                    16.0M         0     16.0M   0% /mnt/ext/opt/samba/private/msg.sock
tmpfs                     1.0M         0      1.0M   0% /mnt/rf/nd

Alles anzeigen

TheColorfulDude · 15. Juni 2018

Wie man unter lvs -a sehr gut sehen kann sind fast alle lv´s der Volume Group 1 (vg1) Offline.

Bitte versuch mal folgenden Befehl und gib uns den Output. Wird höchstwahrscheinlich ne Fehlermeldung sein.

Code

# vgchange -ay vg1

Dilling · 15. Juni 2018

Hallo ColorfulDude,

danke fürs übernehmen!

Woran genau erkennt man, dass die offline sind? Weil nicht vorhanden? Also sieht man es nur, wenn man weis welche aufgeführt werden müssten?

Code

[~] # vgchange -ay vg1
  Found duplicate PV chXItZ1EuD1eFuQypxW3qmkZHb4erjYR: using /dev/drbd1 not /dev/md1
  Using duplicate PV /dev/drbd1 from subsystem DRBD, ignoring /dev/md1

  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  Thin pool vg1-tp1-tpool (252:6) transaction_id is 807, while expected 809.
  2 logical volume(s) in volume group "vg1" now active

Alles anzeigen

Und warum ist da von Thin Volume die Rede? Zumindest das vermisste Volume ist ein Thick Volume.

Gibt es noch Hoffnung?

TheColorfulDude · 16. Juni 2018

Für mich sieht das reperabel aus. Scheint "nur" die ID des Thinpools flasch zu sein. NOrmalerweise kann man das in der Config einfach korrigieren. Allerdings ist der Storage Stack von QNAP modifiziert. Maybe geht das anders.

Und was den Thinpool angeht. Das ist eine der modifizierungen die ich meine. Jedes Gerät das einen Storagepool hat, hat als erste lvm schicht nen Thinpool. Ich schätze das hat was mit der Snapshotfunktionalität zu tun. Aber so genau weiß ich das nicht.

Hat sich der Support schon gemeldet? Bin mir fast sicher dass das fixbar ist. Zumindest das mit der ID. Kein Plan ob evtl. noch weitere Schichten beschädigt sind.

Dilling · 16. Juni 2018

Danke fürs Hoffnung machen, nein der Support hat sich nach 3 Wochen leider noch immer nicht gemeldet.
Es gibt ja den Punkt 'Priority' im Ticket. Den kann man aber selbst nicht modifizieren oder? Steht bei mir auf 'Normal'

angelluck · 16. Juni 2018

Ich häng mich hier mal an, ich habe aktuell, genau das gleiche Problem. Nur das ich es auch schon vor ca. 2 Wochen vom Support beheben habe lassen und es jetzt nach einem neustart erneut aufgetreten ist.

Leider musste ich nebenbei selbst arbeiten als der support es bei mir repariert hat, also kann ich jetzt leider auch nicht genau sagen wie es funktioniert. Und letztlich will ich das auch nicht nach jedem neustart machen müssen.

8thway · 17. Juni 2018

Hallo Zusammen

Bei einem Kunden (mit einem TVS-473) scheint ein ähnliches Problem aufgetreten zu sein. Da meine Linux Kenntnisse aber sehr dürftig sind, konnte ich bisher nicht viel erreichen. Sämtliche Mount und Unmount Versuche scheiterten, lediglich die Dienste konnte ich stoppen.

Folgende Ergebnisse kamen raus:

Code

[~] # pvs
  Found duplicate PV g4t4ejxA75gfdGjzddwzsailODfzb49J: using /dev/drbd1 not /dev/md1
  Using duplicate PV /dev/drbd1 from subsystem DRBD, ignoring /dev/md1
  Found duplicate PV g4t4ejxA75gfdGjzddwzsailODfzb49J: using /dev/drbd1 not /dev/md1
  Using duplicate PV /dev/drbd1 from subsystem DRBD, ignoring /dev/md1
  PV         VG   Fmt  Attr PSize  PFree
  /dev/drbd1 vg1  lvm2 a--  21.80t    0

Code

[~] # lvs -a

Found duplicate PV g4t4ejxA75gfdGjzddwzsailODfzb49J: using /dev/drbd1 not /dev/md1

Using duplicate PV /dev/drbd1 from subsystem DRBD, ignoring /dev/md1

LV VG Attr LSize Pool Origin Data% Meta% Move Log Cpy%Sync Convert

lv1 vg1 Vwi---t--- 8.64t tp1

lv2 vg1 Vwi---t--- 500.00g tp1

lv544 vg1 -wi-a----- 144.00g

snap10001 vg1 Vwi---t--- 8.64t tp1 lv1

snap10002 vg1 Vwi---t--- 8.64t tp1 lv1

snap10003 vg1 Vwi---t--- 8.64t tp1 lv1

snap10004 vg1 Vwi---t--- 8.64t tp1 lv1

snap10005 vg1 Vwi---t--- 8.64t tp1 lv1

tp1 vg1 twi---t--- 21.60t

[tp1_tierdata_0] vg1 vwi---v--- 4.00m

[tp1_tierdata_1] vg1 vwi---v--- 4.00m

[tp1_tierdata_2] vg1 Twi------- 21.60t

[tp1_tmeta] vg1 ewi------- 64.00g

Alles anzeigen

Code

[~] # dmsetup ls
vg1-lv544       (251:0)

Code

[~] # vgchange -ay vg1
  Found duplicate PV g4t4ejxA75gfdGjzddwzsailODfzb49J: using /dev/drbd1 not /dev/md1
  Using duplicate PV /dev/drbd1 from subsystem DRBD, ignoring /dev/md1
/sbin/pdata_tools_8192 failed: 1
thin_check with block_size = 8192 failed
/sbin/pdata_tools_4096 failed: 1
thin_check with block_size = 4096 failed
  Check of pool vg1/tp1 failed (status:1). Manual repair required!
/sbin/pdata_tools_8192 failed: 1
thin_check with block_size = 8192 failed
/sbin/pdata_tools_4096 failed: 1
thin_check with block_size = 4096 failed
/sbin/pdata_tools_8192 failed: 1
thin_check with block_size = 8192 failed
/sbin/pdata_tools_4096 failed: 1
thin_check with block_size = 4096 failed
/sbin/pdata_tools_8192 failed: 1
thin_check with block_size = 8192 failed
/sbin/pdata_tools_4096 failed: 1
thin_check with block_size = 4096 failed
/sbin/pdata_tools_8192 failed: 1
thin_check with block_size = 8192 failed
/sbin/pdata_tools_4096 failed: 1
thin_check with block_size = 4096 failed
/sbin/pdata_tools_8192 failed: 1
thin_check with block_size = 8192 failed
/sbin/pdata_tools_4096 failed: 1
thin_check with block_size = 4096 failed
/sbin/pdata_tools_8192 failed: 1
thin_check with block_size = 8192 failed
/sbin/pdata_tools_4096 failed: 1
thin_check with block_size = 4096 failed
/sbin/pdata_tools_8192 failed: 1
thin_check with block_size = 8192 failed
/sbin/pdata_tools_4096 failed: 1
thin_check with block_size = 4096 failed
  1 logical volume(s) in volume group "vg1" now active

Alles anzeigen

Code

[~] # df
Filesystem                Size      Used Available Use% Mounted on
none                    290.0M    243.4M     46.6M  84% /
devtmpfs                  7.5G      8.0K      7.5G   0% /dev
tmpfs                    64.0M    420.0K     63.6M   1% /tmp
tmpfs                     7.6G         0      7.6G   0% /dev/shm
tmpfs                    16.0M         0     16.0M   0% /share
tmpfs                    16.0M         0     16.0M   0% /mnt/snapshot/export
/dev/md9                499.5M    116.6M    383.0M  23% /mnt/HDA_ROOT
cgroup_root               7.6G         0      7.6G   0% /sys/fs/cgroup
/dev/md13               355.0M    331.5M     23.5M  93% /mnt/ext
/dev/ram2               193.7M      1.5M    192.2M   1% /mnt/update
tmpfs                    64.0M      2.3M     61.7M   4% /samba
tmpfs                     1.0M         0      1.0M   0% /mnt/rf/nd

Alles anzeigen

Jemand eine Idee?

Der Support hat sich natürlich noch nicht gemeldet, das Problem tauchte erst Freitag auf.

Vielen Dank für euer Feedback!

TheColorfulDude · 17. Juni 2018

Das scheint so, als seien die Metadaten des Thinpools beschädigt. Kein Plan ob das reparierbar ist. Vom Gefühl her würde ich sagen ja, aber ich kenne das ausmaß der Beschädigung nicht.

Was war denn der Auslöser? Stromausfall? Gerät nicht auber heruntergefahren? HDD defekt?

8thway · 17. Juni 2018

Scheinbar war schon seit einiger Zeit die 4te Festplatte "rausgezogen". Am Freitag Morgen kam dann die Meldung, dass eine der 3 restlichen Festplatten "entfernt" wurde. Gemäss dem Kunden habe aber niemand etwas daran gemacht.

Ich vermute, dass die Fehlermeldungen auf der einen Platte zu hoch waren, anschliessend hat das NAS das Volume wohl deaktiviert.

Leider wurde vor Ort wohl auch mehrmals seither der Stecker gezogen...

angelluck · 17. Juni 2018

Also bei mir hat alles mit einem Firemware Update angefangen. Seit dem reboot danach hat es die Platten nicht mehr gefunden, bzw. genauer gesagt das Raid eben nicht eingehängt und damit eben das Verzeichnis /share/CACHEDEV1_DATA/ nicht mehr gefunden.

RAID5 Volume lässt sich nicht mehr mounten

QuTS hero h5.1.6.2734 Build 20240414

QTS 5.1.6.2722 Build 20240402

Vulnerability in XZ Utils

Vulnerability in Network ＆ Virtual Switch

Raid 5 statisches Volume erweitern, Re-Check

Statisches Volume entnehmen?

"Downgrade" auf alte/kleinere Platten nach missglückter RAID5-Erweiterung möglich?

NAS neu aufsetzen TS-453

Raid5 über mehrere Gehäuse

Screenshots erstellen und im Forum einbinden (Windows)

(Betriebs)- System vs. Systemvolume - Hinweise zum Verständnis

QuDedup: Backup Job neu verlinken - Ein Ritt ins Verderben

VPN - ganz allgemein

[QUICK HOW-TO] Apps manuell auf ein anderes Volume verschieben

Kodi-Headless Server als Docker-Container

Hardware Praxis – „Hör mal wer da surrt“: Ein Erfahrungsbericht aus dem IT-Alltag

Hardware Praxis – Tipps zum Einbau einer neuen Festplatte: Ergänzung

Foren Update im Juli / August geplant

IT-Geschichten – Die verrückte Tastatur