Beiträge von burgerkind

burgerkind · 21. Juni 2020

Diesmal lag es weniger am Platz als daran, dass mein letztes Posting der aktuelle Fortschritt (Stand gestern Abend) war.

Danke auch für den Hinweis mit dem Blog. Das wäre vermutlich ein besserer Ort gewesen. Sehr viel gibt es eventuell eh nicht mehr zu schreiben...

fsck.ext4 läuft noch immer auf meinem PC (mit lesendem Zugriff über xmount auf die aktive VolumeGroup im QNAP und schreibendem Zugriff auf eine lokale Cache-Datei), aber meine Hoffnungen gehen gegen Null.

fsck belegt nach etwa 15 Stunden bereits wieder knapp 50G RAM

Code

root@test:~# free -h
total        used        free      shared  buff/cache   available
Mem:            54G         54G        373M         79M        139M        2,0M
Swap:          975M        143M        832M


# top
PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
36334 root      20   0 49,254g 0,048t    696 D  21,7 89,7 192:52.73 fsck.ext4

Und der aktuelle Fortschritt ist minimal:

Code

Inode 1080925 block 16777392 conflicts with critical metadata, skipping block checks.
Inode 1080925 block 79167888 conflicts with critical metadata, skipping block checks.

Laut dumpe2fs habe ich einen Inode count von 318767104. Selbst wenn ich davon die 291766261 free inodes abziehe, dann bleiben noch immer 27000843 inodes übrig.

(Gedanke am Rande: warum eigentlich diese extrem hohe Zahl an free inodes? Das Filesystem kann doch nicht zu 91,5% leer sein? Hmm, vielleicht spiegelt das auch nur ein wenig die Anzahl der theoretisch möglichen Dateien wieder...)

Wenn ich gerade mit dem fsck bei Inode 1080925 bin, dann wären das gerade mal 4% Fortschritt - nach 15 Stunden. Könnte dann also in frühstens 15 Tagen mit einem Ende des Checks rechnen.

Zumindest wenn die Geschwindigkeit beibehalten werden kann und diese nicht (aufgrund des deutlich langsameren Swappings) in die Knie gehen sollte.

Werde heute Abend/Nacht nochmal einen Blick auf den Fortschritt werfen.

Mehr als 128 GB RAM kann ich zuhause nicht ohne weiteres bereitstellen. Und selbst das keine 2 Wochen ununterbrochen am Stück.

Hätte in meinem Keller-Testlab zwar noch einen älteren FSC-Server mit 144 GB RAM, aber das wäre auch nur minimal mehr und ich bekomme den Server auch nicht so einfach stabil mit Gigabit an das NAS angebunden.

Hätte alternativ eventuell noch die Möglichkeit die Platten (inkl. dem externen QNAP Gehäuse) im Rechenzentrum an ein Testsystem mit 1-2 TB RAM zu klemmen und dort für einen Check in eine VM durchzureichen.

Nur dann bräuchte ich erstmal eine VM, die dazu in der Lage wäre das properitäre LVM VolumeGroup von QNAP zu aktivieren.

Also doch noch einen Versuch starten den QNAP Kernel aus den Quellen zu bauen? Bin hier nur Extern verlinkte Datei entfernt! Mehr dazu siehe in den Forenregeln! weitergekommen. Hat das hier schonmal jemand mit einem aktuellen Kernel geschafft? Oder doch lieber versuchen einen Dump von dem installierten (ist ja x86 bzw. amd64) NAS zu ziehen und das komplette NAS irgendwie in einer VM zum Laufen zu bekommen?

Weiß momentan nicht was einfacher wäre... entsprechende Tools zum extrahieren der img-Dateien scheint es ebenfalls zu geben.

Oder doch noch schauen, ob ich mit dd einen zweiten Dump ziehen kann, der (muss dann aber auf das Byte genau sein!) an der Stelle fortsetzt, an der mit dem ersten Dump das 16TB Limit erreicht war? In dem Fall könnte ich mir die zwei (Teil-)dumps auf ein WD MyBook Duo Gehäuse mit einem RAID0 aus 2x10 TB (mehr habe ich leider momentan nicht greifbar) kopieren und so ins RZ bringen. Weiterer Aufwand, weitere Kosten. Dabei sind bereits die bisherigen Aufwände nicht mehr wirtschaftlich zu rechtfertigen...

Es geht inzwischen fast mehr um das "nicht aufgeben" wollen, als um die Sache selbst.

Weitere Ansätze:

Parallel habe ich übrigens noch ein zweites Loop-Device an die Quellen geklemmt (das ist das schöne bei xmount. Echt cooles Tool!) und mir das mit Testdisk und dem Sleuthkit (bzw. autopsy) angeschaut. Viel mehr als bei einem regulären mount sehe ich darauf aber auch nicht. Tools wie "r-explorer" und noch ein anderes (optisch fast identisches) Tool habe ich in der Demoversion ebenfalls probiert. Auch nicht mehr Erfolg als ein regulärer Mount.

Photorec und Co. brauche ich bei der Datenmenge erst garnicht probieren.

Sonst noch Ideen? Kann man fsck eventuell irgendwie beschleunigen bzw. den Inode-Check übergehen? Sehe beim Mount einen Teil der Ordner, aber kann sie nicht öffnen. Ein paar wenige Ordner lassen sich öffnen, aber die Dateien darin nicht lesen. Vermutlich hätte ich damals keinen "so frühen" (und vermutlich defekten) Superblock für den ersten fsck Versuch wählen sollen. Bei einem hinteren Block wäre das Ergebnis eventuell besser gewesen. Who knows?

Schalte jetzt erstmal etwas ab, mache einen Ausflug aufs Land und ein paar Kilometer Spaziergang mit meiner Partnerin.

Vielleicht wird der Kopf dann wieder etwas klarer

EDIT:

Okay, brauche nicht länger warten. fsck wurde wegen Speichermangel abgebrochen:

Code

Inode 1080925 block 195560835 conflicts with critical metadata, skipping block checks.
Signal (6) SIGABRT si_code=SI_TKILL
fsck.ext4(+0x30d29)[0x5579032acd29]
/lib/x86_64-linux-gnu/libc.so.6(+0x3ef20)[0x7f47abbf2f20]
/lib/x86_64-linux-gnu/libc.so.6(gsignal+0xc7)[0x7f47abbf2e97]
/lib/x86_64-linux-gnu/libc.so.6(abort+0x141)[0x7f47abbf4801]
/lib/x86_64-linux-gnu/libext2fs.so.2(+0x1362d)[0x7f47ac81962d]
fsck.ext4(+0x17ca7)[0x557903293ca7]
/lib/x86_64-linux-gnu/libext2fs.so.2(+0x144dc)[0x7f47ac81a4dc]
/lib/x86_64-linux-gnu/libext2fs.so.2(+0x14879)[0x7f47ac81a879]
/lib/x86_64-linux-gnu/libext2fs.so.2(+0x1533b)[0x7f47ac81b33b]
fsck.ext4(+0x1879c)[0x55790329479c]
fsck.ext4(+0x1a183)[0x557903296183]
fsck.ext4(+0x1a24c)[0x55790329624c]
/lib/x86_64-linux-gnu/libext2fs.so.2(ext2fs_get_next_inode_full+0x75)[0x7f47ac82e2a5]
fsck.ext4(e2fsck_pass1+0xa16)[0x557903296d36]
fsck.ext4(e2fsck_run+0x5a)[0x55790328fb2a]
fsck.ext4(main+0xda7)[0x55790328b857]
/lib/x86_64-linux-gnu/libc.so.6(__libc_start_main+0xe7)[0x7f47abbd5b97]
fsck.ext4(_start+0x2a)[0x55790328dafa]

Alles anzeigen

Edit:

Habe jetzt ein zweites dd-image für die restlichen 4 TB erstellt. Mit xmount lassen sich beide dd-images (16+4 TB) zusammen nutzen und über diverse dd-dumps (mit skip in die Nähe der Grenze der beiden Dumps und dann eine sha1sum über 1GB Daten) konnte ich nachweisen, dass xmount und der vg identisch sind.

Kopiere gerade das dd-image über usb 3.1 auf ein externes Gehäuse mit einem RAID0 aus 2x10 TB WD Platten. Die original-Platten archiviere ich dann mal für die nächsten 3-4 Wochen.

Code

root@NAS:/share/HDDImage# dd if=image.ext4 of=extern/image.ext4 bs=4096 status=progress
3120753426432 bytes (3.1 TB, 2.8 TiB) copied, 7795 s, 400 MB/s

in etwa 10 Stunden sollte er mit der großen Datei fertig sein. Mal schauen wann ich dann das nächste Mal ins RZ komme...

PS @admins: sorry für die Verlinkung zu Pastebin. Die Kernelausgaben hätten sonst zu schnell das 10.000 Zeichen Limit gesprengt. Deshalb der Umweg zur externen Seite. Kommt nicht wieder vor.

burgerkind · 20. Juni 2020

Aufgeben ist nicht

Der fsck-Prozess belegte inzwischen gut 14,5 GB RAM und einige GB Swapspace.

Code

# free -m
total used free shared buffers cached
Mem: 15905 15656 249 39 2 97
-/+ buffers/cache: 15556 349
Swap: 23967 8272 15694


# top
Mem: 16039092K used, 248144K free, 40512K shrd, 3008K buff, 115616K cached
CPU: 4.6% usr 1.8% sys 0.0% nic 65.5% idle 27.9% io 0.0% irq 0.0% sirq
Load average: 17.51 12.80 13.87 3/1528 11041
PID PPID USER STAT VSZ %VSZ CPU %CPU COMMAND
12504 1076 admin D 14513m 90.7 2 0.2 fsck.ext4 -p -b 32768 /dev/mapper/cachedev5

Alles anzeigen

Es war sinnlos das noch weiter laufen zu lassen. Statt 10 Zeilen pro Minuten brauchte der Prozess im Swap etwa 10 Minuten für eine Zeile.

Ich war mir sicher, dass der fsck nie zu Ende laufen wird. Also habe ich ihn abgebrochen.

Deshalb mein Fehler Nr. 6: erstelle kein Filesystem auf einem NAS, dessen RAM nicht ausreicht um es zu prüfen!

Vermutlich einer der wenigen Fehler, die ich vorher nicht direkt wissen konnte und für den ich mir mal keine Schuld gebe.

In Zukunft werde ich auf dem NAS nur noch Volumes mit maximal 6-10TB erstellen.

Habe mir dann ein externes Gehäuse von QNAP bestellt (ein TL-D800C) und darin die Platten verbaut.

Mein Ziel war es das Gehäuse mit den Platten an mein Laptop (mit 128 GB RAM) anzuschließen und dort den fsck.ext4 erneut laufen zu lassen.

Aber auch das ist fehlgeschlagen. Konnte die Volume-Group (das Volume war ein "Thick"-Volume) nicht aktivieren.

Code

WARNING: Unrecognised segment type thick

Habe hier zum ersten Mal feststellen müssen, dass QNAP ein gepatchtes LVM2 verwendet. Diese Info hätte ich auch hier im Forum finden können...

Eigentlich ist soetwas ein k.o. Kriterium für mich. Ein System, welches mich an einen Hersteller bindet und patches an kritischer Infrastruktur.

Kann man dem NAS eigentlich auch beibringen ein standardkonformes LVM zu verwenden? Oder von mir aus auch ganz auf das LVM zu verzichten. Die fehlenden Snapshots könnte ich verschmerzen.

Habe dann noch probiert LVM2 aus den GPL-Sourcen von Qnap unter einem LUbuntu 20.04 zu kompilieren. Es ist fehlgeschlagen. Bei einem 18.04er LUbunutu hat es dann geklappt.

Nur ist es mir dort noch nicht gelungen den 14.4er Kernel zu kompilieren.

Code

In file included from ./include/linux/byteorder/little_endian.h:5:0,
from ./arch/x86/include/uapi/asm/byteorder.h:5,
from ./include/asm-generic/bitops/le.h:6,
from ./arch/x86/include/asm/bitops.h:518,
from ./include/linux/bitops.h:38,
from ./include/linux/kernel.h:11,
from ./include/linux/list.h:9,
from ./include/linux/wait.h:7,
from ./include/linux/wait_bit.h:8,
from ./include/linux/fs.h:6,
from fs/ext4/namei.c:28:
fs/ext4/namei.c: In function ‘ext4_find_entry’:
fs/ext4/namei.c:1528:48: error: ‘struct ext4_super_block’ has no member named ‘s_hash_revision’; did you mean ‘s_hash_seed’?
unsigned int hash_revision = le32_to_cpu(es->s_hash_revision);
^
./include/uapi/linux/byteorder/little_endian.h:34:51: note: in definition of macro ‘__le32_to_cpu’
#define __le32_to_cpu(x) ((__force __u32)(__le32)(x))
^
fs/ext4/namei.c:1528:32: note: in expansion of macro ‘le32_to_cpu’
unsigned int hash_revision = le32_to_cpu(es->s_hash_revision);
^~~~~~~~~~~
fs/ext4/namei.c:1538:27: error: ‘QNAP_CUR_HASH_REV’ undeclared (first use in this function)
(hash_revision != QNAP_CUR_HASH_REV)))
^~~~~~~~~~~~~~~~~
fs/ext4/namei.c:1538:27: note: each undeclared identifier is reported only once for each function it appears in
scripts/Makefile.build:326: recipe for target 'fs/ext4/namei.o' failed
make[2]: *** [fs/ext4/namei.o] Error 1
scripts/Makefile.build:592: recipe for target 'fs/ext4' failed
make[1]: *** [fs/ext4] Error 2
Makefile:1029: recipe for target 'fs' failed
make: *** [fs] Error 2

Alles anzeigen

Habe es dann aufgegeben und einen anderen Weg gesucht.

Auf meinem TVS-871 läuft derzeit die initialisierung eines neuen RAID6 mit nun 5x14 TB. Habe mir noch zwei weitere (in der Summe inzwischen sechs Stück) von den 14TB WD Reds gekauft.

Daran habe ich nun die alten Platten in dem externen TL-D800C Gehäuse angeschlossen und kann darin auch die volume-group aktivieren.

Meine Idee war jetzt das (aktiviert) logical Volume per DD in ein Raw-Image auf dem NAS zu sichern, und dann per SMB/NFS auf das Image zuzugreifen um fsck.ext4 von meinem Laptop laufen zu lassen.

Auch diese Idee war leider nicht zu Ende gedacht. Nach fast 24 Stunden ist der DD abgebrochen, weil die maximale Dateigröße für ext4 (16 TiB) erreicht war

Code

root@NAS:/share/HDDImage# dd if=/dev/vg2/lv6 bs=4096 conv=notrunc,noerror | pv -tpreb -s 20890720927744 | dd of=/share/HDDImage/image.ext4
dd: writing to '/share/HDDImage/image.ext4': File too large
34359738361+0 records in
34359738360+0 records out
17592186040320 bytes (18 TB, 16 TiB) copied, 86220.7 s, 204 MB/s


16.0TiB 23:57:00 [ 194MiB/s] [==============================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================>                                                                                               ] 84%

Auch daran hätte man denken können. Noch ein Grund mehr, der dafür spricht kein Volume über 16TB anzulegen. Man nimmt sich dann die Möglichkeit eines DD-Images...

Mit den bisher gesicherten 16TiB kann ich über SMB (per "losetup -r" auf meinem Laptop auf loop0 verbunden) nichtmal ein dumpe2fs anzeigen. Auf dem QNAP (direkt auf dem Device) klappt es.

Ich hoffe nicht, dass dies noch an Qnap-spezifischen Änderungen des ext4 Filesystems liegt. Denn dann gebe ich komplett auf.

Inspiriert durch den Post von Sumpfdotter (Versuch: Datenrettung zerstörter Directories) bin ich noch auf das Tool "xmount" gestoßen.

Zum einen würde sich dieses Tool verwenden lassen um mehrere DD-Images hintereinander zu hängen und darauf zuzugreifen.

Aber noch besser wäre jedoch folgende Zugriffsmöglichkeit:

auf dem NAS das Device /dev/vg2/lv6 per xmount (inkl. Cache-File für Veränderungen) auf ein über ein SMB-Share erreichbares Verzeichnis mappen, und dann über das Netzwerk auf dieses Image darunter zuzugreifen.

Dann könnte man sich den dd-dump sogar komplett schenken und stattdessen über das Netzwerk auf eine virtuelle Datei zugreifen, welche das Gerät repräsentiert.

Mal schauen ob das klappt. Habe noch so meine Zweifel

Soweit der aktuelle Stand von heute...

EDIT: soviel vorab... xmount scheint zu funktionieren.

Mit diesem Befehl konnte ich ein virtuelles Verzeichnis "xmount" innerhalb meines Shares erstellen, in dem sich zwei Dateien befinden:

Code

xmount --cache /share/HDDImage/cache --in raw /dev/vg2/lv6 --out raw /share/HDDImage/xmount
root@NAS:/share/HDDImage# ls -als xmount/
total 4
0 drwxrwxrwx 2 root root              0 Jan  1  1970 .
4 drwxrwxrwx 5 root root           4096 Jun 20 19:06 ..
0 -rw-rw-rw- 1 root root 20890720927744 Jan  1  1970 lv6.dd
0 -r--r--r-- 1 root root            269 Jan  1  1970 lv6.info

Auf diese Dateien kann ich per SMB zugreifen.

Habe auf meinem Laptop nun (aus Performance-Gründen, damit nicht das Cache vom Qnap geschrieben wird) ebenfalls xmount gestartet:

Code

xmount --cache /root/qnap.cache --in raw /mnt/qnap/HDDImage/xmount/lv6.dd --out raw /root/qnap-xmount
losetup /dev/loop2 /root/qnap-xmount/lv6.dd

Danach konnte /dev/loop2 sogar read-only mounten und sehe einen Teil meiner Ordner und Dateien

Wenn auch noch mit vielen vielen Fehlern "Structure needs cleaning".

Deshalb läuft jetzt nochmal fsck auf dem loop2. Bin gespannt. Vermutlich wird das wieder 1-2 Tage dauern.

Hoffe die 64 GB von dem Computer sind ausreichend. Bräuchte mein Laptop momentan und kann es gerade nicht für den fsck blocken.

burgerkind · 20. Juni 2020

FSC830: dankeschön

Der Plan beim ersten Post hier sah eigentlich so aus:

Mod: Zitat ohne Quellenangabe ... korrigiert! Die Zitat Funktion des Forums richtig nutzen

Zitat von burgerkind

3.1) entfernen aller alten Platten mit meinen Daten

3.2) einbau von 3x14 TB "neue"/leere Platten

3.3) Neuinstallation des NAS-Systems. Kann dann auch ein Recovery meiner AD-Daten probieren. Notfalls muss ich das halt alles wieder von Hand einrichten.

3.4) Nachdem das System läuft, die 5 Platten als degraded RAID6 anschließen und dann auf den Datastore zugreifen und alles kopieren.

3.5) wenn dann alles kopiert ist, dann kann ich die alten Platten entfernen und das RAID5 zum RAID6 migrieren

Bis Punkt 3.3 war alles kein Problem. Okay, das AD konnte (wie vermutet) natürlich nicht wiederhergestellt werden. Keine Ahnung wo da das Problem liegt. Aber damit hatte ich mich bereits abgefunden.

Punkt 3.4 war dagegen deutlich schwieriger als erwartet...

Als erstes war mir folgendes nicht bewusst:

direkt nachdem ich die Platten der früheren Installation in das System der neueren Installation eingeschoben habe, wurden sofort die ganzen RAID1-Sets mit dem System (md9, md13, usw.) synchronisiert und auf den alten Platten überschrieben

Nicht nur, dass es danach keinen Weg mehr zurück gibt - es wird mir auch im späteren Verlauf noch zu schaffen machen.

Habe im Nachgang nämlich folgende Fehler erkannt:

Fehler 1: ich habe den reshape (also die Migration von RAID6 zu RAID5) nur gestoppt und nicht rückgängig (mdadm --assemble --update=revert-reshape --backup-file=...) gemacht. Hätte ich es rückgängig gemacht, dann hätte das Einbinden vermutlich funktioniert und ich hätte keine großen Schwierigkeiten im weitern Verlauf gehabt

Fehler 2: ich habe die Backup-Datei für den Reshape unterhalb des Ordners "/mnt/HDA_ROOT/RAIDBackup/" abgelegt. Aben jener befindet sich auf dem RAID1, welches gnadenlos mit dem neuen System durch einen Sync überschrieben wurde.

Fehler 3: Zwar habe ich mir ein Backup dieser Datei auf mein Laptop gezogen, aber mir war in dem Moment nicht klar, dass die Datei nicht nur einfache Daten über die Struktur des Raids, usw. enthält, sondern kontinuierlich mit dem Status des reshapes aktualisiert wird. Ein Backup, welches bereits am Anfang des Reshapes erstellt wurde ist damit so gut wie nutzlos.

Um das Raidset im neuen System einzuhängen (über --assemble) wird das Backup-File in der aktuellsten Form benötigt.

Habe dann doch noch das RAID mit dem Backup von meinem Laptop "assembled" bekommen. Eine andere/aktuellere Datei war nicht vorhanden und mir blieb keine Wahl.

Umgehend wurde der Reshape-Prozess fortgesetzt. Auch wenn ich ihn sehr schnell "gefreezed" habe. Die Volume-Groups darauf habe ich aber erst wiedergefunden, nachdem ich den Prozess über "revert-reshape" (dauerte 2-3 Stunden) rückgängig gemacht habe. In Wirklichkeit wurde vermutlich nur der Status des Reshape rückgängig gemacht und in diesen 2-3 Stunden aufgrund der veralteten Backupdatei Daten im RAID vernichtet. Da der Prozess sehr langsam war werden das vermutlich 10-30 GB an Daten sein.

Trotzdem habe ich danach meine Volumegroup wieder gesehen:

Code

--- Logical volume ---
LV Path /dev/vg2/lv5
LV Name lv5
VG Name vg2
LV UUID oqJ6qP-pjvC-JnGT-190F-OG01-2R5i-vYCa7l
LV Write Access read only
LV Creation host, time NASED2DDD, 2015-03-08 09:49:06 +0100
LV Pool name tp2
LV Status available
# open 1
LV Size 19.00 TiB
Mapped size 100.00%
Mapped sectors 40802189312
Current LE 4980736
Segments 1
Allocation inherit
Read ahead sectors 8192
Block device 253:22

Alles anzeigen

Sogar das Webinterface des QNAP hat nach einem Neustart wieder etwas erkannt. Auch wenn das alles sehr merkwürdig ausgesehen hat:

Extern verlinktes Bild entfernt! Bitte im Beitrag hochladen

Als ich das Logical Volume mit meinen Daten jedoch über SSH (über /dev/mapper/cachedev5 als auch über /dev/vg2/lv5) mounten wollte, habe ich lediglich die Fehlermeldung "no superblock found" bekommen.

Dump2fs hat mir jedoch noch etwas Hoffnung gemacht:

Code

dumpe2fs 1.43.9 (8-Feb-2018)
Filesystem volume name: DataVol1
Last mounted on: /share/CACHEDEV1_DATA
Filesystem UUID: ba35370c-6ce6-4af1-bcff-9eb4d31cf522
Filesystem magic number: 0xEF53
Filesystem revision #: 1 (dynamic)
Filesystem features: ext_attr filetype meta_bg extent 64bit flex_bg sparse_super large_file huge_file uninit_bg dir_nlink extra_isize
Filesystem flags: signed_directory_hash
Default mount options: (none)
Filesystem state: not clean with errors
Errors behavior: Continue
Filesystem OS type: Linux
Inode count: 318767104
Block count: 5100273664
Reserved block count: 131072
Free blocks: 1887673545
Free inodes: 315511981
First block: 0
Block size: 4096
Fragment size: 4096
Group descriptor size: 64
Blocks per group: 32768
Fragments per group: 32768
Inodes per group: 2048
Inode blocks per group: 128
RAID stride: 16
RAID stripe width: 64
First meta block group: 2048
Flex block group size: 16
Filesystem created: Sun Mar 8 09:51:03 2015
Last mount time: Wed Oct 30 19:32:02 2019
Last write time: Sun Jun 14 21:34:03 2020
Mount count: 1
Maximum mount count: -1
Last checked: Wed Oct 30 19:19:05 2019
Check interval: 0 (<none>)
Lifetime writes: 15 TB
Reserved blocks uid: 0 (user admin)
Reserved blocks gid: 0 (group administrators)
First inode: 11
Inode size: 256
Required extra isize: 28
Desired extra isize: 28
Default directory hash: half_md4
Directory Hash Seed: d2a64263-5bc4-4097-b005-21e8adc46c60
Directory Hash Rev: 0
Directory Magic Number: 0x514E4150
Journal backup: inode blocks

Alles anzeigen

Mein Verdacht: ich habe mir die ersten 10-30 GB an Daten über das Reshape und das anschließende Revert zerschossen. Aber vielleicht lässt sich das Dateisystem ja noch soweit reparieren, dass die restlichen TBs noch irgendwie zu retten sind.

Und nun kommt Fehler 4: Ich habe das fsck von der Qnap-shell genutzt und damit versucht das Dateisystem zu reparieren.

Kann schlecht sagen ob ich mir auch damit etwas kaputt gemacht habe.

Ist das wirklich dazu geeignet? irgendwie wirkt mir das gnadenlos veraltet und nur für ext2 geeignet.

fsck.ext4 existiert auf dem NAS jedoch nicht.

Auf der früheren Installation hatte ich dafür noch ein debootstrap eines Debian-Systems liegen, aber das ist nun nicht mehr da.

Das neu zu erstellen war auch etwas schwieriger als damals. Scheinbar gibt es das "Optware" Package nicht mehr

Habe dann auf einem anderen System ein debootstrap eines Debian 10 Systems erstellt und das dann auf das NAs rüberkopiert.

Es funktionierte und ich konnte ein aktuelles fsck.ext4 innerhalb dem per chroot laufendem Debian 10 auf dem QNAP ausführen.

Ohne superblock ist der Check natürlich fehlgeschlagen. Habe daher über mkfs.ext4 mit dem "-n" Parameter (ganz wichtig um das System nicht zu überschreiben!) die vermutlichen Positionen der Superblöcke in Erfahrung gebracht:

Code

mkfs.ext4 -n /dev/mapper/cachedev5
Superblock backups stored on blocks:
32768, 98304, 163840, 229376, 294912, 819200, 884736, 1605632, 2654208,
4096000, 7962624, 11239424, 20480000, 23887872, 71663616, 78675968,
102400000, 214990848, 512000000, 550731776, 644972544, 1934917632,
2560000000, 3855122432

Fehler 5: mit dem Parameter "-b 32768" war es möglich fsck.ext4 zu starten. Ich konnte dort einige vermeintliche Fehler korrigieren aber frage mich im Nachgang warum ich einen so früheren Superblock verwendet habe?!?

Warum nicht den letzten von der Liste. Besonders wenn ich den Verdacht habe, dass die ersten GB vom dem RAID defekt sind?!?

Die Fehlermeldungen sahen übrigens wie folgt aus:

Code

Inode 523910 block 513 conflicts with critical metadata, skipping block checks.
Inode 523910 block 1435 conflicts with critical metadata, skipping block checks.
Inode 523910 block 513 conflicts with critical metadata, skipping block checks.
Inode 523910 block 1281 conflicts with critical metadata, skipping block checks.
Inode 523910 block 2807 conflicts with critical metadata, skipping block checks.
Inode 523910 block 513 conflicts with critical metadata, skipping block checks.
Inode 523910 block 1429 conflicts with critical metadata, skipping block checks.
Inode 523910 block 1 conflicts with critical metadata, skipping block checks.
Inode 523910 block 1 conflicts with critical metadata, skipping block checks.

Gut 20 Stunden später war der fsck jedoch noch immer nicht durch.

Mehr kann ich gerade nicht schreiben. Das 10.000 Zeichen Limit schlägt wieder an

Spoilter: der RAM war voll und fsck konnte deshalb nicht zu Ende durchgeführt werden.

burgerkind · 20. Juni 2020

Hallo nochmal und vielen Dank für eure Hinweise und Ratschläge.

Ihr habe mit allem absolut Recht und auch mir ist bewusst, dass meine "Spielereien" ein Spiel mit dem Feuer waren und ich vor der ersten Aktion sofort mein Backup auf dessen Aktualität und Vollständigkeit hätte prüfen müssen.

Hätte ich vielleicht dazusagen sollen: nicht nachmachen

Ich kann euch auch versichern: bei meinen Kunden hätte ich das definitiv anders gehandhabt.

Entweder über ein verschlüsseltes Backup über einen VPN-Tunnel zu einer entfernten Lokation, oder über täglich rotierende (meistens 6-7 Stück) externe Disks, von der jeweils nur eine lokal gelagert wird.

Nur haben meine Kunden glücklicherweise auch selten Datenmengen > 4 TB.

Bei mir wird das NAS zu großen Teilen genutzt um Backups (von der Buchhaltung angefangen, über Projektdokumentationen, Mailarchiv, usw.) darauf abzulegen.

Die aktuelleren Daten befinden sich auch immer noch auf den jeweiligen Quellsystemen.

Aber es gibt halt auch Archivdaten. Jene, von denen man nie genau weiß, ob sie jemals wieder gebraucht werden.

Und dann gibt es Daten, deren Wiederbeschaffung (teilweise sehr) zeitaufwändig, aber möglich sind.

Von einem Archiv aller ISO-Files aus dem MS Action Pack, über ISOs gekaufter Software aus dem letzten Jahrzehnt, ISO-Images aller erdenklichen Linux-Distributionen in den jeweiligen Versionen, usw.

Kopfschmerzen bereiten mir nur die Sachen, an die ich gerade nicht denke. Alles was auf den Laptops keinen Platz mehr gefunden hat und an deren Auslagerung ich mich nicht mehr erinnern kann.

Da wird sicherlich noch was kommen. Es wird weh tun, aber mit einem finanziellen Schaden muss ich vermutlich nicht rechnen.

@Mavalok2 vergleichbar mit der privaten Musiksammlung oder dem privaten Bilderalbum. Wenn diese Daten weg sind, dann entsteht kein finanzieller Schaden und das Leben geht weiter. Wenn man die letzten 20 Jahre daran gesammelt hat, dann schmerzt es trotzdem

So ist es halt im Leben: Mensch macht Fehler und Mensch lernt (hoffentlich) daraus.

"Fehler machen klug, deshalb ist einer nicht genug".

Inzwischen steht die Erarbeitung eines gescheiten Backupkonzeptes recht weit oben auf meiner TODO-Liste.

Ein tägliches Komplettbackup aller Daten wäre vermutlich nicht wirtschaftlich. Aber vielleicht schaffe ich es ja die Daten so zu strukturieren und voneinander zu trennen, dass bestimmte Teile täglich/stündlich off-site gesichert werden, manche Daten auf lokalen/wechselnden Platten und manche - weil temporär und einfach zu ersetzen - auch garnicht.

@FSC830: danke auch für den Hinweis zu der "/mnt/HDA_ROOT/.conf". Vermutlich hätte ich dort tatsächlich nur die Seriennummern/ID (z.B. "pd_dev_wwn_5000CCA26XXXXX") der als "defekt" angezeigten Platte entfernen müssen.

Das mit den Systemdaten auf dem ersten Volume war mir anfangs auch nicht so bewusst und ich wurde auch im englischen Forum darauf hingewiesen. Eventuell hätte sich die Volumegroup bzw. das logical Volume auch auf das andere Raid verschieben lassen. Aber es stimmt schon: alleine deshalb ist bereits eine Neuinstallation zu empfehlen.

Okay, dann setze ich mal meinen Bericht über die weiteren durchgeführten Aktionen fort. Wer bisher schon ein leichtes Kribbeln verspürt hat, der sollte sich jetzt eventuell gut festhalten. Es kommt noch schlimmer

Mehr dazu gleich in einem eigenen Post.

EDIT: kann den Rest gerade nicht posten. Für einen Post waren die 10.000 Zeichen überschritten und einen zweiten kann ich gerade nicht abschicken:

Code

Die letzte Antwort in diesem Thema stammt bereits von Ihnen, Sie können erst in 172.760 Sekunden erneut auf dieses Thema antworten.

burgerkind · 20. Juni 2020

Hallo zusammen,

bin hier bereits einige Jahre angemeldet, aber war nie sonderlich aktiv bzw. nur lesend hier.

Habe momentan mein drittes oder viertes QNAP NAS in Folge im Einsatz und im Großen und Ganzen laufen die Systeme auch einfach ohne weitere Eingriffe oder Probleme.

In in den früheren Jahren sah ein Wechsel von einem zum anderen NAS in etwa so aus:

WENN: eine der Platten Probleme bereitete oder der Datenspeicher nicht mehr ausreichend war

DANN: kaufe ein neues NAS mit neuen Platten, kopiere die Daten rüber und alles läuft.

Bei den ersten Systemen (glaube 4x1TB = 3 TB RAID5 und danach 4x3TB = 6 TB RAID6) war das alles kein Problem.

Vor etwa 5-6 Jahren ist mein Plattenbedarf beruflich stark angestiegen und der Wechsel zu 4x6 TB = 12 TB RAID6 wäre nicht ausreichend gewesen.

Habe daher etwas mehr in ein TVS-871 mit 16GB RAM investiert und bin zu 6x6 TB = 24 TB RAID6 gewechselt.

Die zwei freien Slots habe ich mit 2x 500GB Caching SSDs bestückt, damit die Leseraten auch bei vielen kleinen Dateien konstant blieben. Dazu habe ich mir dadurch erhofft, später ggf. auch 7 bis 8 x 6 TB aufrüsten zu können.

Nun sind einige Jahre vergangen und das System war bereits mehrfach ziemlich voll. Konnte mir dann durch die Kompression alter Daten und dem löschen bzw. hardlinken von Dupes helfen.

Nachdem dann vor etwas über einer Wochen eine meiner 6 TB Platten SMART-Probleme meldete, und auch bei einer zweiten Platte I/O-Errors im Log zu sehen waren, wurde es höchste Zeit zu reagieren.

Mein üblicher Wechsel zu einem komplett neuen NAS und neuen Platten war mir diesmal zu teuer. Auch bin ich eigentlich recht zufrieden mit meinem System und sehe keinen großen Vorteil für mich bei den neueren Systemen.

Hätte ich es doch besser gemacht wie früher

Stattdessen habe ich mir einen "tollen" Schlachtplan einfallen lassen wie ich das System wieder produktiv bringe und zugleich auch noch den Speicherplatz erweitern kann.

Im Laufe dieser versuchten Migration habe ich jedoch einige Fehler gemacht, die mir erst jetzt bewusst sind.

Gerne würde ich euch diese Schritte/Fehler berichten. Vielleicht lernt ja zumindest noch jemand daraus wie man es nicht macht

Oder vielleicht fällt sogar einem von euch noch etwas ein, wie mir noch etwas geholfen werden kann. Beantworte gerne Fragen und nehme Ratschläge entgegen.

Dazu eignet sich die Vorstellung solcher Probleme eventuell auch um künftige "best practices" auszutauschen, zu diskutieren und dabei auch noch etwas zu lernen.

Zumindest habe ich einiges gelernt, was ich in Zukunft gerne besser machen möchte.

Zwar habe ich meine Story (in mäßigem englisch) schon im englischen qnap-forum gepostet (https://forum.qnap.com/viewtopic.php?f=11&t=155444), jedoch gingen eventuell aufgrund der Sprachbarriere ein paar Details und Hintergründe/Überlegungen unter.

Wenn ein solches Cross-Posting nicht erwünscht sein sollte, dann werde ich diesen Thread hier auch gerne wieder löschen...

Anbei kurz in Stichpunkten welche ersten Schritte ich als erstes unternommen habe und was passiert ist:

1.1.) habe zwei neue WD RED 14TB Platten bestellt und die 6TB Platte mit den SMART-Errors gegen eine der 14 TB Platten getauscht. Das RAID-Recovery war nach 13-14 Stunden abgeschlossen und zumindest die Gefahr eines Ausfalls dieser Platte war gebannt.

1.2.) Nach dem Resync habe ich die zweite 6 TB Platte gegen eine der beiden neuen 14 TB Platten getauscht.

Noch wärend der Resync von Schritt 2 lief hatte ich Zweifel an meiner Vorgehensweise.

Soll ich jetzt alle restlichen 6TB Platten auch gegen 14 TB Platten austauschen und danach eine RAID-Expansion durchführen? Brauche ich wirklich so schnell 56 TB? Hätte ich vielleicht besser zu günstigeren 10-12 TB Platten greifen sollen? Genügen mir für den Anfang eventuell auch erstmal 4x14TB = 28TB RAID6/RAID10?

Die Preise für die 14 TB Platten sind ja auch nicht gerade niedrig...

Bin dann blöderweise zu dem Entschluss gekommen mich mit erstmal 4 x 14 TB zufrieden zu geben. Die weiteren zwei Platten waren schnell bestellt. Nur wie komme ich am NAS zu diesem Ziel?

Eine RAID (6) Migration von 6 Festplatten zu 4 Festplatten größeren Typs scheint nicht vorgesehen zu sein...
Die Hinweise im qnap-forum gingen ebenfalls in diese Richtung; NAS neu aufsetzen und Daten einspielen

Eigentlich wollte ich dies nicht, da ich auch die AD-Funktionalität (mit einem mühevoll ausgearbeitetem Rechtesystem usw.) von dem NAS genutzt habe und bereits in Vergangenheit die Erfahrung machen musste, dass sich ein Backup des ADs leider nicht fehlerfrei einspielen lässt. Die Erfahrungen bleiben übrigens bis heute bestehen. Irgendwie scheint dieses Backup nicht sonderlich zuverlässig zu sein.

Backups der Daten daruf hatte bzw. habe ich. Zumindest habe ich mir vor etwa 3-5 Wochen eine externe 12 TB Platte ans NAS geklemmt und die wichtigsten Daten per rsync rüberkopiert. Einige Daten musste ich (wegen des begrenzten Plattenplatzes auf der Backup-Platte) weglassen.

Ich denke (hoffe!) es sollten nur Archivdaten gewesen sein. Aber um ganz ehrlich zu sein weiß ich es nicht mehr. Und irgendwie traue ich mich gerade auch nicht nachzuschauen. Zumal diese eine externe Backup-Platte keinerlei weitere Redundanz hat und ich - sollte sie plötzlich auch defekt sein - ganz schön mit dem Ausfall zu kämpfen hätte.

Man lernt daraus: häufiger Backups, besser dokumentieren was/wann gesichert wurde, und die Backups auch redundant vorhalten. Auch wenn das bei der Datenmenge schnell teuer werden kann

Also habe ich stattdessen nach anderen kreativen Lösungswegen gesucht und damit den ersten Schritt in Richtung Abgrund getätigt...

Meine Idee war:

6X6 TB im RAID 6 = 24 TB Speicher und 2 Platten dürfen ausfallen

5x6 TB im RAID 5 = 24 TB Speicher und 1 Platte darf ausfallen.

Also könnte ich mein aktuelles System doch "ganz einfach" zu einem RAID5 umwandeln und könnte es (bei minimal reduzierter Redundanz) mit 5 statt 6 Platten weiterbetreiben.

Ich hätte dann noch 3 Slots von dem 8-Bay NAS frei um 3 x 14 TB = 28 TB im RAID 5 zu erstellen.

Könnte dann die 24 TB rüberkopieren, danach die alten Platten entfernen und das RAID 5 zu einem RAID 6 (mit dem selben Speicherplatz aber mehr Redundanz) expandieren.

Wenn das nur alles so einfach wäre...

Den Wechsel vom RAID6 zum RAID5 stellte ich mir dabei leider viel zu leicht vor. Naiv betrachtet klingt das doch eigentlich nach nicht sonderlich viel Aufwand. Das RAID6 lässt sich ja auch so (degraded) mit 5 Platten betreiben. Kann doch nicht sonderlich kompliziert sein das zu einem RAID5 umzuwandeln...

Weit gefehlt!

Habe folgende Schritte unternommen um meinen Plan umzusetzen:

2.1.) der Resync auf die zweite 14 TB-Platte (Schritt 1.2) musste gestoppt werden. Ich wollte ja in Summe nur 5 Platten und brauchte diese 14TB Platte schließlich noch für meinen künftigen Plan.

Dies habe ich gestoppt, indem ich die 14 TB Platte - auf die gerade gesynct wurde - als fehlerhaft markiert und sie aus dem RAIDSet entfernt habe:

Code

mdadm --manage --fail /dev/md1 /dev/sdh3
mdadm --manage --remove /dev/md1 /dev/sdh3

Spoiler: eine Platte auf diesem Weg als fehlerhaft zu markieren scheint sich das NAS wohl zu merken

Die Platte wurde mir danach überall auf dem System als fehlerhaft (I/O Fehler) angezeigt und konnte (auch in einem anderen Slot) nicht mehr für die Erstellung eines neuen Speicherpools ausgewählt werden.

Zwar gab es die Möglichkeit über die GUI einen "Badblock"-Scan mit anschließender Markierung als fehlerfrei durchzuführen, nur dauert dieser Scan bei einer 14 TB Disk mehrere Tage

Nachdem es auch nicht half die Platte (zumindest die ersten TB) und den Superblock des Raids mit Nullen zu überschreiben, half bei mir am Ende nur eine Neuinstallation des Systems.

Wenn ihr einen Rat habt um die Platte auch bei einem laufenden System wieder als Fehlerfrei zu markieren, dann nur zu

2.2) Den Wechsel zum RAID5 habe ich wie folgt gestartet:

Code

mdadm --grow /dev/md1 --level=raid5 --raid-devices=5 --backup-file=/mnt/HDA_ROOT/RAIDBackup/mdadmbackupfile

Auch dies war ein Fehler. Denn irgendwie lief dieser "grow" nur mit weniger als 1 MB/s (und ich konnte das auch nicht durch das Tuning diverser min/max-Werte beschleunigen) und würde 60 Tage (90-100k Minuten) zur Durchführung benötigen.

War wohl nix mit meiner Annahme, dass das schnell erledigt wäre

Zu dem zweiten (und evtl. dritten) Fehler dieser verhängnisvollen Zeile komme ich später noch...

Aber wie hätte ich sonst den nötigen Plattenplatz auf einem System mit "nur" 8 Slots schaffen können?

Wenn ich das RAID 6 mit nur 5 Platten im degraded Modus betrieben hätte, dann würde das NAS umgehend ein recovery starten, sobald ich eine neue/leere Platte angeschlossen wird.

Kann man dies bei QNAP eigentlich auch unterbinden?

Also ein 6x6 TB RAID6 mit nur 5x6 TB (degraded) betreiben, und dann trotzdem 3x14 TB Platten hinzufügen und darauf einen neuen Speicherpool anlegen?

Wenn ja, dann hätte es mir sehr geholfen, wenn ich es früher gewusst hätte. Wenn nein, dann wäre es ein Feature Request für QNAP.

Habe dann meinen Plan aufgegeben und mir einen neuen Plan ausgedacht:

3.1) entfernen aller alten Platten mit meinen Daten

3.2) einbau von 3x14 TB "neue"/leere Platten

3.3) Neuinstallation des NAS-Systems. Kann dann auch ein Recovery meiner AD-Daten probieren. Notfalls muss ich das halt alles wieder von Hand einrichten.

3.4) Nachdem das System läuft, die 5 Platten als degraded RAID6 anschließen und dann auf den Datastore zugreifen und alles kopieren.

3.5) wenn dann alles kopiert ist, dann kann ich die alten Platten entfernen und das RAID5 zum RAID6 migrieren

Auch der Plan hatte leider einige Lücken und ging aufgrund von einem meiner früheren Schritte leider mächtig schief. Gerne dazu mehr in meinem nächsten Post - nach ein paar Stunden Schlaf

Viele Grüße

Beiträge von burgerkind

Eine Geschichte voller (eigener) Fehler, einiger Inkompatibilitäten und Hürden und am Ende (noch offen) eventuell noch einem Datenverlust :handbuch:

Eine Geschichte voller (eigener) Fehler, einiger Inkompatibilitäten und Hürden und am Ende (noch offen) eventuell noch einem Datenverlust :handbuch:

Eine Geschichte voller (eigener) Fehler, einiger Inkompatibilitäten und Hürden und am Ende (noch offen) eventuell noch einem Datenverlust :handbuch:

Eine Geschichte voller (eigener) Fehler, einiger Inkompatibilitäten und Hürden und am Ende (noch offen) eventuell noch einem Datenverlust :handbuch:

Eine Geschichte voller (eigener) Fehler, einiger Inkompatibilitäten und Hürden und am Ende (noch offen) eventuell noch einem Datenverlust :handbuch: