Hi zusammen,
habe das gleiche Problem, komischerweise erst ein paar Tage nach dem Update. Ticket bei QNAP war bisher noch nicht weiter hilfreich gewesen, NAS ist selbst im Maintenance Mode mehrfach abgestürzt, Logins nicht mehr möglich, shares komplett weg, NFS hängt, etc.
Was mir geholfen hatte, da selbst SSH nicht mehr funktioniert hat (Login hängt nach auth), Telnet temporär zu aktivieren. Zumindest konnte ich dann noch irgendwie auf die NAS.
In den Kernel Logs /mnt/HDA_ROOT/.logs/kmsg, bzw. dmesg sieht man zumindest die Ursache, Eingrenzung war nur etwas schwierig, es folgt eine reihe von hung tasks
2022-11-05 04:42:10 +01:00 <3> [ 3197.325282] INFO: task kworker/u8:0:18818 blocked for more than 122 seconds.
2022-11-05 04:42:10 +01:00 <3> [ 3197.332375] Tainted: P O 5.10.60-qnap #1
2022-11-05 04:42:10 +01:00 <3> [ 3197.338150] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
2022-11-05 04:42:10 +01:00 <6> [ 3197.346028] task:kworker/u8:0 state:D stack: 0 pid:18818 ppid: 2 flags:0x00004000
2022-11-05 04:42:10 +01:00 <6> [ 3197.354425] Workqueue: writeback wb_workfn (flush-252:0)
2022-11-05 04:42:10 +01:00 <6> [ 3197.359769] Call Trace:
2022-11-05 04:42:10 +01:00 <6> [ 3197.362239] __schedule+0x1dd/0x610
2022-11-05 04:42:10 +01:00 <6> [ 3197.365747] ? blk_flush_plug_list+0xaa/0xe0
2022-11-05 04:42:10 +01:00 <6> [ 3197.370038] schedule+0x41/0xa0
2022-11-05 04:42:10 +01:00 <6> [ 3197.373199] wait_transaction_locked+0x84/0xc0
2022-11-05 04:42:10 +01:00 <6> [ 3197.377666] ? wait_woken+0x80/0x80
2022-11-05 04:42:10 +01:00 <6> [ 3197.381179] add_transaction_credits+0x3b/0x290
2022-11-05 04:42:10 +01:00 <6> [ 3197.385740] ? drbd_submit_bio+0x93/0x3c0 [drbd]
2022-11-05 04:42:10 +01:00 <6> [ 3197.390382] ? blk_queue_enter+0x1e4/0x240
2022-11-05 04:42:10 +01:00 <6> [ 3197.394497] start_this_handle+0x113/0x580
2022-11-05 04:42:10 +01:00 <6> [ 3197.398616] ? submit_bio_noacct+0x178/0x400
2022-11-05 04:42:10 +01:00 <6> [ 3197.402909] ? _cond_resched+0x10/0x20
2022-11-05 04:42:10 +01:00 <6> [ 3197.406678] jbd2__journal_start+0x103/0x190
2022-11-05 04:42:10 +01:00 <6> [ 3197.410971] __ext4_journal_start_sb+0x67/0x80
2022-11-05 04:42:10 +01:00 <6> [ 3197.415437] ext4_writepages+0x3ab/0xb40
2022-11-05 04:42:10 +01:00 <6> [ 3197.419383] ? do_writepages+0x27/0x90
2022-11-05 04:42:10 +01:00 <6> [ 3197.423151] do_writepages+0x27/0x90
2022-11-05 04:42:10 +01:00 <6> [ 3197.426747] __writeback_single_inode+0x28/0x140
2022-11-05 04:42:10 +01:00 <6> [ 3197.431386] writeback_sb_inodes+0x21c/0x3c0
2022-11-05 04:42:10 +01:00 <6> [ 3197.435678] __writeback_inodes_wb+0x92/0xc0
2022-11-05 04:42:10 +01:00 <6> [ 3197.439970] wb_writeback+0x1e7/0x200
2022-11-05 04:42:10 +01:00 <6> [ 3197.443653] ? wb_workfn+0x19e/0x390
2022-11-05 04:42:11 +01:00 <6> [ 3197.447247] wb_workfn+0x19e/0x390
2022-11-05 04:42:11 +01:00 <6> [ 3197.450669] ? add_timer+0x13d/0x1e0
2022-11-05 04:42:11 +01:00 <6> [ 3197.454274] ? process_one_work+0x143/0x2c0
2022-11-05 04:42:11 +01:00 <6> [ 3197.458481] process_one_work+0x143/0x2c0
2022-11-05 04:42:11 +01:00 <6> [ 3197.462508] worker_thread+0x5f/0x3c0
2022-11-05 04:42:11 +01:00 <6> [ 3197.466204] ? max_active_store+0x80/0x80
2022-11-05 04:42:11 +01:00 <6> [ 3197.470235] kthread+0x107/0x140
2022-11-05 04:42:11 +01:00 <6> [ 3197.473481] ? kthread_bind+0x10/0x10
2022-11-05 04:42:11 +01:00 <6> [ 3197.477162] ret_from_fork+0x1f/0x30
Alles anzeigen
QNAP support vermutet ein RAM Fehler, hatte auch gesehen, dass ich hier aufgerüstet habe. Nachdem ich den original RAM wieder installiert hatte, das gleiche wieder. Da der Support nur Mo-Fr im Dienst ist, natürlich dann keine weitere antworten mehr bekommen.
Vermutung lag evtl. an einer defekten Platte, alle extern geprüft ohne Fehler. Da es sich hier scheinbar um Fehler im Speichermanagement handelt und man in den Traces immer wieder writeback und ext4 liest, habe ich mir die Einstellungen der NAS nochmal genauer angesehen und festgestellt, dass unter Control Panel --> Hardware --> Enable write cache (EXT4 delay allocation) aktiv war.
Rausnehmen der Option verlangsamt ggf. Schreibvorgänge, aber hat scheinbar das Problem bei mir behoben. NAS läuft seit über 24h stabil, alle Dienste wieder wie bisher aktiv und hatte diverse Backup Jobs über Nacht manuell gestartet um Last zu generieren (SMB, NFS, TimeMachine, HDP, etc.).
Vermute es gibt nach dem update irgend ein Bug im Kernel, was für die Speicherverwaltung des write caches zuständig ist, anders kann ich es mir zumindest nicht erklären, wenn die Hardware soweit OK ist und sich sonst außer software updates nicht verändert hat.
Evtl. hilft es den betroffenen weiter, mal diese Einstellung raus zu nehmen, falls aktiv.