Hallo zusammen,
System ist folgendes:
- TS-673A
- QuTS hero 5.1.2.2534
- 2 SSDs als Systemlaufwerk im RAID1
- 6 WD Red Plus im RAID5
Als ich nun nach den Feiertagen mal wieder auf die NAS geschaut habe (war paar Tage weg....), der große Schock: Freigaben weg,
Analyse hat nun folgendes gezeigt:
a) am 28.12. hat die HDD2 im Anbstand von 30 Minuten Ledefehler gehabt und wurde dann aus dem RAID genommen
Warning 2023-12-28 03:37:20 --- --- localhost --- Hardware Status I/O Ports [Hardware Status] "Host: 3.5" SATA HDD 2": Medium error. Run a bad block scan on the drive. Replace the drive if the error persists.
Warning 2023-12-28 03:37:19 --- --- localhost --- Hardware Status I/O Ports [Hardware Status] "Host: 3.5" SATA HDD 2": Read I/O error, "UNRECOVERED READ ERROR ", sense_key=0x3, asc=0x11, ascq=0x4, CDB=88 00 00 00 00 00 05 9b 4b 10 00 00 01 30 00 00 ..
Warning 2023-12-28 03:07:15 --- --- localhost --- Hardware Status I/O Ports [Hardware Status] "Host: 3.5" SATA HDD 2": Medium error. Run a bad block scan on the drive. Replace the drive if the error persists.
Warning 2023-12-28 03:07:15 --- --- localhost --- Hardware Status I/O Ports [Hardware Status] "Host: 3.5" SATA HDD 2": Read I/O error, "UNRECOVERED READ ERROR ", sense_key=0x3, asc=0x11, ascq=0x4, CDB=88 00 00 00 00 00 05 99 d2 08 00 00 00 10 00 00 ..
Information 2023-12-28 03:57:35 --- --- localhost --- Storage & Snapshots RAID Group [Storage & Snapshots] Hot-removed disk "Host: 3.5" SATA HDD 2" from RAID group 2. Storage pool: 2.
Warning 2023-12-28 03:57:37 --- --- localhost --- Storage & Snapshots RAID Group [Storage & Snapshots] RAID group "2" is degraded. Storage pool: 2.
b) am 29.12 dann auf HDD1 das erste mal Lesefehler, ohne dass die Platte rausgenommen wurde.
Warning 2023-12-29 01:45:33 --- --- localhost --- Hardware Status I/O Ports [Hardware Status] "Host: 3.5" SATA HDD 1": Read I/O error, "UNRECOVERED READ ERROR ", sense_key=0x3, asc=0x11, ascq=0x4, CDB=88 00 00 00 00 00 06 68 a9 a0 00 00 00 68 00 00 ..
Warning 2023-12-29 01:45:33 --- --- localhost --- Hardware Status I/O Ports [Hardware Status] "Host: 3.5" SATA HDD 1": Medium error. Run a bad block scan on the drive. Replace the drive if the error persists.
Warning 2023-12-29 02:15:51 --- --- localhost --- Hardware Status I/O Ports [Hardware Status] "Host: 3.5" SATA HDD 1": Read I/O error, "UNRECOVERED READ ERROR ", sense_key=0x3, asc=0x11, ascq=0x4, CDB=88 00 00 00 00 00 06 69 15 e8 00 00 00 68 00 00 ..
Warning 2023-12-29 02:15:51 --- --- localhost --- Hardware Status I/O Ports [Hardware Status] "Host: 3.5" SATA HDD 1": Medium error. Run a bad block scan on the drive. Replace the drive if the error persists.
c) am 30. dann auf HDD1 (HDD2 meldet im täglichen SMART "fatal Error", weil nicht da) nach dem SMART:
Warning 2023-12-30 00:02:25 --- --- localhost --- --- --- [Disk S.M.A.R.T.] Host: 3.5" SATA HDD 1 still has warning/error condition. Please check summary page.
Das wiederholt sich dann die nächsten tage so weiter, ohne Lesefehler.
d) Beginnend am 03,01 um etwa drei Uhr nachts (da läuft eine RTRR Replikation mit der NAS als Ziel) im Abstand von ca. 30 Minuten Lesefehler auf HDD1, Lesefehler werden dann den Tag über weniger, aber in der Nacht vom 04.01, kommen sie wieder massiv.
e) am 04.01. morgens kurz vor halbsieben dann folgendes:
Warning 2024-01-04 06:22:48 --- --- localhost --- Hardware Status I/O Ports [Hardware Status] "Host: 3.5" SATA HDD 1": Read I/O error, "UNRECOVERED READ ERROR ", sense_key=0x3, asc=0x11, ascq=0x4, CDB=88 00 00 00 00 00 04 b3 ec 70 00 00 00 68 00 00 ..
Warning 2024-01-04 06:22:48 --- --- localhost --- Hardware Status I/O Ports [Hardware Status] "Host: 3.5" SATA HDD 1": Medium error. Run a bad block scan on the drive. Replace the drive if the error persists.
Information 2024-01-04 06:49:32 --- --- localhost --- Storage & Snapshots RAID Group [Storage & Snapshots] Hot-removed disk "Host: 3.5" SATA HDD 1" from RAID group 2. Storage pool: 2.
Error 2024-01-04 06:49:33 --- --- localhost --- Storage & Snapshots RAID Group [Storage & Snapshots] RAID group "2" is inactive. Storage pool: 2.
Information 2024-01-04 06:51:07 --- --- localhost --- Virtualization Station Application [Virtualization Station] Started VM "SRV-Homebackup" automatically.
Gegen 9 hab ich das Ganuze bemerkt und hab dann gesehen, dass HDD1 und HDD2 mit Fehler markiert waren.
Rausziehen und reinstecken hat nix gebracht.
Durch einen Tipp habe ich dann in einer .conf Datei bei den beiden betreffenden Platten eine pd_err_*** Zeile entdeckt und geöscht.
Danach Systemneustart und das RAID war wieder da.
Nächste Erkenntnis :
f) im SMART hat die HDD1 eine extremn hohe RAW_Error_Rate (ID1) und unter knapp 200 Current_Pending_Sector (ID197) , HDD2 hat unter der ID1 den Wert 1, under der ID197 den Wert 0
Da HDD2 schon mehrere Tage aus dem RAID draußen war hab ich die dann gezogen und durch eine neue ersetzt.
Beobachtung:
g) Rebuld startet,, danach ist der Pool aber in Degraded.
e) ich hab dann auf das "degraded" geklickt und dann kommt ja dieser Dialog mit "Cancel/Rebuild) und da hab ich dann auf Rebuild geklickt. Der startete dann auch (wieder auf der HDD2, warum, die wurde dch eben schon wiederhergestellt) und als der Rebuld feritg war startete der Sekunden später erneut....
Während des Rebuilds (auch schon beim Ersten) gibt es eine Phase bei der die Rebuildrate massiv ainbricht (von knapp 100MB/s auf wenige hunder kB/s) und die Latenz auf der HDD1 geht massiv hoch; auf mehrere Sekunden
Einträge mit Lesefehlern sind die Folge, die beiden Zähler im SMART gehen hoch.
So....danke schonmal bis hierher fürs Lesen.
Nun kommen meine Annahmen und Fragezeichen:
I) Lesefehler können vorkommen, okay, aber warum wird bereits nach einem Lesefehler HDD2 aus dem RAID genommen und noch dazu mit einer INFO ?!?!? (Punkt a) )
III) bei b) und c) scheint man dann wohl gut zu sehen, dass HDD1 langsam stirbt, also erstmal i.O.
Warum wird die aber trotz zig Lesefehlern nicht aus dem RAID genommen? Versucht das OS hier das RAID so lange wie möglich am Leben zu halten?
IV) Dass HDD1 dann irgendwann nimmer kann ist erstmalö okay, hat ja lange genug um Hilfe gerufen.
V) Warum startet das Rebuild (immer auf der neu gesteckten HDD2?
Hatte das Phönomen schonmal jemand.
Gibt es eine andere Alternative, als den Pool zu killen und neu aufzusetzen (dann natürlich mit neuen Platten...)?
Backup ist vorhanden.
Danke für jede Hilfe
S.