Nach Plattendefekt permanentes Rebuild der Neuen Platte

  • Hallo zusammen,


    System ist folgendes:

    - TS-673A

    - QuTS hero 5.1.2.2534

    - 2 SSDs als Systemlaufwerk im RAID1

    - 6 WD Red Plus im RAID5



    Als ich nun nach den Feiertagen mal wieder auf die NAS geschaut habe (war paar Tage weg....), der große Schock: Freigaben weg,

    Analyse hat nun folgendes gezeigt:

    a) am 28.12. hat die HDD2 im Anbstand von 30 Minuten Ledefehler gehabt und wurde dann aus dem RAID genommen =O =O =O =O

    Code
    Warning    2023-12-28    03:37:20    ---    ---    localhost    ---    Hardware Status    I/O Ports    [Hardware Status] "Host: 3.5" SATA HDD 2": Medium error. Run a bad block scan on the drive. Replace the drive if the error persists.
    Warning    2023-12-28    03:37:19    ---    ---    localhost    ---    Hardware Status    I/O Ports    [Hardware Status] "Host: 3.5" SATA HDD 2": Read  I/O error, "UNRECOVERED READ ERROR ", sense_key=0x3, asc=0x11, ascq=0x4, CDB=88 00 00 00 00 00 05 9b 4b 10 00 00 01 30 00 00 ..
    
    Warning    2023-12-28    03:07:15    ---    ---    localhost    ---    Hardware Status    I/O Ports    [Hardware Status] "Host: 3.5" SATA HDD 2": Medium error. Run a bad block scan on the drive. Replace the drive if the error persists.
    Warning    2023-12-28    03:07:15    ---    ---    localhost    ---    Hardware Status    I/O Ports    [Hardware Status] "Host: 3.5" SATA HDD 2": Read  I/O error, "UNRECOVERED READ ERROR ", sense_key=0x3, asc=0x11, ascq=0x4, CDB=88 00 00 00 00 00 05 99 d2 08 00 00 00 10 00 00 ..
    
    Information    2023-12-28    03:57:35    ---    ---    localhost    ---    Storage & Snapshots    RAID Group    [Storage & Snapshots] Hot-removed disk "Host: 3.5" SATA HDD 2" from RAID group 2. Storage pool: 2.
    Warning    2023-12-28    03:57:37    ---    ---    localhost    ---    Storage & Snapshots    RAID Group    [Storage & Snapshots] RAID group "2" is degraded. Storage pool: 2.


    b) am 29.12 dann auf HDD1 das erste mal Lesefehler, ohne dass die Platte rausgenommen wurde.

    Code
    Warning    2023-12-29    01:45:33    ---    ---    localhost    ---    Hardware Status    I/O Ports    [Hardware Status] "Host: 3.5" SATA HDD 1": Read  I/O error, "UNRECOVERED READ ERROR ", sense_key=0x3, asc=0x11, ascq=0x4, CDB=88 00 00 00 00 00 06 68 a9 a0 00 00 00 68 00 00 ..
    Warning    2023-12-29    01:45:33    ---    ---    localhost    ---    Hardware Status    I/O Ports    [Hardware Status] "Host: 3.5" SATA HDD 1": Medium error. Run a bad block scan on the drive. Replace the drive if the error persists.
    
    Warning    2023-12-29    02:15:51    ---    ---    localhost    ---    Hardware Status    I/O Ports    [Hardware Status] "Host: 3.5" SATA HDD 1": Read  I/O error, "UNRECOVERED READ ERROR ", sense_key=0x3, asc=0x11, ascq=0x4, CDB=88 00 00 00 00 00 06 69 15 e8 00 00 00 68 00 00 ..
    Warning    2023-12-29    02:15:51    ---    ---    localhost    ---    Hardware Status    I/O Ports    [Hardware Status] "Host: 3.5" SATA HDD 1": Medium error. Run a bad block scan on the drive. Replace the drive if the error persists.


    c) am 30. dann auf HDD1 (HDD2 meldet im täglichen SMART "fatal Error", weil nicht da) nach dem SMART:

    Code
     Warning    2023-12-30    00:02:25    ---    ---    localhost    ---    ---    ---    [Disk S.M.A.R.T.] Host: 3.5" SATA HDD 1 still has warning/error condition. Please check summary page.

    Das wiederholt sich dann die nächsten tage so weiter, ohne Lesefehler.


    d) Beginnend am 03,01 um etwa drei Uhr nachts (da läuft eine RTRR Replikation mit der NAS als Ziel) im Abstand von ca. 30 Minuten Lesefehler auf HDD1, Lesefehler werden dann den Tag über weniger, aber in der Nacht vom 04.01, kommen sie wieder massiv.


    e) am 04.01. morgens kurz vor halbsieben dann folgendes:

    Code
    Warning    2024-01-04    06:22:48    ---    ---    localhost    ---    Hardware Status    I/O Ports    [Hardware Status] "Host: 3.5" SATA HDD 1": Read  I/O error, "UNRECOVERED READ ERROR ", sense_key=0x3, asc=0x11, ascq=0x4, CDB=88 00 00 00 00 00 04 b3 ec 70 00 00 00 68 00 00 ..
    Warning    2024-01-04    06:22:48    ---    ---    localhost    ---    Hardware Status    I/O Ports    [Hardware Status] "Host: 3.5" SATA HDD 1": Medium error. Run a bad block scan on the drive. Replace the drive if the error persists.
    
    Information    2024-01-04    06:49:32    ---    ---    localhost    ---    Storage & Snapshots    RAID Group    [Storage & Snapshots] Hot-removed disk "Host: 3.5" SATA HDD 1" from RAID group 2. Storage pool: 2.
    
    Error    2024-01-04    06:49:33    ---    ---    localhost    ---    Storage & Snapshots    RAID Group    [Storage & Snapshots] RAID group "2" is inactive. Storage pool: 2.
    
    Information    2024-01-04    06:51:07    ---    ---    localhost    ---    Virtualization Station    Application    [Virtualization Station] Started VM "SRV-Homebackup" automatically.

    :?: :?:



    Gegen 9 hab ich das Ganuze bemerkt und hab dann gesehen, dass HDD1 und HDD2 mit Fehler markiert waren.


    Rausziehen und reinstecken hat nix gebracht.


    Durch einen Tipp habe ich dann in einer .conf Datei bei den beiden betreffenden Platten eine pd_err_*** Zeile entdeckt und geöscht.

    Danach Systemneustart und das RAID war wieder da.


    Nächste Erkenntnis :
    f) im SMART hat die HDD1 eine extremn hohe RAW_Error_Rate (ID1) und unter knapp 200 Current_Pending_Sector (ID197) , HDD2 hat unter der ID1 den Wert 1, under der ID197 den Wert 0


    Da HDD2 schon mehrere Tage aus dem RAID draußen war hab ich die dann gezogen und durch eine neue ersetzt.


    Beobachtung:


    g) Rebuld startet,, danach ist der Pool aber in Degraded.


    e) ich hab dann auf das "degraded" geklickt und dann kommt ja dieser Dialog mit "Cancel/Rebuild) und da hab ich dann auf Rebuild geklickt. Der startete dann auch (wieder auf der HDD2, warum, die wurde dch eben schon wiederhergestellt) und als der Rebuld feritg war startete der Sekunden später erneut....

    Während des Rebuilds (auch schon beim Ersten) gibt es eine Phase bei der die Rebuildrate massiv ainbricht (von knapp 100MB/s auf wenige hunder kB/s) und die Latenz auf der HDD1 geht massiv hoch; auf mehrere Sekunden 8| 8| 8|

    Einträge mit Lesefehlern sind die Folge, die beiden Zähler im SMART gehen hoch.




    So....danke schonmal bis hierher fürs Lesen.


    Nun kommen meine Annahmen und Fragezeichen:


    I) Lesefehler können vorkommen, okay, aber warum wird bereits nach einem Lesefehler HDD2 aus dem RAID genommen und noch dazu mit einer INFO ?!?!? (Punkt a) )


    III) bei b) und c) scheint man dann wohl gut zu sehen, dass HDD1 langsam stirbt, also erstmal i.O.

    Warum wird die aber trotz zig Lesefehlern nicht aus dem RAID genommen? Versucht das OS hier das RAID so lange wie möglich am Leben zu halten?


    IV) Dass HDD1 dann irgendwann nimmer kann ist erstmalö okay, hat ja lange genug um Hilfe gerufen.


    V) Warum startet das Rebuild (immer auf der neu gesteckten HDD2?


    Hatte das Phönomen schonmal jemand.

    Gibt es eine andere Alternative, als den Pool zu killen und neu aufzusetzen (dann natürlich mit neuen Platten...)?
    Backup ist vorhanden.



    Danke für jede Hilfe

    S.

  • Wenn HD1 laut Smart viele Fehler hat, warum wurde dann HD2 (die offensichtlich noch OK ist) ersetzt?

    Von der fehlerhaften HD1 kann das Raid vermutlich nicht mehr hergestellt werden.

  • Wie bereits geschrieben: HDD2 wurde als erstes (bereits vor Tagen) aus dem RAID genommen.
    Von daher war es für mich das naheliegendste, nach dem Löschen der beiden Fehlerzeilen die HDD2 erst mal gezogen zu lassen und habe - als dann das RAID wieder hochkam - die HDD2 durch eine neue ersetzt.


    Wenn das RAID nicht mehr rekonstruiert werden kann - was ich durchaus verstehen kann - warum

    - wird mir das dann nirgends angezeigt

    - kann ich auf alle Daten auf dem RAID zugreifen und die Daten scheinen auch i.O. zu sein.




    S.

  • Natürlich wird versucht das Raid mit der neuen Platte HD2 wieder herzustellen.

    Evtl. klappt das nicht, da HD1 viele Fehler hat. Ob nun alle Daten noch vorhanden sind, ist nicht so einfach zu sagen. Es können Datenbereiche in Dateien defekt sein, da es viele "pendig Sektoren" gibt.

    Ich würde ein Raid Sync mit HD2, die anscheinend keine Lesefehler hat und einer neuen leeren HD1 versuchen.

    Der ursprünglichen HD1 würde ich nicht mehr vertrauen.

  • Ob nun alle Daten noch vorhanden sind, ist nicht so einfach zu sagen. Es können Datenbereiche in Dateien defekt sein, da es viele "pendig Sektoren" gibt. [..]

    Deshalb schrieb ich die Daten scheinen okay zu sein .


    Ich würde ein Raid Sync mit HD2, die anscheinend keine Lesefehler hat und einer neuen leeren HD1 versuchen.

    Die HDD2 wurde aber vor 6 Tagen (!) aus dem RAID genommen.

    Wie soll ein Rebuild mit so veralteten Daten denn funktionieren?
    Das ist doch eher aussichtslos oder?
    in der Zwischenzeit wurden ja neue Daten geschrieben und davon ist definitiv nix auf der Platte die 28.12. aus dem RAID genommen wurde.


    Der ursprünglichen HD1 würde ich nicht mehr vertrauen.

    Vielleicht kam es im ersten Post nicht ganz klar raus:

    Ich habe hier 6 neue Platten und ich werde ALLE ersetzen, da sie in etwa gleich alt sind.

  • Du hast bei einem Raid 5 zwei HDs verloren, da ist Ende.

    Da sind Daten weg.


    Wenn du ein Backup hast, vor dem Vorfall, würde ich das nutzen und das Raid vollkommen neu aufbauen.

    Du hast da was zusammen gezaubert was nicht passt und jetzt läuft da ein Zombi Raid 5.


    Auch wenn du das noch mal geflickt bekommen würdest, traue ich dem nicht mehr. Da kann was zurück bleiben und dann breitet sich der Fehler immer weiter aus ohne das du es merkst, bis dann diverse Daten weg oder beschädigt sind.

  • Hy,

    schön dass Duauch wieder da bist ;) Hatten ja schon des öfteren hier miteinander zu tun.

    Ja ich bin gerade tatsächlich dabei, die Daten aus den Backups zu rekonstruieren.
    Dass Platten in einem RAID sterben können ist ja völlig okay, und für mich Null Stress.


    Mich wundern eben nur paar Kleinigekeiten:


    - Warum wurde die HDD2 schon nach einem Lesefehler aus dem RAID genommen

    - Warum wird beim rausnehmen der Platten das als INFO verschickt...ich finde das ist schon mindestens eine Warnung

    - Warum startet die Virtualization Station neu ?!?


    Hmm ich seh gerade, dass ich im Erstpost von "rausnehmen" geschrieben habe....Das ist so zu verstehen, dass das das NAS selbstständig gemacjt hat, die HDD2 und dann die HDD1 aus dem RAID zu entfernen.
    Es ist nicht so zu verstehen, dass ich da aktiv Platten aus dem System gezogen habe.

    S.

  • Hey, schön zu lesen, das du ein funktionales Backup hast, das ist leider auch nicht immer der Fall.


    Das erkläre ich mir so, mit den HDs. Die erste HD kann ja bei einem Raid 5 sterben, dann bleibt es ja noch aktiv, doch dann muss jede HD im Verbund bleiben, sonst ist es inaktiv und daher wird die HD 1 bei dir bis zum Erbrechen festgehalten, da sonst gleich alles weg ist.


    Das mit der Virtualization Station ist wohl eine Verzweiflungstat, das Volume ist weg und dann versucht QTS das was automatisch laufen soll wieder zu starten, doch die QVS ist mit dem Volume und dem ISOs verschwunden, das wird daher nix. Aber netter Versuch.


    Für die Zukunft besser ein Monitoring einrichten, auch wenn es nur Mails sind die das NAS verschickt, bekommst du so immer einen Status und kannst gleich reagieren, wenn eine HD aus dem Raid fliegt, sollte sofort eine Mail raus gehen.

  • Ja das mit den fehlenden Backups sieht man hier ja immer wieder, aber ich hab vor knapp 30 Jahren mal fast Daten verloren (2 Tage vor Abgabe der Diplomarbeit Festtplatte tot....war ne 128MB Platte....riesig damals *fg*)
    Seitdem bin ich Backup-Paranoiker. Ich hab permanent 3 Sicherungen auch an 2 verschiedenen Orten.

    Das erkläre ich mir so, mit den HDs. Die erste HD kann ja bei einem Raid 5 sterben, dann bleibt es ja noch aktiv, doch dann muss jede HD im Verbund bleiben, sonst ist es inaktiv und daher wird die HD 1 bei dir bis zum Erbrechen festgehalten, da sonst gleich alles weg ist.

    Okay sowas hab ich schon fast vermutet.



    Das mit der Virtualization Station ist wohl eine Verzweiflungstat, das Volume ist weg und dann versucht QTS das was automatisch laufen soll wieder zu starten, doch die QVS ist mit dem Volume und dem ISOs verschwunden, das wird daher nix. Aber netter Versuch.

    Joa im Prinzip denkbar, aber die VM ISOs liegen auf dem SSD RAID1 (Systemlaufwerk).....und das war ja nicht betroffen.
    Ich trenne strikt System und Daten....sorry. kam im ersten Post nicht rüber, dass die VM auf dem anderen Pool liegt.



    Ja Monitoring habe ich tatsächlich vernachlässigt....ist aber schon nachgeholt ;)

  • Ok, dann startet QTS einfach bei einer Änderung der Volums und Freigaben alle Dienste durch.

    Ist das einfachste um alles zum laufen zu bringen.