Rebuild abbrechen, MD0_DATA wieder mounten

  • Hallo,


    ich hoffe hier im Forum Hilfe für mein Problem zu finden. Ich habe ein QNAP TS-412, darin 3 Festplatten als RAID 5. Zwei der Festplatten haben mir SMART-Fehler angezeigt, und zu einer von den beiden erhielt ich dann noch Emails vom NAS, dass es Lesefehler gibt. Die SMART-Fehler habe ich wohl zu lange ignoriert. ;( Da ich Speicherplatzmäßig auch fast ausgelastet war, habe ich mich durchgerungen, in drei neue 6TB-Platten (WD RED) zu investieren und das "Online-RAID-Upgrade" zu nutzen. Ich habe mich entschieden, die Platte mit den Lesefehlern (die mir das NAS wöchentlich per Mail zugeschickt hatte) zuerst zu tauschen, und das war offenbar ein Fehler. Die andere Platte wurde mir zwar nicht per E-Mail gemeldet, hatte aber laut SMART mehr fehlerhafte Blöcke. Der Rebuild startete auch, aber ab ca. 50% erhalte ich vom NAS jetzt alle ~30 Minuten E-Mails mit Warnungen:


    [Harddisk 3] I/O error, sense_key=0x3, asc=0x11, ascq=0x4, CDB=28 00 ed 25 7c 18 00 00 88 00


    und


    [Harddisk 3] medium error. Please run bad block scan on this drive or replace the drive if the error persists.


    HDD 3 ist die alte Platte mit SMART-Fehlern, aber (bis zum Rebuild) ohne angemeckerte Lesefehler per E-Mail.


    Anfangs hatte ich noch gehofft, dass "irgendwann" der fehlerhafte Bereich "durch" ist, und habe einfach gepokert dass "unnötige" Daten betroffen sind (ich habe z.B. als Backup Images von meinm Rechner auf dem NAS, die sind recht groß, aber auf so ein Image könnte ich verzichtenn). Aber inzwischen läuft der Rebuild-Prozess schon mehrere Wochen(!) und so langsam denke ich, ich kann mich von den Daten verabschieden. Vieles wichtiges habe ich noch auf anderen externen Platten, aber eben nicht alles. :(


    Frage: kann man den Rebuild-Prozess so abbrechen, dass sich MD0_DATA wieder mounten lässt und ich z.B. per SSH versuchen kann, einzelne Daten noch zu retten? Und für danach: was passiert, wenn ich das NAS runterfahre und nur noch mit den neuen WD-RED-Platten starte? Kann ich das NAS dann einfach frisch aufsetzen?


    Anmeldung per SSH ist noch möglich, aber z.B. der Befehl mdadm --misc --detail /dev/md0 zeigt mir niemals etwas an.


    Für jeden Tipp dankbar,

    Thorsten

  • Hm. Zwei Platten mit SMART-Fehlern und dann die Platten mit einem Rebuild so richtig unter Last setzen... Weiß nicht, aber irgendwie war das vorhersehbar, dass das nicht glatt durchgeht ;)


    Kann deinen Systemstand nicht nachvollziehen - bei einem normalen Rebuild bleibt der Raid-Verbund ja verfügbar.

    Wenn die andere Platte aus dem Raid-Verbund rausgeflogen ist, dann stoppt im Normalfall auch der Rebuild, weil ja dann 2 von 3 Festplatten nicht gesycnt sind.


    Was zeigt denn cat /proc/mdstat ?


    Du kannst ja mal hier schauen, ob Du was für dich ableiten kannst: Wiederherstellung von Daten aus einem RAID im Recovery Mode (Notizzettel)

  • Ja, mein Fehler war wahrscheinlich statt einem einfachen Rebuild gleich die Online-RAID-Migration zu machen...


    Ok, also vorher:

    HDD1 => 3 TB

    HDD2 => 3 TB, SMART-Fehler, zuletzt Warnung per E-Mail

    HDD3 => 3 TB, SMART-Fehler

    (alles Seagate Desktop-Platten, auch nicht ideal für ein NAS, ich weiß...)


    Online-RAID-Migration gestartet, HDD2 durch neue WD-RED ersetzt, ca. 50% geschafft, dann plötzlich Warnungen...


    Aktuell:

    HDD1 => 3 TB

    HDD2 => 6 TB (WD-RED)

    HDD3 => 3 TB, LED rot


    Ausgabe von cat /proc/mdstat:

  • Nein, das macht für die Platten lastmäßig keinen Unterschied, ob da ein Re-Build oder ein Re-Shape läuft.

    Ein Backup wäre wichtig gewesen vorher.


    Und dein Kernziel, den Rebuild abzubechen hast Du bereits erreicht, denn laut mdstat läuft da kein Rebuild mehr ;)

    Du kannst meiner Ansicht nach nur noch versuchen, den Verbund aus Platte 1 und 3 forciert zusammenzubauen, schau dir aber vorher den Superblock von sda3, sdb3 und sdc3 an. Vorgehensweise siehe bereits verlinktem Notizzettel. :)

  • Es ist doch wie verhext, jetzt plötzlich geht die LED an der HDD3 auf grün 8| und ich kann wieder auf die Shares zugreifen. Ich schließe jetzt erstmal ein USB-Platte an und kopiere ein paar Dateien rüber. Bei einigen erhalten ich "Input/Output Error", aber das überrascht mich nicht wirklich. Spannender finde ich diese Ausgabe:


  • Hallo, um diesen Thread mehr oder weniger erfolgreich abzuschließen:

    1. Ich habe keine Ahnung, warum gestern Abend die Platten plötzlich gemountet waren, laut Protokoll wurden diese um 22:57 (also während ich diesen Thread eröffnete) plötzlich als Read-Only gemountet. Laut dem mdadm-Tool wurde die HDD3 im RAID seit Ende Januar nicht aktualisiert, das könnte die Zeit sein als ich den Re-Shape startete. Gibt es solche Zufälle, dass ich 1,5 Monate geduldig warte, und in dem Augenblick wo ich aktiv werde ist das System fertig? :/
    2. Dadurch, dass die Platten Read-Only gemountet waren, konnte ich viele Daten auf eine externe USB-Platte retten. Nicht alle, aber dass was mir derzeit als "verloren gegangen" bewusst ist, kann ich verschmerzen.
    3. Ein Reassemble, wie im von sawachika verlinkten Notizzettel, hat bei mir leider nicht geklappt, mdadm meldete nur noch eine Platte als verwendbar und konnte logischerweise nichts mehr mounten. (Randnotiz: den im Notizzettel zu Beginn genutzten Befehl qcli_storage kennt mein NAS nicht)
    4. Ich habe heute morgen das NAS mit den drei neuen WD-RED-Platten frisch neu aufgesetzt, derzeit wird noch das RAID synchronisiert (12 Stunden für 25% :huh:) und eine vierte WD-RED als Spare ist bestellt :saint:
    5. Jetzt muss ich mir nur noch Gedanken um die Sicherung der Daten machen, die nicht zusätzlich auf meinen externen Platten liegen ;)

    Vielen Dank an sawachika für die prompte Unterstützung!


    - Thorsten