Raid-1 aus heiterem Himmel "zerbrochen"

  • Hallo zusammen,


    mir ist letzte Nacht etwas seltsames passiert:


    Ich musste nachts (so ca. gegen 3:00) mal raus und hörte zufällig
    mein NAS "schreien". (ein laaaanger Beep, der nicht enden wollte).


    Bei beiden Platten meines Raid-1 leuchtete die rote LED.
    Weder die Web-Oberfläche reagierte, noch kam ich mit Putty drauf.
    Ein Druck auf den Ausschalter sorge dafür dass sich das NAS sofort abschaltete
    (sauberes Runterfahren war nicht mehr möglich - auf dem Raid waren einige Systemfiles (QPKGs etc.))



    Beim Neustart fast das selbe Bild:
    Die LEDs der beiden Platten immer noch rot, immerhin reagierte die Web-Oberfläche und auch Putty war wieder möglich.
    Im Syslog keine wesentlichen Hinweise was die beiden Platten aus dem Tritt gebracht hat.
    Lediglich dass das Volume nicht sauber runtergefahren worden sei und einen fsck braucht.
    Im Speichermanager wird die eine Platte als "Fehler" angezeigt, die andere als "Lese/Schreibfehler".


    cat /proc/mdstat hat gezeigt, dass das Raid-1 degraded war.
    mount hat gezeigt, dass /dev/md3 nur Read-only gemountet wurde - warum eigentlich?
    Ein umount war nicht möglich. Ich bekam zwei mal die Rückmeldung, dass das device busy sei.
    Auch das deaktivieren der Services mit init.d/servicec.sh stop änderte daran nichts.
    Nachdem das md-device nur R/O gemountet war, habe ich einen fsck -f laufen lassen.
    Das scheint geklappt zu haben. Zumindest kam beim Booten nicht mehr die Meldung, dass das
    Volume unsauber sein.


    Da beide Platten ganz neu sind und ich sie erst vor wenigen Tagen sowohl
    einem ausführlichen SMART-Test und einem Bad-Block-Scan unterzogen habe
    (in beiden Fällen ohne Auffälligkeiten), habe ich jetzt mal die "rausgefallene"
    Platte gezogen und einfach wieder eingesteckt.


    Das NAS reagiert und der Resync ist angelaufen.
    Die gezogene Platte wird im Speichermanager wieder als "Gut" angezeigt.
    Ich hoffe mal, dass danach das Raid wieder da ist, sonst müsste ich das NAS
    komplett neu aufsetzen.


    Aber was mich interessieren würde:


    Hat irgendjemand eine Ahnung, was da los ist?
    Wieso fallen mir-nichts-dir-nichts beide Platten eines Raid-1 aus (rote LED)?
    Wieso wird eine der beiden Platten (nur) noch R/O gemountet?
    Ich finde das alles sehr seltsam.


    Ach ja:
    Platten WD Red 3TB, mit Home-FW formatiert, aber in SMB-FW betrieben.


    Danke, quacksalber

  • Zitat von "quacksalber"

    Hat irgendjemand eine Ahnung, was da los ist?


    Shit happens -

    Zitat

    Wieso fallen mir-nichts-dir-nichts beide Platten eines Raid-1 aus (rote LED)?


    Warum startet das Auto heute nicht mehr? Gestern ging es doch noch -

    Zitat

    Wieso wird eine der beiden Platten (nur) noch R/O gemountet?


    Das ist eine sehr lobenswerte Eigenschaft von Linux. Wenn auf der Platte aus welchen Gründen auch immer, irgend etwas im Filesystem nicht 100%ig i. O. ist, wird die Platte sofort auf ro gesetzt.
    Damit wird verhindert, dass durch weiter Schreibvorgänge noch mehr kaputt gemacht wird oder sogar Datenverlust auftritt.
    Deswegen muss ja auch ein fsck gemacht werden. Wenn diese erfolgreich war, geht es auch wieder weiter.


    Windows ist diesbezüglich recht schlampig und geht teilweise recht lax mit kleineren Filesystemfehlern um.


    Gruss
    Michael

  • Zitat von "muck"


    Deswegen muss ja auch ein fsck gemacht werden. Wenn diese erfolgreich war, geht es auch wieder weiter.


    Naja, genau das ist aber nicht passiert.
    Nach dem fsck wurde die Platte weiterhin nur R/O gemountet.


    Als dann allerdings der Resync durch war, dann wurde die Platte wieder R/W gemountet.
    Irgendwie passt das alles nicht zusammen...

    Einmal editiert, zuletzt von quacksalber ()

  • Doch, das ist so schon gewollt.
    Solange das RAID nicht synchron ist, ist die Datenverfügbarkeit in Gefahr, somit schaltet das RAID-Volume auf ReadOnly.


    Dieses ist unabhängig von der Dateisystemprüfung, da hier nicht das komplette RAID sondern nur einzelne /die zuletzt geschriebenen
    Daten in Gefahr sind, aber das RAID ist weiterhin beschreibbar.

  • ok, klingt einleuchtend.


    Heißt das dann, dass ein Raid(-1) auf R/O schaltet,
    sobald eine der beiden Platten ein Problem hat oder ausfällt?


    Ich dachte bisher, die Daten sind weiterhin ganz normal verfügbar,
    wenn eine der Platten im Raid ausfällt.