RAID-5 doppelter Plattenausfall, Recovery wie?

  • Liebe Gemeinde,


    ich habe ein TS-439 Pro, Firmware 3.5.0 0815, mit 4 WD2002FYPS Platten Firmware 04.05G04 als RAID5.


    Gestern ist kurz nach einem Upgrade auf Firmware 3.5.0 Build 0815 Platte 1 aus dem RAID gefallen (das, was mit diesen Platten bei älteren Firmwareversionen öfters passierte - ich habe damals dann ein von QNAP zur Verfügung gestelltes Firmware-Upgrade der Platten installiert, das die angezeigte Firmwareversion nicht verändert hat, seitdem war es nicht mehr vorgekommen). Wie üblich habe ich über das Webinterface in der Datenträgerverwaltung auf dem Laufwerk defekte Blöcke suchen lassen, es wurden keine gefunden und das NAS hat automatisch versucht, die Platte wieder ins RAID einzubinden.
    Während des Resyncs kam es zu Lesefehlern auf Laufwerk 3 mit blinkender Laufwerks-LED und einem Hänger. Nach etlichen Stunden habe ich das Gerät "hart" ausgeschaltet, da es sich auch nicht mehr herunterfahren ließ.


    Es kam wieder hoch, aber seitdem besteht das RAID nur noch aus Platten 2, 3 und 4, wobei Platte 3 im Webinterface als ausgefallen angezeigt wird und das RAID readonly ist. Ich habe auf Platte 3 über das Webinterface den üblichen Check nach fehlerhaften Blöcken laufen lassen - leider wurden ca. 100 gefunden (in ca. 17-20% der Platte, also nicht am Anfang), die Status-LED des Laufwerks ist rot.


    Ich habe auch auf Laufwerk 1 fehlerhafte Blöcke suchen lassen, in der Hoffnung, daß es dann vielleicht automatisch wieder eingebunden wird - leider nicht!


    Von der Shell aus betrachtet sieht die Sache so aus:


    Aktuell ist das RAID-Laufwerk read-only gemountet und ich komme auch übers Netz dran, sodaß ich ein Backup von wichtigen Sachen machen und das Gerät neu einrichten könnte. Allerdings würde ich das gerne vermeiden, weil ich dazu erst einmal noch ein paar Platten kaufen müßte und es angesichts der Datenmengen bis zu einigen Tagen dauern würde.


    Welche Möglichkeiten habe ich nun, aus dem Schlamassel wieder herauszukommen?


    Wäre es möglich, das Gerät zu zwingen, Laufwerk 1 wieder einzubinden (und evtl. Laufwerk 3 raus) und einen File System check zu machen, bei dem ich mit etwas Glück nur einige Kleinigkeiten beschädigen oder verlieren dürfte? Wenn ja, wie geht das?


    Was kann ich mit Laufwerk 3 machen, was passiert dann mit den kaputten Blöcken? Hat es Zweck, das Laufwerk neu zu formatieren oder muß das Laufwerk zwingend ausgewechselt werden?

  • Das ist aber was komplett anderes ;)
    Der RAID ist ja noch aktiv. Ein Backup muss er so oder so machen. Und die Platten auch tauschen.
    Defekte Sektoren sind defekte Sektoren und können nicht repariert werden.


    Grüsse, David

  • Wenn die Platten nach Update nicht mehr richtig erkannt werden, dann würd ich es aber trotzdem erstmal mit nem Downgrade versuchen. Vorausgesetzt natürlich, dass vor dem Upgrade alles funktionierte.

  • Hallo,


    ich habe ein Downgrade auf Firmware 3.4.4 vorgenommen, da ich den Verdacht habe, daß das Problem mit Platte 1 mit der Firmware 3.5.0 zu tun haben könnte.


    Zustand nach dem Boot: Platte 1 wurde in der Datenträgerverwaltung mit Lesefehler angezeigt, alles andere unverändert. Habe auf Platte 1 einen Scan nach fehlerhaften Blöcken gestartet, wie er nach dem Fehler schon unter der vorigen Firmware ohne Fehler lief.


    Jetzt stellt sich die Frage, wie geht es weiter? Gibt es eine Möglichkeit, das RAID dazu zu zwingen, Platte 1 als gültig und Platte 3 als ungültig anzusehen? Damit wäre mir wohl vorläufig geholfen, denke ich.


    Oder ist die einzige Möglichkeit Komplettbackup und Neueinrichtung?

  • Hi,


    schwein gehabt. Ich hätte wenn sich der RAID degraded & read only ist, es dazu noch defekte sektoren gibt nix anderes gemacht ausser ein Backup.
    Defekte Sektoren haben nie etwas mit FW Versionen zu tun.


    Jetzt muss ich aber noch einmal Fragen... Zumindest bin ich etwas verwirrt ;) Wie genau sieht dann momentan dein RAID Verbund aus? Read Only degraded?


    Grüsse, David

  • Hallo Terz,


    genau, wie schon geschrieben, nichts geändert, das RAID ist degraded und read-only, aber anscheinend lesbar.


    Das mit dem Downgrade habe ich gemacht, weil ich keinen Wert darauf lege, daß mir noch eine Platte um die Ohren fliegt, während ich versuche, das Ganze wieder ans Laufen zu kriegen oder wenigstens Daten zu retten - jahrelang zuverlässig gelaufen, wenig gebraucht und dann fangen gleich zwei Platten gleichzeitig an zu spinnen, das kann irgendwie nicht "normal" sein...


    Also, wie geht's weiter?

  • Ok,


    wenn das NAS schon im Read Only ist, dann sollte man reboot´s vermeiden, deshalb eigentlich auf keinen fall ein UP / Downgrade machen (bei Defekten Sektoren).


    Jetzt backupst Du mal alle Daten die auf dem NAS sind / oder seien es nur die wichtigsten. Da wirst Du nicht herum kommen, esseidem Du benötigst überhaupt keine Daten.
    Danach ersetzt Du erst mal die degraded Disk wartest bis der resync vorbei ist und machst das selbige mit der zweiten defekten (welche solange verbaut bleibt).
    Immerhin ist dein RAID Verbund noch aktiv und müsste deshalb resyncen.
    Du müsstest mal schauen ob Du bei WD noch eine RMA machen kannst, sicherlich hast Du noch garantie auf den beiden Platten.


    Das sich, wenn so etwas passiert gleich mehrere verabschieden ist meist sogar "nomal", wenn diese Baugleich / von der gleichen Charge sind.
    Die erläuterungen dazu findet man hier im Forum.


    Wenn der resync / das Datensichern nicht funktioniert, dann gibt es noch Recovery möglichkeiten die allerdings Zeitaufwendig sind.


    Im Prinzip könnte man sagen: Backupe das was Dir wichtig ist. Damit es zu so einen fall überhaupt nicht erst kommt.


    Grüsse, David

  • Hallo David,


    ich habe an der Stelle folgendes Problem:
    Platte 1 habe ich mehrfach mit SMART-Test, Scan auf schlechte Blöcke usw. getestet, inzwischen auch mal herausgenommen und wieder eingesteckt.
    Habe sie inzwischen auch herausgenommen und an einem anderen Rechner mit dem Original-Windows-Utility des Herstellers geprüft. Sie scheint OK zu sein und ich würde gerne vermeiden, gleich drei neue Platten kaufen zu müssen (1x Backups, 2x Austausch). Habe sicherheitshalber auch noch mal das Firmware-Upgrade für diese spezielle Platte installiert...
    Allerdings bekomme ich nach dem Wiedereinsetzen immer noch die Fehlermeldung "Disk Read/Write Error". Fehlerhafte Blöcke suchen geht, also kann das NAS vermutlich durchaus auf die Platte zugreifen, will nur nicht. Kann es sein, daß der fehlerhafte Status irgendwo gespeichert ist?


    Das NAS mag also die Platte nicht mehr ins RAID einbinden. Wie mache ich dem RAID begreiflich, daß es diese Platte wieder einbinden soll? Platte ganz löschen? Oder muß ich sie von Hand einbinden, da das RAID im Read-Only-Mode ist - und wenn ja, wie genau geht das?

  • Hi,


    hast Du bei den Herstellertool eine option mit lese / schreibezyklen zu testen?
    Einige Herstellertools bieten da nur read oder LowLevel format an.... Beim Low Level würde er die defekten sektoren markieren, was in der Praxis aber nix bringt.


    Wahrscheinlich wurde auf "read" und defekten Sektoren geprüft und dabei wurde nix gefunden...
    S.M.A.R.T. Tests sind zu ungenau. Prüfungen damit kann man direkt vergessen.
    Es werden auch echt keine "die Platte ist defekt" Daten gespeichert.


    Sei es drum ;) Eine chance hat die Platte noch.
    Du müsstest die Platte einfach mal mit dd mit NULLEN beschreiben.
    z.B.

    Code
    dd if=/dev/zero of=/dev/sdZ bs=1024k


    sdZ == der Name der HDD.


    Wenn dd abbricht, oder hängen bleibt, dann hat die Platte auch was. Am besten öffnest Du dir auch ´ne zweite SSH Session und schaust ab und zu mal via dmesg nach was es macht. bei dd wird normalerweise "nix" via dmesg ausgegeben esseitdem es ist was defekt.
    Wenn das ohne Fehler durchläuft, dann einfach noch mal ein und ausstecken, so dass er einen resync anfängt.
    Seltsamerweise hatten wir das auch schon und keiner weiss woran es lag...


    Du müsstest doch nur eine RMA bei WD machen. (von der defekten platte).
    http://support.wdc.com/warranty/index.asp
    Da tippelst Du dann die Seriennummer ein und Du siehst Direkt ob Du noch garantie drauf hast.
    Wenn ja, dann füllst Du es mit deinen Daten aus und was der fehler ist, sendest es ein und bekommst ´ne refurbished. Bei der WD2002FYPS hast Du glaube 5 Jahre ;) Und die gibt´s erst seit 2009... Also nix neu kaufen sondern wenn dann tauschen Kostet nur ´ne Briefmarke :thumb:


    Grüsse, David

  • Hallo David,


    vielen Dank für Deine Mühe.


    Das Tool "Western Digital Data LifeGuard Diagnostics" macht anscheinend nur SMART-basierte Tests wie das QNAP unter Datenspeicher/Festplatten-SMART, erlaubt aber auch, Nullen auf die Platte zu schreiben (1 Mio. Sektoren oder ganz).
    Ich habe den Beginn der Platte überschrieben, aber das NAS macht keine Anstalten, das RAID neu aufzubauen.
    Ich habe auch mal eine ganz neu gekaufte Platte (QNAP-zertifizierte, billige Hitachi, genau gleiche Größe) eingesetzt, da passiert auch nichts.


    Daher würde ich gerne wissen (und das frage ich jetzt ungefähr zum 3. Mal ;)), wie ich aus dieser Situation heraus (RAID degraded, read-only) einen Rebuild des RAIDs auf Laufwerk 1 anstoßen kann.


    Oder geht es definitiv nicht und ich muß das RAID von Null an neu einrichten?

  • Hi,


    das sollte er eigentlich automatisch machen, wenn die Platte "nakkisch" ist und keine Partitions / Zeroblocks mehr da sind. (Deshalb dd).

    Code
    mdadm --remove /dev/md0 /dev/sda3


    Code
    mdadm --add /dev/md0 /dev/sda3


    Wäre ein Manueller weg ;)


    Grüsse, David

  • Hallo David,


    danke für Deine Mühe, aber wie schon mehrfach erwähnt, scheiterte das alles daran, daß das Laufwerk readonly war. Ich habe dann folgendes gemacht (aus diversen Forumsbeiträgen zusammengesucht):


    - Dienste deaktivieren
    - umount /dev/md0
    - mdadm -S /dev/md0
    - Datenträgerverwaltung/RAID-Verwaltung: Wiederherstellen


    Das lief dann an.


    Da es die Herrschaften von QNAP leider nicht für nötig hielten, eine man page für mdadm zu installieren, habe ich mich hiermit beholfen:
    http://www.freebsd.org/cgi/man…&arch=default&format=html


    Der Rebuild hing dann allerdings bei 17% (wo die defekten Sektoren auf Platte 3 anfingen). Im dmesg-Protokoll standen im Laufe der Zeit so hübsche Sachen wie:



    Ich habe anhand der Sektornummern gesehen, daß dabei immer wieder Zugriffe auf die gleichen Sektoren durchgeführt wurden und im Log, daß der Fehler offenbar einen Bug im Kernel getriggert hat. Da habe ich das Trauerspiel dann durch Ausschalten abgebrochen, Platte 3 ersetzt, auf den verbliebenen Platten das Firmware-Upgrade installiert, das NAS auf Firmware 3.5.0 geupgraded und das RAID neu aufgesetzt. Platte 1 verwende ich weiter, da ich keine Probleme feststellen konnte und annehme, daß es eine Inkompatibilität der NAS- mit der Laufwerksfirmware war. Da das RAID so ein Sensibelchen ist, denke ich drüber nach, BITMAP zu aktivieren, sobald der Rebuild durch ist...


    Insgesamt muß ich sagen, daß QNAP dringend Dokumentation darüber bereitstellen sollte, was man tun kann, wenn der automatische Rebuild fehlschlägt und was unterhalb der Oberfläche passiert. Damit meine ich z. B. Partitionierung der Platten, Aufbau des RAIDs, zur Verfügung stehenden Tools, manueller Wiederaufbau, Auffinden der Status- und Logdateien usw.


    Tschüß, Matthias