Problem beim Wiederherstellen des RAID-5-Verbundes

  • Hallo an alle,


    ich habe folgendes Problem und vielleicht gibt es ja jemanden, der mir dabei hilft:


    Ich habe eine QNAP TS-559 Pro+ mit 5 x "WDC WD20EARS-00MVWB051.0" (je 2 TB) im RAID 5 verbund. Firmware-Version: 3.7.1 Build 20120615


    Jetzt ist Drive 2 ausgefallen, HD-LED blinkte rot, hatte "Bad Blocks". Nach einem SMART-Schnelltest blieb die HD-LED auf konstant rot, der SMART-Status wechselte auf "NORMAL" (read failure).


    Habe dann Drive 2 im laufenden Betrieb durch eine neue HD des gleichen Herstellers und gleichen Modells ersetzt. Hat alles nach Anweisung Handbuch funktioniert.
    Nach dem Einsetzen der neuen HD begann sofort der Rebuild.


    Der Rebuild war ungefähr auf 83% bis 90% als die QNAP öfters piepste. Alle HD-LEDs waren nun grün, aber die Status-LED der QNAP blinkte rot.


    Im Protokoll war zu lesen, dass ein Fehler beim Zugriff auf Drive 1 auftrat und deshalb der Rebuild übersprungen wurde.


    Habe dann einen SMART-Schnelltest von Drive 1 durchgeführt und erhielt "read failure", Wechsel in den SMART-Status "NORMAL", aber HD-LED immer noch grün.
    In der Datenträgerverwaltung steht der RAID-Verbund auf Status "Entladen"
    In der RAID-Verwaltung ist der Datenträger disabled (ausgegraut) mit Kommentar, dass keine Vorgänge durchgeführt werden können.


    Die Laufwerke sind auch nicht mehr erreichbar.
    Die QNAP steht nun so mit blinkender roter Status-LED und grünen HD-LEDs


    Wie ist das weitere Vorgehen bzw. was kann ich tun, dass alles wieder funktioniert?



    Für schnelle Hilfe wäre ich euch sehr dankbar.

  • Moin,


    diese Platten sind nicht für den Einsatz in QNAP's und schon gar nicht für den Raidbetrieb zugelassen.
    vgl. http://www.qnap.com/de/?sn=4098&lang=de


    Du hast also mit dem Feuer gespielt und Dich grade verbrannt.
    Denn das was Du beschreibst,... ist der Klassiker für diese Platten, kannste hier in Forum leider zu hauf lesen.


    Entweder du betreibst die Platten als Single Disk (das hat bisher noch keine Probleme gemacht.)
    oder du kaust Dir nen Satz neue Platten


    Neuaufsetzen und Backup zurückspielen.


    Sorry

  • Hallo bladekiller,


    eigentlich wollte ich eine mögliche Lösung des Problems und nicht eine Belehrung, was man nicht alles tun darf. Ich kann selber lesen und mir ist diese Liste sehr wohl bekannt.


    Mein beschriebenes Problem hätte ja auch bei den empfohlenen HDs aus der Liste auftreten können, oder sind diese HDs vor Fehlern gefeit.


    Ich möchte einfach nur wissen, ob es eine Lösung gibt und wenn ja, wie diese aussieht, egal welche Platte dahinterhängt.


    Also nichts für ungut


    Gruß Harald

  • Moin zum zweiten,...


    wenn im Normalfall (also mit den "richtigen Platten") eine Platte ausfällt,.... steckt mann eine Neue rein,.... und schups,.... ist wieder alles in Butter,....


    Fällt im RAID 5 mehr als eine Platte aus,.... so wie bei Dir, ist Essig mit den Daten, dann kann das System keine Daten mehr herstellen.
    Mag sein, das mann noch Daten retten kann, aber das entzieht sich meiner Kennntnis und meine Geldbeutels. Zumal ich für solche Fälle ein Backup hätte.


    Genau diese sporadischen Aussetzter, wie bei deiner ersten Platte, sind es was die Green WD so tückisch machen.


    Auch bei anderen Platten könnten diese Fehler durch Fremdeinwirkungen,...(Überspannung oder die Ignoranz des Users der den ersten Festplatten defekt freundlich weggelächt hat) auftreten. Auch hier keine Chance.


    Sorry, wenn Dir die Antwort nicht gefällt,...... aber so isses nun mal.

  • Zitat von "Zach.Harald"

    Habe dann einen SMART-Schnelltest von Drive 1 durchgeführt und erhielt "read failure", Wechsel in den SMART-Status "NORMAL", aber HD-LED immer noch grün.
    In der Datenträgerverwaltung steht der RAID-Verbund auf Status "Entladen"
    In der RAID-Verwaltung ist der Datenträger disabled (ausgegraut) mit Kommentar, dass keine Vorgänge durchgeführt werden können.


    Vorab:
    Ich bin kein Fachmann, sondern nur ein interessierter RAID5 Anwender, der Erfahrungen sammeln will und daher ein paar Fragen an die Wissenden in den Raum stellt.


    Was mich wundert ist hier der SMART-Status "NORMAL", das würde doch bedeuten, dass die HD1 trotz des "read failure" wieder als Okay angesehen wird, oder?
    Warum kann man dann nicht erreichen, dass das NAS nochmals einen Rebuild startet?

  • smart "normal" sagt soviel aus, wie wenn ich dir von den sonnenaktivitäten von gestern erzählen würde. diese information bringt dir auch nichts. genau so verhält es sich mit smart. warum? ich selbst hatte so ein phänomen. eine platte ist ausgefallen (wohlgemerkt eine sata 24/7 serverplatte und keine grüne). in der anzueige vom nas mit abnormal. raid degreaded. smart test gemacht. alles wieder normal. sogar den rebuild hat er begonnen. doch leider bei 90% hats ihn dann aufgestellt. also platte raus und zurück an seagate. das sind märchen, die dir da erzählt werden.
    die beste absicherung ist ein backup, das auch regelmäßig auf vollständigkeit geprüft wird.

  • Zitat von "FerencS"

    Warum kann man dann nicht erreichen, dass das NAS nochmals einen Rebuild startet?


    Weil hier mehrere Dinge in einen Topf geworfen, vermengt und falsch verstanden werden.
    Lies dir den Text des TE nochmal genau durch, dann wirst du es verstehen.
    1. Dem TE ist Platte 2 augefallen mit fehlerhaften Blocks.Dieser Fehler wird vom Kontroller gemeldet und hat nichts mit dem SMART zu tun. Der TE macht aber einen SMART-Test. Das war Fehler nummer eins. Richtig wäre hier ein Badblockscan gewesen.
    2. Der TE tauscht die Platte gegen eine neue aus. Der Rebuilt beginnt und stresst die anderen Platten, die wahrscheinlich gleiches Herstelldatum haben wie die ausgefallene Platte. Noch während des Rebuilt meldet der Kontroller einen Lesefehler auf Platte 1. Dies bricht den Rebuild ab, was logisch ist, weil mit nicht lesbaren Daten sich nunmal nichts rebuilden lässt.
    3. Nächster Fehler des TE, er macht wieder einen SMART Test statt einem Badblockscan. Dies führt dazu, dass die Platte noch mehr gestresst wird, was dazu führt, dass auch der SMART-Status heruntergestuft wird.


    Nun sind alle Platten noch grün, weil ein Lesefehler nicht als ernster Fehler eingestuft wird. Das RAID ist jedoch in einem Zustand, in dem es nicht mehr arbeiten kann. Dies zeigt die Status LED mit ihrem blinken an. Der RAID Rebuild liese sich wohl wieder starten, bricht aber mit hoher Wahrscheinlichkeit an der gleichen Stelle wieder ab, da der Lesefehler nicht behoben wurde. Der Fehler wird sich aber mittlerweile nicht mehr beheben lassen, weil durch das Stressen der Platte mit dem sinnlosen SMART-Test, der ja nichts repariert, sich der Zustand der Platte weiter verschlechtert hat.


    Zusammengefasst heisst das, wenn man schon einen Fehler hat, sollte man zusehen, diesen so schnell als möglich zu beheben und nicht durch weitere Stresstests zu verschlimmern.


    Zitat von "Zach.Harald"

    Mein beschriebenes Problem hätte ja auch bei den empfohlenen HDs aus der Liste auftreten können, oder sind diese HDs vor Fehlern gefeit.


    Klares JA!! Diese Platten sind schon deswegen vor genau DIESEN Fehlern gefeit, weil sie andere Korrekturverfahren verwenden. QNAP hat diese Platten nicht auf die Liste der NICHT empfohlenen Platten gesetzt, weil sie WD nicht leiden können, sondern weil WD diese Platten ausdrücklich als für RAID ungeeignet beziffert.
    Zitat von dieser Seite http://wdc.custhelp.com/app/answers/detail/a_id/1397

    Zitat

    Critical: WD Caviar Black, Caviar Green, and Caviar Blue hard drives are not recommended for and are not warranted for use in RAID environments utilizing Enterprise HBAs and/or expanders and in multi-bay chassis, as they are not designed for, nor tested in, these specific types of RAID applications. For all Business Critical RAID applications, please consider WD’s Enterprise Hard Drives that are specifically designed with RAID-specific, time-limited error recovery (TLER), are tested extensively in 24x7 RAID applications, and include features like enhanced RAFF technology and thermal extended burn-in testing.


    Zitat von "HelmutF"

    in der anzueige vom nas mit abnormal. raid degreaded. smart test gemacht. alles wieder normal. sogar den rebuild hat er begonnen.


    Ich habe dein Thema dazu http://forum.qnapclub.de/viewt…&t=21739&p=121955#p121876 gelesen. Wenn du dir mal die Screenshots zu den alten und neuen Werten anschaust, wirst du feststellen, dass der Test nur sehr wackelig bestanden wurde.
    Die Raw_Read_Error_Rate lag im ersten SMART-Report 3 Punkte unter dem Schwellenwert, was dir als ABNORMAL quittiert wurde. Im zweiten Report liegt sie nur 1 Punkt über dem Schwellwert. Der Grund dafür ist recht einfach zu erklären. Der ermittelte Wert ist ein statistischer Mittelwert aus einer bestimmten Anzahl Lesezyklen.
    Stell dir vor, du hast an einer einzigen Stelle der Platte einen schwer lesbaren Sektor. Nimm weiter an, dass dieser Sektor während der gesamten Nutzungszeit der Platte nie gelesen werden musste. Dein Wert wäre immer gut. Nun schreibst du genau in diesen Bereich Daten, die sehr häufig benötigt werden. Dein Wert wird sich in kürzester Zeit verschlechtern. Ein Badblocktest schliesst nun diesen Sektor aus und legt die Daten an eine andere Stelle. Dein statistischer Wert wird also wieder etwas besser. Das ist nur eine simple Beschreibung. In wirklichkeit läuft das Ganze natürlich etwas komplizierter ab.

  • Zitat von "bladekiller"

    Mag sein, das mann noch Daten retten kann, aber das entzieht sich meiner Kennntnis und meine Geldbeutels. Zumal ich für solche Fälle ein Backup hätte.


    Die Wiederherstellung des RAIDs ist an dieser Stelle einem Datenrettungsdienst noch möglich, für die ist das Alltag, die Preise dafür entziehen sich aber auch meiner Kenntnis.


    Obwohl dies auch womöglich als Belehrung empfunden wird:
    Die Ausfallsicherheit durch ein RAID5 sinkt mit der Anzahl der Platten und der Grösse der Platten. Weiss wahrscheinlich jeder, bis auf die, die noch RIAD5s aus 8x3TB bauen. 8-)


    Nun gilt dies aber leider genauso für die Wahrscheinlichkeit, dass ein RAID5-Rebuild gelingt. Die ist bei einem 8x500GB RAID5 noch bei 92%, bei einem RAID5 aus 8x2TB nur noch bei etwa 32% einzuordnen. Bei einem 8x3TB liegt sie noch deutlich drunter. Oha ? :shock:


    Für den Fall hier dürfte die Wahrscheinlichkeit eines erfolgreichen Rebuilds bei etwa 50% gelegen haben, dies vermindert um einen einen unbekannten Faktor der für RAID-Systeme ungeeigneten WD green. Nehmen wir mal an, dass die Wahrscheinlichkeit wenigstens unter 50% abgesoffen sein sollte. Hätten Sie's gewusst - Statistik, für die keine QNAP was kann.


    Und nun ?


    Nicht jeder macht sich die Mühe, sich wenigstens oberflächlich in RAID-Statisken einzulesen. Man lernt dann schnell, dass in der professionellen IT-Welt RAID5 bei heutigen Plattengrössen nicht mehr anzutreffen ist und durch andere Konzepte ersetzt ist oder wenigstens konsequent gebackuppt wird.


    Für den Heimbedarf sind bei mir daheim daher alle RAID5 gestrichen. Hätte ich noch ein RAID5, hätte ich vor einem Rebuild in jedem Fall ein Backup angefertigt. Ich will den Teufel nicht an die Wand malen, but statistics is: Wer noch auf der Suche nach den letzten richtig guten Abenteuern ist, sollte RAID5-Rebuilds ohne vorheriges Backup machen, das ist bei einer 4-6bay NAS mit je 2TB etwa, wie im Casino alles auf Rot oder Schwarz zu setzen.


    Viele Glück dabei ! :D


    *Ironiemodus aus*
    *Belehrungsmodus aus*


    GLG GBD

    Einmal editiert, zuletzt von GorillaBD ()

  • GorillaBD:
    Danke dafür das du die Fehlerwahrscheinlichkeiten aufs Tapet gebracht hast. Ich hatte das zwar schon vor längerer Zeit gelesen, mir war aber nicht mehr bewusst wie schlimm das z.B. mit 3 TB HDs schon ist.


    Ist es denn sinnvoll bei einem RAID5 hin und wieder einen Badblock-Scan zu machen?
    Sozusagen als vorbeugende Fehlererkennung (und ev. Behebung).