RAID 5 rebuild klappt nicht, zweite Festplatte mit Fehler

  • Hallo Community,


    ich habe ein Problem mit meinem NAS und vielleicht könnt ihr mir helfen...


    Ausgangslage:
    Firmware 4.2.0.1118
    RAID 5 6 Platten a 4TB



    Zwei Festplatten in meinem RAID Verbund wurden mit einer Warnung gekennzeichnet.
    "Bad blocks" (Platte 4 und 6)


    Scan durchgeführt und schon mal eine Platte nachbestellt.


    Als die platte kam habe ich das NAS runtergefahren und die Platte 4 durch die neue ersetzt.
    NAS hochgefahren.
    Rebuild skipped with RAID Group 1.
    Platte 6 wird mir angezeigt mit I/O Error.


    Ein rebuild ist nicht möglich?!


    Danach habe ich die PLatte 4 nochmal gegen die alte ausgetauscht und nun weiß ich nicht weiter (rebuild hat so auch nicht geklappt).


    Kann ich jetzt die Platte 6 noch durch die neue ersetzten und meine Daten bleiben erhalten??
    Ist durch das entfernen meiner PLatte 4 und wieder einsetzten der alten Platte mein RAID jetzt schon nicht mehr wiederherstellbar, wenn ich die platte 6 jetzt tausche????



    Danke für eure Hilfe.

  • Mmmmhhh, keiner ne Idee?


    Mein Ticket liegt jetzt auch schon den 5. Tag beim Support...

  • Zwei Platten im RAID5 ausgefallen + LVM2 Volumemanager = entweder kann dir der Support noch helfen oder du kannst dich artig von deinen Daten verabschieden. Backup scheint es ja keines zu geben.
    QNAP rückt keine Einzelheiten zum Volumemanager heraus.

  • Hallo,


    danke für die Response...


    Nur sind eigentlich nicht zwei ausgefallen :( Bad blocks heißt ja noch nicht kaputt.
    Irgendwie scheint im Moment auch meine Anzeige im Web nicht korrekt zu sein.



    In der Oberfläche sind alle Festplatten bis auf die Platte 6 grün.

  • Doch, es sind zwei Platten ausgefallen. Platte 4, die noch nicht synchronisiert ist und Platte 6, die auf Grund von BadBlocks Lesefehler verursacht. Dass du schreibgeschützt noch zugreifen kannst, verdankst du nur dem Umstand, dass Platte 6 noch nicht ganz ausgestiegen ist. Solange dies so ist, hast du noch die Chance deine Daten zu sichern. Lange würde ich damit aber nicht mehr warten.

  • Danke,


    das ist dann natürlich mist :-(.
    50:50. ich hätte also die platte 6 als erstes tauschen müssen...

  • Kurze Rückmeldung...


    Es gab Antwort auf mein Supportticket.
    Der Kollege meint, ich solle die Platte 6 ersetzen und einen rebuild anstarten...


    Ich habe allerdings das Gefühl, das der Support sich nicht unbedingt alle Informationen richtig durchließt.


    Ich glaube aber, da ich in dem anderen QNAP-Forum etwas ähnliches gefunden habe, das es klappen könnte.
    http://forum.qnap.com/viewtopic.php?t=43064
    --> spare rebuilding


    Naja, im Moment mache ich ein Backup und dann werd ich mir mal den Spass gönnen.


    christian
    Tja, das ist halt immer das Problem... Man nimmt sich vor ein Backup zu machen und es wird nichts draus :-(.
    Aktuell kann ich aber auf alles zugreifen und sichere... und sichere ... und sichere.

  • weitere kurze Rückmeldung...


    Die ganze Woche habe ich Daten gesichert.
    Gestern um 18:15 habe ich wieder mal meinen Server hochgefahren und siehe da, das rebuild startete wieder und und brach nicht nach 0.2% ab.
    Heute um 20:00 war es durchgelaufen und der Zustand ist wieder OK.


    Ich glaube nicht an den Geist in der Maschine, aber lucky me ;-).


    Nun werde ich mal die Platte 6 tauschen...

  • Tja, das war wohl leider nix...


    Das Tauschen der Festplatte 6 führte zum Tod der Platte 4 (rebuild angestartet --> Platte 4 und 6 in der Anzeige rot). Es gab wohl zuviele Fehler auf der Platte 4 (und scheinbar auch eine bad strip log) und ich musste alles neu aufsetzen.


    Daten konnte ich komplett sichern. Ich habe hier noch keine Fehler feststellen können.
    Jetzt habe ich einen neuen Speicherpool mit RAID 6 aufgebaut und warte jetzt noch auf meine RMA Festplatten.


    Der QNAP Support hat nicht weiterhelfen (wollen) können und war aus meiner Sicht auch schlecht.


    Danke Euch.


    MfG


    Christian

  • Das sind schon viele Erfahrungsberichte, wo Rebuilds von höheren RAID-Levels bei Ausfalltoleranz von n Festplatten nahezu mit Ansage zu Ausfall von n+1 Festplatten führen... Und dann die letzte Möglichkeit, das RAID komplett neu aufzusetzen und sich aufs Rückspielen vom Backup zu verlassen... Da ist RAID1 wohl noch das geringste Übel, weil im Katastrophenfall nicht wegen EINER defekteb Festplatte zuviel der ganze RAID-Verbund seine Daten zerschießt, sondern "maximal" der Inhalt eines einzelnen RAID1 dahin ist. Abgesehen davon ist wohl RAID1-Rebuild für die eine gesunde Festplatte viel schonender als der Rebuild eines höheren RAID....


    lG Matthias

  • Zitat von "Babylon"

    Das Tauschen der Festplatte 6 führte zum Tod der Platte 4

    Das War zu 99,99% abzusehen. Ich hatte nicht umsonst geschrieben:

    Zitat von "dr_mike"

    Solange dies so ist, hast du noch die Chance deine Daten zu sichern. Lange würde ich damit aber nicht mehr warten.


    Zitat von "Babylon"

    Der QNAP Support hat nicht weiterhelfen (wollen) können

    Er hätte nicht helfen können. Den Platten gut zureden hätte nichts genutzt.

  • Eigentlich könnte man hier schon fast als Handlungsanweisung für RAID ableiten: Verwende, wenn's geht, NICHT lauter gleich alte Platten, und plane ein, nach und nach noch weit vor Auftreten der ersten erwartbaren Probleme mit schönem zeitlichen Abstand Platte für Platte nach Alter routinemäßig dann zu ersetzen, wenn die verbleibenden noch jung genug für den Megastreß vom Rebuild sind....

  • Matthias
    Du wirst es kaum glauben aber das ist tatsächlich "best practise" in Unternehmen, möglichst keine Platten aus dem gleichen Produktionslos in einem RAID zu verbauen.

  • ... nur nicht so einfach, als Gelegenheits-NAS-einrichter beim Händler des geringsten Mißtrauens (weil bei dem die Platten am schonendsten im Lager behandelt werden und ich sie dort abholen kann, anstatt mich auf Versandverpackungen verlassen zu müssen) 4 Platten vom gleichen Typ aber aus verschiedenen Lieferlosen zu bekommen.... naja, mein erstes Zwillingspärchen zweier gleichalter Platten ist ja schon getrennt durch einen Frühausfall auf Garantie, und die Ersatzplatte ist garabtiert ein anderes Los....

  • Zitat von "MatthiasM"

    Das sind schon viele Erfahrungsberichte, wo Rebuilds von höheren RAID-Levels bei Ausfalltoleranz von n Festplatten nahezu mit Ansage zu Ausfall von n+1 Festplatten führen...


    Ist wohl einfach der Tatsache geschuldet, dass die Kapazitäten kontinuierlich steigen, aber der URE bei den meisten Platten bei 10^14 bleibt. Hier fehlt vielleicht ein Hinweis von QNAP. Ich würde das einfach in die GUI implementieren, dass beim Anlegen eines RAIDsets ab einer Kapazität von X TB ein Warnhinweis eingeblendet wird, sich besser bei den Enterpriseplatten umzusehen.

    Zitat von "dr_mike"


    Du wirst es kaum glauben aber das ist tatsächlich "best practise" in Unternehmen, möglichst keine Platten aus dem gleichen Produktionslos in einem RAID zu verbauen.


    Ich habe meine Platten auch "verteilt" gekauft.
    Im Unternehmensumfeld übernimmt das in der Regel schon der Server- oder Storagelieferant (HP, EMC², Netapp...).

  • Für mich als Münchner mit Gewerbeschein ist es halt am einfachsten (nicht unbedingt am billigsten, Straßenpreis ist manchmal sogar einen Tick günstiger als HEK für kleine Stückzahlen), Festplatten, NASen etc. auf Zuruf beim ctt zu holen. Die kommen dann direkt ab Lager und haben genau den einen großen Sammeltransport vom Herstellerlager zum ctt überleben müssen und dann wird nix mehr groß umgepackt und bei der Post herumgeworfen (IMHO eine Hauptursache für DOA und Frühausfälle)......


    Wegen Rebuild: Gibt es irgendwo irgendwelche Abschätzungen, wieviele R/W-Operationen, Kopfbewegungen oder sonstige plattenstressende Aktionen etc. in Abhängigkeit vom RAID-Level pro Terabyte zu "rebuildender" Daten anfallen. Beim Rebuild eines RAID1 müßte theoretisch "nur" das gesamte Datenvolumen der einen verbliebenen Platte gelesen und auf die eine neue geschrieben werden, bei höhenen Levels wird's komplexer, weil die Dateien ja über alle verbliebenen Platten zusammengesucht, die fehlenden Stückchen der ausgetauschten Platte wieder ergänzt, alles mit den Prüfsummen verglichen, neue generiert etc. wird..., wäre also plausibel, wenn da pro rebuildetes Byte dreimal soviel Plattenaktivität auftritt wie bei RAID1...


    >> Also immer Abschätzung, kann man mit der "Platzverschwendung" vom RAID1 (oder theoretisch - können das große NASen- RAID10) leben und der Begrenzung, daß ein Volume nicht größer als eine Einzelplatte sein kann, dann hat man wohl die besten Chancen, im laufenden Betrieb eine Platte zu tauschen ohne Probleme...


    lG Matthias


    PS.: Was vielleicht noch für mehrere RAID1 statt einem großen höheren RAID spricht: Backupplatz auf externer Platte: Je RAID1 eine (oder zirkulierend oder nach Opa-Papa-Kind-Prinzip natürlich mehrere) separate, gleichgroße Einzelplatte(n), das ist dann schön eindeutig, klar und keine Ausrede wegen Platzmangel...

  • Zitat von "MatthiasM"

    Wegen Rebuild: Gibt es irgendwo irgendwelche Abschätzungen, wieviele R/W-Operationen, Kopfbewegungen oder sonstige plattenstressende Aktionen etc. in Abhängigkeit vom RAID-Level pro Terabyte zu "rebuildender" Daten anfallen.


    Der Rebuild ist blockbasiert, d. h. es wird aus den Informationen der anderen RAID Members die defekte Platte wiederhergestellt. Dazu wird also jede Disk von vorne bis hinten "durchgeknetet. In Wikipedia einfach mal den Suchbegriff RAID eingeben. Ist ein guter Artikel.


    Zitat von "MatthiasM"


    Was vielleicht noch für mehrere RAID1 statt einem großen höheren RAID spricht: Backupplatz auf externer Platte: Je RAID1 eine (oder zirkulierend oder nach Opa-Papa-Kind-Prinzip natürlich mehrere) separate, gleichgroße Einzelplatte(n), das ist dann schön eindeutig, klar und keine Ausrede wegen Platzmangel...


    Ich arbeite mit RDX Laufwerk und habe damit inkl. des QNAP-NAS (reiner Backupspeicher) das Doppelte des Livesystemspeichers als Backupspeicher. Bei professionalen NAS-Systemen mit Deduplizierung etc. wird das Verhältnis noch größer.