benötige Hilfe beim Rebuild eines Raid 6 Verbundes ( 2 Platten wohlmöglich defekt )

  • Hallo,


    bin komplett neu hier, habe bereits seit 2009 ein QNAP TS 509 Pro

    darin verbaut sind 5 x SAMSUNG HD103UJ 1AA0 in einem RAID 6 Verbund, welches aktuell "Nicht aktiv" ist.


    Zur Vorgeschichte:

    Angefangen hat es mit einem Stromausfall vor einigen Wochen.

    dann kam vor kurzen folgende Meldung:

    Code
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Recovering journal.
    Failed to synchronize the time from NTP server.
    Drive 5 plugged out.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Drive 5 has been removed.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Volume is in degraded mode.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Drive 5 has been added into Volume 1.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Start rebuilding.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Rebuilding skipped.

    Der Prozess wurde immer wieder abgebrochen bis dann irgendwann folgende Mitteilung kam.


    Code
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Drive 1 has been removed.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Drive 1 failed.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] RAID device is inactive.
    Failed to synchronize the time from NTP server.

    er zeigt dann permanent an das Laufwerk 1 Defekt sei und signalisierte es mit einer roten LED, Laufwerk 5 schien nicht mehr das Problem zu sein !?


    hatte dann einen Scan probiert:

    Code
    [Drive 1] Start Scanning bad blocks.

    er zeigte fehlerhafte blocks an und brach ab!

    hab dann eine neue HDD bestellt (1TB) und diese per HOTSWAP aus dem System genommen um ein REBUILD zu starten.


    Code
    Drive 1 plugged out.
    
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Hot-remove drive 1 failed.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Volume is in degraded mode.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Drive 1 has been added into Volume 1.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Start rebuilding.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Rebuilding skipped.

    Danach folgte nun eine Überraschung!


    Code
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Drive 2 has been removed.
    
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Volume is in degraded mode.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Drive 2 failed.

    :X


    hatte versucht das System neu zu starten, in der Hoffnung, dass er es nochmal probiert.. und landete dann hier:

    Code
    [RAID6 Disk Volume: Drive 1 2 3 4 5] RAID device is inactive.

    um Auszuschließen, das weitere Platten defekt sind habe ich daraufhin bei allen Platten einen Bad Block Scan durchgeführt, der scheinbar problemlos verlief.


    also tauschte ich die 2 Platte ebenfalls aus, in der Hoffnung, dass ein Rebuild initialisiert werden würde?!:(


    Code
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Add drive 2 to Volume 1 failed.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] RAID device is inactive.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Start examination.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Examination failed.

    Bevor ich die 1. Platte ausgebaut hatte( bzw. er den Fail 1. HDD anzeigte) konnte ich einen Teil der Daten noch retten/kopieren. Jetzt sehe ich zwar die Ordner habe aber kein Zugriff mehr auf die Daten!


    bin mit meinem Latein etwas am Ende! und bitte dringend um Hilfe oder Erklärung, ob man hier noch irgendwas retten kann, gern auch gegen Bezahlung/Nachricht per PM.

    Die Daten sind mehr als wichtig!



    need HELP !!<3



    Edit: habe jetzt nochmal zum Test alle alten Raid Platten ( in der richtigen Reihenfolge) eingebaut und das System zeigt alle Platten auf "Bereit" ohne Fehlermeldung und SMART-INFO "GUT"


    lädt aber den Raid nicht er ist immer noch "NICHT AKTIV"


    eine Überprüfung schlägt fehl:


    Code
    System started.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] RAID device is inactive.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Start examination.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Start examination.




    EDIT2:


    habe jetzt noch ein wenig rumprobiert im Putty und bin auf etwas gestoßen..


    volume status "Entladen"


    ich schau mal was passiert.. leg mich erstmal schlafen!


  • Bei einem TS-509 dürfte es sich wohl noch um ein Cat1 Gerät handeln, also ein Legacy Volume.

    Da könnte man mit mdadm und der CLI noch was versuchen.

    Aber: so wichtig können die Daten nicht gewesen sein, wenn es kein Backup gibt.

    Man kommt nicht umhin, es immer und immer wieder zu sagen:

    Ein Raid ist kein Backup!


    Der cat /proc/mdstat zeigt jedenfalls, das zwei HDDs im Raid fehlen.

    Und außerdem stimmt m.E. noch mehr nicht: Es sieht so aus, als ob eine Platte 6 (Spare -> bzw. neue HDD !?) jetzt Bestandteil des Raidverbundes ist.

    Durch das mehrfache Umstecken der Platten sehe ich ehrlich gesagt schwarz, was die Daten angeht.


    Man ***könnte*** versuchen mit mdadm die beiden Platten wieder um Verbund zu addieren, aber alles ohne Gewähr und auf eigenes Risiko!


    Gruss

  • Hallo FSC830,


    Danke dass du dir die Zeit genommen hast und mir helfen möchtest !


    Hatte ja hdd1 getauscht nach dem fail und im rebuild kam dann hdd2 fail.

    Daher hat er wahrscheinlich hdd1 quasi mit reingekommen.


    Was mich komplett irritiert, dass er ja dort 3mal raid1 ausgibt?! und die raid6 ja auf den "Fail Platten" liegt ?


    welchen befehl kann ich den usen um zu sehen auf welchen platten was ist ?

    Er hat ja die Platten jetzt auch nicht mehr als Fail angesehen auf einmal, alles sehr irritierend.


    Kann mir jemd. Sagen step by step wie und was genau man versuchen kann?


    Habe ein wenig Ahnung aber nicht wirklich und würde gern die letzten Chance nicht versemmeln.


    Backup vom backup.. Ja.. Im Na hinein.. Ist man ja immer schlauer.. Hilft mir jetzt überhaupt nichts so ein Spruch


    Also das Ergebnis vom letzten Versuch war das er das rebuild angefangen hat und in 5h fertig sein wollte aber nach 20 min den prozess wieder geskipped hat


    Code
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Start rebuilding.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Drive 1 has been removed.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Volume is in degraded mode.
    [RAID6 Disk Volume: Drive 1 2 3 4 5] Drive 1 failed.

    [ das sind jetzt alle ursprünglichen Platten, wo er aktuell FAIL 1 anzeigt ]


    Zum Verständnis, warum steht dort Raid1 ? warum ein (S) ? und warum kein (F) = Faulty?




    Wenn ich die Platte 1 tausche und mdstat mache zeigt er nur noch folgendes an:



    Code
    md0 : inactive sdd3[2] sda3[5](S) sdc3[3]
    2925580800 blocks


    6 Mal editiert, zuletzt von MaikZ ()

  • Die Raid1 sind Spiegel des Betriebssystems, die werden auf jeder Platte angelegt.

    Das Raid6 ist der Datenbereich, auf jeder Platte in der 3. Partition.


    Wenn das ein Backup vom Backup ist, dann sollten doch die Daten noch woanders (im Original) liegen?.

    Ich weiß, das Dir solche Sprüche nicht weiterhelfen, aber da (nicht nur gefühlt) wöchentlich so ein Fall hier auftaucht, muss man es einfach mantraarting immer wieder sagen: ein Raid ist und ersetzt kein Backup! Zumindest nicht dann, wenn es der einzige Speicherort der Daten ist.


    Wie gesagt, die hin- und hertauscherei der HDD läßt mich ziemlich skeptisch sein, was die Datenrettung angeht.

    Im Grunde hast Du m.E. 3 Möglichkeiten:


    1. Ein Ticket beim QNAP Support. Hier denke ich, wird man Dir auf Grund des Alters des Gerätes nicht mehr wirklich helfen.

    2. Je nach Wichtigkeit ein professionelles Unternehmen beauftragen, das kann richttig teuer werden.

    3. Du könntest es nach dem Muster im Anhang versuchen, aber Achtung: da ging es um ein Raid 5, bei dem ein HDD ausgefallen war und später wieder lief. Dabei handelte es sich um ein Backupsystem, d.h ein Datenverlust war einkalkuliert und wäre verschmerzbar gewesen.


    Gruss


    P.S. Wenn Du die letzte Chance nicht versemmeln möchtest (falls das nicht schon passiert ist), dann machst Du von allen HDDs einen Clone und arbeitest mit den geclonten Platten!

  • Zeitlicher Ablauf:

    Disk 5 fail, wiedergefunden, Rebuild jedoch skipped, also nicht durchgelaufen abgebrochen.


    Disk 1 fail, HD wurde getauscht, Rebuild jedoch skipped, also nicht durchgelaufen abgebrochen.


    Da wars vorbei mit der Parität im Raid 6, jeder weitere Ausfall ist dann ein Totalverlust aller Raid Daten.


    Dann kam bei dir jedoch Disk 2 fail und damit war das.


    Da kann in dem Fall wohl nur noch der Datenretter helfen.


    QTS liegt in einem Raid 1 über alle HDs/SSDs im NAS verteilt.


    Wenn die HDs, extern getestet jetzt alle OK sind, dann hat dein NAS ein Problem (Backplane, Mobo, CPU, RAM, was auch immer) und das kann dazu führen, dass hier Datenmüsli geschrieben wird und damit die Raid Paritäten kompromittiert werden.


    Du hast, beim letzten mal als alles noch im Zugriff war leider nur einen Teil retten können, wenn der Datenretter (ja der kostet gleich mal 3-4 stellig) auch nix mehr hin bekommt, hast du wenigstens noch einen Teil der Daten.


    Mag sein, dass dir der Spruch wegen dem Backup jetzt gerade nicht passt, aber das ist halt die typisch Deutsch Art. Erst muss einem persönlich Schaden entstehen, bevor man handelt.

    Jetzt hat es leider dich getroffen und leider sind die Aussichten hier noch was zu retten nur noch für Profis vorhanden, fürchte ich. Aber egal wie oft wir das hier schrieben, es kommt immer wieder zu diesen Fällen, leider.


    Ich und auch FSC830 wüscht niemandem so einen Datenverlust aber scheinbar werden fast alle User erst nach so einem Erlebnis wach.


    Wir haben da halt teilweise persönlich und auch beruflich einen anderen Background und so sichern wir hier auf externe HDs, ein zweites NAS, in die Cloud oder eine Mischung dergleichen.

    In deinem Fall sind das 3TB Daten, das passt auf eine 2,5" HD 4TB für 80€ Stück.

    Das kann man für wichtige Daten schon mal ausgeben, also gestatte uns daher die Bemerkung, dass die Daten in so einem Fall, rein objektiv betrachtet, nicht wichtig genug gewesen sein könnten.

  • Testen mit dem Tool des Herstellers, wobei ich nur die Tools von WD und Seagate kenne. Samsung hat aber sicherlich auch so etwas.

    Und clonen am besten mit Clonezilla.


    Gruss

  • gern auch gegen Bezahlung

    Wenn das mit der Bezahlung ernst gemeint ist und die Daten so viel wert sind: Professioneller Datenretter. Die sollten alle Daten wiederherstellen können. Für die ist das täglich Brot. Aber du musst da mit einer hohen dreistelligen bis niedrigen vierstelligen Summe rechnen.


    Ansonsten denke ich, dass man das Raid auf der Linux-Shell so weit wieder herstellen kann, dass das Raid zumindest lesend wieder erreichbar ist. Qnap macht letztlich nichts Anderes als die Linux-Tools zu nutzen. Aber das ist alles andere als trivial. Ich traue mir das nicht zu (und dabei mache ich so einiges in der Linux-Shell). Wenn du was falsch machst, sind die Daten womöglich erst recht weg. Daher ist der Hinweis, die Platten vor den Versuchen zu klonen, korrekt.