Zweite HDD während/nach RAID 5 - Rekonfiguration ausgefallen! Status?

  • Hallo Forum,


    ich habe schon viel im Netz danach gesucht, meinen Fall nicht gefunden und nun bin ich mir unsicher, wie ich weiterverfahren soll, um Datenverlust zu vermeiden.
    Bei mir lief jetzt jahrelang ein "QNAP TS-859 Pro +" sehr problemfrei. Vor ca 4 Monaten habe ich für alle 8 Slots "WD Red 6 TB WD60EFRX-Festplatten" neu gekauft und ein RAID5 neu erstellt, dann meine Daten daraufkopiert. Trotzdem war von den über 40TB noch mehr als die Hälfte frei.


    Jetzt, nachdem das neue RAID mit den neuen WD-Platten gerademal 4 Monate lief, komme ich aus 14 Tagen Urlaub wieder und HDD 5 hat eine rote Statusanzeige. Im Interface sehe ich, dass das NAS die nicht mal mehr erkennt. Auch nach dem Ausbau und Anschluß an einen anderen Rechner war klar: Festplattenklacken bedeutet Totalschrott.
    Bei RAID5 ist das ja kein Problem, also Ersatz besorgt und eingebaut. Im Interface konnte ich das Starten der RAID-Wiederherstellung sehen, also vom Interface abgeloggt und dem Server seine Ruhe gelassen, da ich weiß, dass der Recovery Tage dauern kann.
    Am Tag danach sehe ich nach und muß schockiert feststellen, dass auch die ebenfalls nur 4 Monate alte Festplatte in Schacht 2 ausgefallen ist, ebenfalls eine rote LED über der HDD. Für das, dass die WD-Red-Festplattenserie für NAS-Betrieb und mehr Stabilität steht: eine unterirdische Leistung von WD!


    Da die RAID-Rekonfiguration abgeschlossen schien (also die Anzeigen auf dem Panel normal waren: Servername, Firmwareversion (welche das war, weiß ich leider nicht), LAN1, LAN2) und die Festplatten nicht mehr ratterten, ich jedoch keinen Interfacezugriff hatte, wollte ich, um im Interface zu überprüfen, ob die zweite HDD auch tatsächtlich defekt war, das NAS kurz neu starten, um auch die nächste WD-Leiche auszutauschen. Also habe ich über die Frontpanelbuttons einen Neustartbefehl losgeschickt.


    Seit 4 Tagen sagt mein NAS also: "Rebooting System, please wait"
    Weiterhin siehts gerade folgendermaßen aus:
    - Server ist auf beiden IP-Adressen pingbar
    - Zugriff auf das Interface besteht nicht
    - Zugriff über TelNet und SSH bestehen nicht
    - Zugriff auf den Konsolenoutput über den VGA-Ausgang besteht nicht (wirft nur ein schwarzes Bild)
    - Festplatten scheinen im Moment nichts zu tun: kein Rattern der HDDs und kein Blinken der HDD-LEDs
    - Die Power-LED blinkt grün (statt leuchten)
    - die Status-LED leuchtet rot (statt grün) (Laut Handbuch Seite 25 kann die rote Status-LED alles mögliche bedeuten)
    - LED von HDD2 leuchtet rot
    - LEDs aller anderen HDDs leuchten, wie immer, grün


    Einerseits kann es natürlich sein, dass das Rekonfigurieren von HDD5 schon fertig ist, da die Panelanzeige ja Normalzustand signalisiert hat und erst danach HDD2 ausgefallen ist
    Andererseits macht mich das Blinken der grünen Power-LED und das rot-leuchten der Status-LED besorgt, dass der Server es durch Ausfall von HDD2 vielleicht gar nicht bis zum Ende der Rekonfiguration geschafft hat.


    Jetzt bin ich mir natürlich extrem unsicher, was ich tun soll:
    Warten (und wenn ja, wie lange?) oder per Power-Knopf ausschalten und Neustarten versuchen oder schnellstmöglich HDD2 tauschen?


    Kann jemand sagen, in welchem Zustand sich mein NAS befindet und hat Rat?


    Ich bin echt verzweifelt, :(


    Vielen Dank schonmal
    R82

  • Kann jemand sagen, in welchem Zustand sich mein NAS befindet und hat Rat?

    Die Daten sind im Nirvana. Der Ausfall der 2. Platte (100%ig während des Rebuilds) im RAID5 hat zum Abbruch des Recovery geführt. Dadurch war das Volume nicht mehr im Zugriff, weswegen du auch keinen Zugriff mehr auf das NAS hast.
    Ausfall 2er Platten in einem RAID5 bedeutet - keine Chance mehr.


    Auch hier, gilt wie schon gefühlte 1000 mal geschrieben: Ein RAID ist und ersetzt kein Backup.

  • Hey dr_mike,


    danke Dir für Deine schnelle Antwort.
    So oft habe ich das selbst gepredigt, bei mir selbst war ich mit Backup einfach zu faul und nachlässig.


    Alles was Du schreibst klingt schlüssig und trifft, so glaube ich, 100%ig zu.
    Nimm es mir bitte nicht böse wenn ich trotzdem noch auf andere Posts und Meinungen hier warte, vielleicht fällt irgendjemandem ja doch noch etwas ein.


    Ich danke Dir für die direkten Worte.
    R82

  • Wenn die zweite Platte mit dem gleichen Fehler ausgestiegen ist, wie die erste, dann hast du definitiv keine Chance mehr.
    Wenn die Platte noch Lebenszeichen von sich gibt, könntest du es mit einem Bit-exaktem Clone dieser Platte versuchen, das RAID nochmal zu beleben.

  • Hey dr_mike,
    ich hab die HDD ausgebaut, sie wird vom anderen Computer noch erkannt.
    Ich würde das mit dem Klonen gern versuchen.
    CloneZilla ist, hoffe ich, dafür geeignet?


    Ich hab die beiden HDDs schon angeschlossen, und bin im Moment in den Experts-Settings von Clonezilla. Screenshot im Anhang.
    So wäre (vom Bauchgefühl aus) meine Auswahl. Ist das gut oder soll ich was anders einstellen?


    Vielen, vielen Dank schonmal.
    R82

  • Hey doc,


    das Klonen der HDD läuft jetzt, ich geb Bescheid, wenns fertig ist, kann aber noch einige Stunden/Tage dauern


    Falls das Klonen durchläuft würde ich dem laufenden Server die HDD füttern und einen RAID-Restore versuchen, right?
    Ist das der Plan?


    Danke!
    R82

  • Hey doc,


    nein, und ich fürchte das wird auch noch eine gute Weile dauern.


    Da ich meinen Laptop täglich benötige und die BIOS-Versionen der Desktoprechner, die ich habe, mit so großen HDDs intern nicht klar kamen (haben sich bereits im BIOS immer aufgehägt), so blieb mir nichts anderes übrig als die HDDs beide über USB-Bays einzubinden.
    Nach 116h hab ich jetzt 24,81%.


    Da ich die HDD nicht gefährden und noch mehr beanspruchen will, warte ich jetzt einfach ab, bis der Spiegelungsvorgang fertig ist. Kann aber vorraussichtlich noch einige (2-3) Wochen dauern.


    Aber ich melde mich, sobald der Vorgang abgeschlossen ist.


    R82

  • Hey doc,


    ich wollte Euch und alle die, denen ähnliches passiert, auf den neusten Stand bringen:


    Also ich bin jetzt über Monate an freien Wochenenden mit Freunden dran gesessen und folgendes gemacht/ist passiert:

    • USB-Clon war zu instabil, ist abgebrochen. Wollte nen Clon in einer Bay versuchen:
    • In meiner 2-HDD-ClonBay hat sich dann der Controller der defekten HDD verabschiedet. Also mit einem Controller einer neuen, baugleichen HDD die defekte HDD wiederbelebt. Erfolgreich.
    • Nachdem der Controller ausgefallen ist hat jedoch die HDD angefangen, Ausfallgeräusche zu machen. Folge: Oberflächenschaden.
    • Ich hab alle 8 HDDs über 2 Stück PCI-4er-SATA-Controller an einen Rechner angeschlossen und von einem Live-Ubuntu gebootet.
    • Hier hab ich einiges erfahren und gelernt, über Festplattenchecktools, RAID-Partitionierungen, usw. und über das Linux-RAID-Tool mdadm (ein Freund konnte sein in seinem NAS defektes RAID hier erfolgreich auslesen und backuppen)
    • Das RAID wurde teilweise sogar als Datenträger der richtigen Gesamtkapazität erkannt.
    • Leider war, trotz diversen Clon-, Backup-, Rebuilt- und Restoreversuchen von diversen HDD-Teilen anderer RAID-member nix mehr möglich: ich konnte das RAID zwar sehen, aber nicht starten, also nicht auf Daten zugreifen, da die RAID-Informationen der defekten Platte fehlten


    Doc:
    Dein Feeling/Erfahrung war also absolut richtig. Trotzdem bin ich froh, es gemacht zu haben, denn ich konnte auf diese Weise noch einiges lernen.


    Ich geb das RAID jetzt endgültig auf, lern draus, fang an kräftig zu sparen und kaufe mir nen zweiten Spiegelserver sowie weitere Backuplösungen, um mein nächstes RAID vernünftig zu sichern.


    Vielen, vielen Dank für Deine Zeit, Hilfe und Einschätzungen!


    R82


    P.S.:
    Hast Du für mich Tipps für das Backuppen von großen RAID-Systemen? Tandberg-Bandlaufwerke sind nämlich echt zu teuer... Wie sicherst Du Deine Daten, falls ich fragen darf?

  • Hallo,
    danke für deine Rückmeldung.


    Trotzdem bin ich froh, es gemacht zu haben, denn ich konnte auf diese Weise noch einiges lernen.

    Die wichtigste Erfahrung, die du machen konntest ist, dass ein RAID keine Datensicherung darstellt. ;)


    Vielen, vielen Dank für Deine Zeit, Hilfe und Einschätzungen!

    Bitteschön.



    Wie sicherst Du Deine Daten, falls ich fragen darf?

    Redundant über mehrere QNAP-NAS per RTRR. Wobei die originalen Daten auf den Rechnern liegen bleiben und mit NetBack von QNAP auf das erste Backup-NAS synchronisiert werden.